《教师生活365》网[师慧园]论坛

 找回密码
 必须实名注册
查看: 87|回复: 0
打印 上一主题 下一主题

解决科学问题才是硬道理-—数据库界的的四位图灵奖得主

[复制链接]

1万

主题

2万

帖子

20万

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
204692
跳转到指定楼层
楼主
发表于 2015-4-20 12:36:20 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
解决科学问题才是硬道理-—数据库界的的四位图灵奖得主(2)

       解决科学问题才是硬道理-—数据库界的的四位图灵奖得主(2)
说明 原拟名《梅花香自苦寒来,关系库从磨难出》,以突出E.F.Codd经历的困难, 近日连开两个973项目交流会,换场期间,有朋友建议把最后的小标题升为大标题,以突出其贡献,也合今天973 基调;此外,第一次在北京机场发博文,匆忙之中,如有错漏,请及时提醒)。  

   功过从何数 1981年,58岁的E.F.Cood 获得图灵奖,这是数据库界的第二枚(也是久违了的)图灵奖。从1970年提出关系数据库到获奖,奋斗十一年,终成正果。如今,斯人已驾鹤西去,回望其成功之路,不禁想起了电视剧《西游记》取经成功后的插曲《青青菩提树》:
      "几多朝朝暮暮,漫漫云烟无数,.....
                 历经坎坷终无悔,未教年华虚度.....         
                           面对大千世界, 功过从何数? ......

 好,现在就来数一数。
  
  网上传统传记太多,这里想写一篇不很传统的、轻松一点的描述,须从数据库的型与值说起.  
  数据库的型与值  模型和模特儿在英语中是同一个单词model,其实,译音又译意的“模特儿”既通俗、又朴素,也最直白地说清楚了高雅的“模型”在数据库中的的含义,模型就是骨架。且看图:
  上图中,左边的模特, 抽象一点,不过八两铁丝,一些手艺;披上了衣服后,加上想象,就有了的美感、就产生了价值或数值;用计算机专业的行话,左边是“型”,右边是“值”。
  其实,模特不必升级为活生生的美女靓男,那不过增加了若干不必要的语义,商业的,心理的,展示的,诱惑的,等等,目的是 买家买家快掏钱,而过分的“型”,可能干扰对“值”的评价,
  
  下图中 ,左上是一个层次库模型。左下是其对应的库值。它是上文提到的网状数据库模型的特例,只不过比网状模型上多了一条限制----每个节点至多一个父节点。
  右边是关系模型,我们凡人,熟视无睹,看千遍,也不一定能看出是图灵奖的素材。  ·

  关系数据库的传奇 笔者有个奇怪的(穿越的)感觉,旋律优美的歌曲《传奇》适合用来赞颂E.F.Codd对关系模型的衷情和忠诚,试看下面的分段演绎:  
  《传奇》:“只因为在人群中多看了你一眼,再也没能忘掉你的容颜,…..”
  在E.F.Codd观察的二维表格之前,成千上万人就观察过,可人们都熟视无睹,擦肩而过;
  唯有E.F. Codd,在1970年的某一天,在人群中多看了它几眼,奇迹发生,“来电了”,于是投入心血,把对表格的那份情有独钟,发表在《Communication of the ACM》,标题为 “A Relational Model of Data for Large Shared Data Banks”。
  此文在在集合论的严格数学基础上,建立了关系数据库模型;接下来一发而不可收,有一系列文章发表,那几年,关系模型成了E .F. Codd 心中的那个“她”。今天,人们还可以追踪他和”她”的故事:
  为了她的数学美,他用范式理论为她浓妆,
  因为她憔悴,他用12条准则为她粉黛……
  
  《传奇》: “宁愿用这一生等你发现,…,今生的爱情故事不会再改变。”
  接下来,E.F.Codd的路上,少有鲜花,多有荆棘。
  1983年,笔者到美国学习数据库,导师为鼓励我们克服困难和坚持学术观点,说, E.F Codd 曾遭遇到压力山大,以至于影响健康,进过医院;又说,要学习他不怕困难,坚持自己认为正确的学术观点,最后冲出重围,….,
  但语焉不详,可能是有一些难言的细节。由于人们不太愿意多写尴尬事,现在网上仅仅能查到一些蛛丝马迹。例如下列的”但书”:  

  …..但是,有人认为,关系模型…..是理想化模型,…..不现实…,担心性能难以接受;
  有人视其为(当时正在进行中的)网状数据库规范化工作的严重威胁…. 
 
  日子艰难了,就觉得时间慢,但E.F.Codd坚持着, 就像《传奇》唱的“宁愿用这一生等你发现,…,今生的爱情故事不会再改变….”。
  经过五个春来秋去,终于迎来转机。
  
  明争取代暗斗,  1974年ACM牵头组织了一次研讨会,
  正方:E.F.Codd及其支持者,
  反方:Bachman及其支持者,
  (Bachman何许人也?就是上篇博文主人公,数据库界第一个(当时唯一的)图灵奖获得者。悬念:E.F.Codd能坚持得住吗?
  幸好,E.F.Codd足够坚强,坚持下来了。这次的辩论改善了新生事物的生存环境,推动了关系数据库的发展。  

  花香墙外,嘴仗结束,新技术的美妙吸引了新的IT人;虽然,知识有产权,但本质上还是人类共创共享的(当然,在一定法规下)。
  世界上不乏有眼光,有胆略的人,拉里.埃利森及其团队就是典型,他们认定关系数据库的前景,在1977年建立一个新的小的公司,实现了第一用商用关系型数据库管理系统,(后来发展成为Oracle),
  当墙外花香日益浓厚,大赚其钱的时候,IBM才发现自己有点亏,才承认关系数据库的确好,急起直追研发DB2等等。
  以后的事实表明,关系数据库易学易用,基础坚实,理论丰厚,用户不需知道存储结构细节(用今天关于“透明”的时髦术语,有结构透明性),终于让网状数据库和层次数据库(保留了在历史地位)退出了历史舞台,RDB登堂入室,成为现代数据库产品的主流。
  
  生不逢时还是官僚主义?  E.F.Codd是IBM的人,做的是IBM的成果,IBM 启动了关系数据库验证项目System R, 但没有优先的支持,一直到1980年System R才作为一个产品正式推向市场。有人分析System R产品化缓慢的三个原因:
* IBM重视信誉和质量,为尽量减少故障,所以慢(精工出细活);
* IBM的官僚主义,错失了一次发展机会。(到处有官僚主义,官僚主义有时也成为检讨中的替罪羊);
* 当时IBM正改进层次数据库产品,如果把层次数据库IMS比喻为周瑜,把关系数据库比喻为诸葛亮,所以有点像(与传统 略有不同)“既生亮,何生瑜?” 所以关系库在IBM内生不逢时。  
  
  数学美进入了数据库 E.F.Codd的理论 给数据库领域带来了数学美;
  例如,用于函数依赖推演的Armstrong 推理竟然是Sound(可靠)且完备(complete)的!, 不少数学系的博士生在寻找博士后岗位时,选择了数据库。
  又例如,用于设计一个好模式的规范化理论,从一阶范式到三阶范式,很快变成了程序,在实践中收到欢迎;而且,还有 4阶、5阶,…,N阶范式,不知有多少可探索的宝藏,不知将有多少博士和副教授在这里成长!
  一大批数学人才转业到数据库理论方向,一时间,关系数据库理论风生水起,成果累累....
  
  过度数学美不是Codd惹的祸。但是,过度追求数学美的坏习惯也趁机进入了数据库领域。有人研究了规范化理论的5NF、6NF,据说还有(毫无用处的)7NF、8NF、9NF !
  在私下议论时,同行们还批评过若干过度追求数学美的例子(不适合上网)。
  计算机科学为计算而生,为计算而发展,是实践性很强的学科。E.F.Codd的数学工底很好,但他十分强调实践,强调作品有用;综观他的生涯,过度追求数学 不是Codd惹的祸。
  
  解决科学问题才是硬道理。上世纪70年代,关系数据库将生未生,数据处理领域遇到了下列科学问题:
    (1) 网状数据库后的下一代数据库是什么,数据库向何处去?
          E.F.Codd回答:下一代将是关系数据库模型,并用集合论的语言给了坚实的基础和眼睛的描述;
    (2) 如果用关系数据库,什么是好的关系数据库模式?怎样设计一个好模式?
         E.F.Cod及其跟随者给出了规范和理论和一系列设计好模式的算法:
   (3)怎样使关系数据库管理系统多、快、好、省?
        E.F.Cod给出了十二条准则,及若干研究。一大批追随者办公司,提方案、作设计、写程序,实现了关系数据库系统。

   三个科学问题的提出和解决,当然不是E.F.Codd一人的功劳,但他是斗士、是先锋,在其中起了关键作用;图灵奖给他,正当其人,实至名归。

   上篇博文问,多少论文才得得到图灵奖,Bachman的例子说明,图灵奖与论文篇数没关系,或没多大关系;
  而E.F.Codd的例子说明,想得图灵奖,提出科学问题、凝练科学问题、解决科学问题才是硬道理。

   想借用牡丹之歌 如果某一天,我和我的朋友们,有机会到E.F.Codd 墓前吊唁,怀念数据库界的这位前辈大师,我想在《牡丹之歌》中抽样地选出几句, 写在花圈上:

        有人说你富贵,
               哪知道你曾历尽贫寒;
                    ……..
                            春风吹来的时候,
                                  你把美丽带给人间.....

相关博文

其他相关博文
  人物类:我所认识的Adlman 系列 共6篇 他凭什么得了图灵奖,侧应钱学森之问,计算机病毒的教父,DNA计算
  科普类趣味数据挖掘系列 被打和北大,烤鸭,数据血统论,博客均击量,干预规则,分房与分类,宴会上的聚类, 灯谜、外星殖民、K-平均聚类与蛋鸡悖论, 愚公移山和进化计算,基因表达式编程GEP,数据挖掘与哲学;
  


本文引用地址:http://blog.sciencenet.cn/blog-287179-883429.html 此文来自科学网唐常杰博客,转载请注明出处。

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 必须实名注册

本版积分规则

QQ|Archiver|手机版|小黑屋|《教师生活365》网[师慧园]论坛  admin.php?action=setting&operation=basic

GMT+8, 2024-9-17 20:14 , Processed in 0.077652 second(s), 31 queries .

Powered by Discuz! X3.1

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表