提交 b2dc9e38 编写于 作者: M MaoXianxin

300 万行核心代码全部开源!OceanBase 开启 3.0 时代

上级 2505a63c
1.png

193.2 KB | W: | H:

1.png

186.0 KB | W: | H:

1.png
1.png
1.png
1.png
  • 2-up
  • Swipe
  • Onion skin
# 独家对话阿里巴巴副总裁华先胜: 基础科研的突破,是大浪的源头
# 300 万行核心代码全部开源!OceanBase 开启 3.0 时代
**每天会对文章进行更新,每次更新一篇,采用阅后即焚模式,且看且珍惜,喜欢的话帮我点个star哈**
“一个依靠别人来获得基础科学知识的国家,无论其机械技能如何,其工业进步都将步履缓慢,在世界贸易中的竞争力也会非常弱。”
![](imgs/1.png)
1944年末,在第二次世界大战即将结束之际,一封特殊的信,从白宫寄往华盛顿特区西北区P街1530号
从 2010 年阳振坤加入阿里立项开始,OceanBase 已经走过了十一年的光阴
这封信出自时任美国总统富兰克林·罗斯福之手,而收信人,则是首位美国总统科学顾问、工程师,也是当时美国科学研究与发展办公室的负责人——**范内瓦·布什**(Vannevar Bush)
去年今日,以 7.07 亿 tpmC 的性能记录二度登顶 TPC-C 榜首的 OceanBase 正式从蚂蚁独立,开启了公司化的运作,加速走上了大规模商业化的道路
在信中,罗斯福向布什博士提出了4个问题,**要求布什博士研究如何将战争时期的科研结果及经验应用在未来的和平时期里,思考政府在当下及未来该如何与其他社会组织合作,以增进国民健康、增加新的就业机会、提高国民生活水准**
今年今日,依然是儿童节这一天,OceanBase 带来了最新的 3.0 发布,并正式宣布全面开源,基于木兰许可协议,采用当前非常受开源商业公司欢迎的 Open Core 模式,开源了 300 万行核心代码。
![](imgs/2.png)
经过长达8个月的研究,1945年7月25日,由布什博士与其他科学家、学者组成的四个顾问委员会协助下,提交了《科学:无尽的前沿》报告(下文统称“报告”)。报告中提出“要重视不以应用为目的的基础研究,面向长远,逐步摆脱对欧洲基础科学研究的依赖”的核心理念,主张“政府、工业和学术研究可以在合作中取得比在孤立中更大的成就”。
在宣布 OceanBase 正式开源后,OceanBase CEO 杨冰深入分享了对于 OceanBase 开源背后的思考,以下为演讲扼要整理:
这正是该报告引起人们高度关注的原因。因为在此之前,政府与科学的关系是不明确的,也谈不上“国家的科学政策”之言。范内瓦·布什把发展科学技术作为美国战后建设的核心任务提出,**为美国此后几十年的科学发展奠定了底层基础,成为美国科技政策的蓝图和里程碑,后来的阿波罗登月计划、人类基因组计划无不受益于此。**
非常激动,今天能够站在这里和大家宣布 OceanBase 的开源,简单地分享一下这个大胆决定背后的思考。
它还导致了现代美国研究型大学、国家科学基金会的发展,以及政府对科学研究资助的增加——从20世纪40年代到60年代增加了10倍以上。包括当今蓬勃向上的如谷歌、苹果、亚马逊等科技巨擎延续十几年的指数型增长曲线,屡屡击破了均值回归的物理学定律,其源头亦受益于该报告提出后美国所奠定的科学技术基础
当时外界有很多的猜测,也有很多的解读,其实回归到 OceanBase 发展的本身,我们有三个方向的思考
今年5月份美国两党议员提出《无尽前沿法案》,**以76年前的这份报告为基础,在基础科研的基础上,强调了加强创新技术方面的领导地位**。新的法案提议在未来五年内投入1000亿美元,主要用于在人工智能等十个关键技术领域的投资。该法案还对任何参与过中国等国资助项目的学者作出明确的限制。由此可见,在基础科学和关键技术领域的世界竞争格局,将会风起云涌,而我国科技工作者于此的认知、投入和实操对于国家的未来会更为急迫和重要。
## 对于软件本身而言,它是一个递增的数据库
以史为镜,可以知兴替。但同样的,历经了漫长的76载,在了解了我们从事的职业所遵循的基本原则和赖以支撑的政策后,我们更应该思考的是:这份报告是否依然适合当今时代?今天的发展是否已经对科学研究和技术创新的政策有了更新的要求?企业又能否做基础科学研究?**带着这些问题,CSDN记者在《科学:无尽的前沿》正式再版之前,对话阿里巴巴集团副总裁、达摩院城市大脑实验室负责人华先胜。**
数据库是承上启下的软件,上接大量的应用场景,下接一些操作系统和芯片,这样的基础设施如何让它有更广阔的发展空间?最好的方式就是开放。
“70多年前的报告,今天依旧振聋发聩。“华先胜在为该书撰写的读书报告中写道,青年科研工作者,对于今天国际国内的学术研究氛围和形式,我们并没有多少人认真探究过它的起源和初心。但是,如果我们能对此有所了解,就能够更清楚地分析其中的利弊,从而更充分地利用科研环境提供的支持,减少可能产生的弊端
OceanBase 从蚂蚁团队内部场景中出来,必然会面临更多的场景,需要和更多的上下游技术及应用生态做对接。此时以开放化、开源化的方式,可以让这套软件本身更快地与上下游各个技术栈的软件技术对接,使得软件本身发展得更好
回到眼前,不难发现,如今所处的社会已经逐步从信息化时代逐步过渡到智能化时代,大数据、人工智能、5G等技术正在蓬勃发展,深入千家万户改变着人们的衣食住行。我们尝试着从人工智能技术着眼,跟随华先胜探寻基础科学与应用科学之间的千丝万缕。
## 三百万行核心代码开源
## 从“无行业不AI”,窥基础科研和应用科研之间的关联
其次,今天 OceanBase 将近三百万行代码开源,可以说是一个非常庞大且复杂的软件工程了,再加上数据库本身是一个非常复杂的软件。其实好的软件,我们都说是「用出来的,而非设计出来的」,我们也希望以开放开源的方式,在未来的发展过程中,为在这样的复杂体系引入更多人的智慧,可以在方方面面为 OceanBase 添砖加瓦,一起来共建分布式数据库的未来。
作为达摩院城市大脑“背后的男人”,华先胜被业界公认为“视觉识别和视觉搜索领域的国际级权威学者”。他此前曾提出过“**无行业不A**I”的说法,而在对话中,他也对这个说法做出了更详尽的解读
同时我们希望有更多的场景能够打磨这个数据库,能够让它在工程的稳定性和完整性上得到更大的丰富
在上世纪50年和80年代的两次浪潮中,由于基础理论难以突破、技术条件不够完善,人工智能没有达到人们预期的成果和推进。但从2012年的开始第三波人工智能浪潮很不一样,很大可能会改变过往的桎梏。
## 大量实践与探索
华先胜用“无行业不AI”来概括第三波浪潮,**分为三个阶段**
第三,在过去十多年中,我们在分布式数据库领域做了非常多的工程上的实践和探索,但也遇到了很多理论上的挑战。将数据库和分布式相结合形成一个新的交叉领域,在工程技术和理论研究上有着非常大的挑战。我们和对 OceanBase 感兴趣的高校和老师做了大量的交流,但苦于 OceanBase 之前是闭源的体系,很难深入研究。因此,为了更好地推动分布式数据库的发展,让老师和学生们能够将 OceanBase 的工程实践作为一个很好的参考实现来去做一些理论方向上的突破,同时也推动分布式数据库领域上的发展,我们进行了开源
第一个阶段从2012年开始。深度学习的出现让过去一些难以逾越的技术障碍得到了突破,如图像分类、图像识别等。业界都在为这个进步而欢呼,许多人工智能相关的创业公司也如雨后春笋般冒出,大家对未来充满乐观,“**没有一个行业不受AI的影响和改变**”,这是第一阶段的“无行业不AI”,更多是对未来的展望和预测。
但华先胜认为,人工智能技术虽然有了进展,可还有很多局限,他提出AI真正要广泛应用,“无行业不AI”需要进入第二个阶段:**“如果AI技术不深入行业、解决行业的核心问题,就没有AI的真正落地**”。
当大家真正开始将人工智能技术应用到行业的时候,才发现真的不好做。首先,技术人才无法对各个领域都了如指掌,但必须要深入行业的数据、深入行业的流程才能把AI用到重要的地方,让AI不仅是“锦上添花”,更是“雪中送炭”;其次是“人才集中化”。相关人才大部分集中在大型互联网企业和初创公司、学校里。这种情况带来的问题就是:在技术深入行业的时候很难规模化。
第三个阶段,属于技术和应用深度结合,华先胜沿用了“无行业不AI”,但有了全新内涵:“**需要行业的深度参与,甚至行业做主导,才能带来人工智能真正在各行业的遍地开花,重点是要结果**。”
在这个阶段,行业内的科技公司或行业本身会去推动人工智能技术落地,并且,不一定是人工智能领域非常精通的专家才能做到这件事,可能会是应用方面的专家,他们在人工智能技术专家做出来的工具、平台上做创新,这样的模式才可能实现真正各行各业的规模化落地。
这对人工智能专家从业者而言其实是提出了更高的要求。他们要把人工智能的基础能力、工具平台做得更好,才能让行业里的IT人员、行业专家在此基础上做出贴近行业的创新创意。
华先胜认为,在这个阶段,不仅要关注在算法的研发上,还要集中精力把基础的AI能力、平台工具等能力做好,才能赋能到各行各业中去,让行业专家深度参与做创新,这可能是更有效的方式。
从人工智能至今的三次发展高潮来看,根本原因是基础研究的突破,这是大浪的源头。不过,基础研究也是个长期的过程,如果我们寄希望以短期支持产生即时结果,那么它就不再是基础研究。
## 企业能否做基础科学研究?
众所周知,达摩院是一座阿里巴巴旗下的研究机构,剑指基础科学与创新技术研究。不过,按照报告的观点,企业科技研发机构不适合进行基础研究。布什博士认为,工业实验室过多关注即时的实际目标,基本上支持的是可预测的商业性成果。
作为达摩院城市大脑实验室负责人,并在企业科研领域有数十年的经验,华先胜的看法有所不同,他认为就基础科研来说,**现代科技企业是非常有必要和非常好的补充力量。**
华先胜表示,不可否认,企业做基础科研是有难度的,70多年过去了,今天的企业研究院、实验室确实仍然是以应用科学作为主要研究内容,并以中短期商业化作为其主要目的。“但是,”说到这里,华先胜话锋一转。“历史上最成功的实验室之一——贝尔实验室就是一个企业实验室。”
“虽然贝尔实验室源自AT&T(美国电话电报公司)和西方电子两家通信领域的公司,但在建立之初,贝尔实验室便致力于数学、物理、材料学、计算机、电信技术等各方面的研究,也就是说,除了电信技术,它的重点在于基础理论研究。”华先胜说。
贝尔实验室成立于1925年,也就是说,在布什博士写这篇报告的时候,贝尔实验室已经存在并有了不少卓越的成果,在此后更是硕果累累(如晶体管、太阳能电池、第一颗通信卫星、发现宇宙微波背景辐射、UNIX和C语言等)。“大概这就是布什所说的‘例外’情况吧。”华先胜笑道。
然而,在辉煌了70年之后,20世纪末,贝尔实验室风光不再,资金和自由研发环境的变化是公认的主要原因。这**实质上也间接印证了布什对基础科研的组织形式的信念——没有绩效考核、没有结果检查、没有进展汇报、没有各种束缚的自由研究促成了诸多重大发现。**
那么,在今天的环境下,企业又是否能够承担部分的基础科研呢?华先胜认为,从经济实力和人才储备上看,今天的大型企业具备这一点条件,也有不少企业具备足够的社会责任感和使命感。在应用科学的创新研发方面,企业确实有得天独厚的优势,但企业实验室对基础科研的规律和认知,以及组织机构的设置,可能需要更多的时间来交学费。
过分强调商业化,有可能会带偏基础研究的方向,甚至会带偏从基础研究到应用研究、从应用研究到直接为大众带来福祉的技术、产品的整个路径。所以如果企业想要做基础研究,应该要将基础研究从应用研究、技术创新中剥离出来,由相关领域的真正的基础科研专家来带领,哪怕不是像贝尔实验室那样进行很广泛的基础科研,而是在有限选择的领域开展自由的研究,也不是不可能的事情。而且,**利用基础研究推动应用研究,以产生利国利民的成果、产品,企业有更大的便利和优势**
对于企业去做基础研究的路径,华先胜则认为,资金和人才是核心问题。首先要基础科研领域的专家来带领,其次是要有足够的资金投入,最后是要建立合理的制度。该机构如何设置、资金如何使用、决策由谁来做、人才如何激励和培养是关键所在。至于该机构是谁资助的、放在哪里,都不见得是最核心的问题。这当中的规律,实际上都可以借鉴报告中的想法。
## 未来,学习可能成为真正的快乐
在所有可以使用‘科学’一次来指称的领域,人都是其唯一限制因素。我们在某个方向上的进步快慢,皆取决于从事该工作的真正一流人才的数量……所以归根结底,这个国家科学的未来取决于我们的基本教育政策。
在报告中,布什博士用了整整一个篇目来讲述了科学人才的革新。基础科学乃至整个科学体系要想得到长足发展,关于人才的教育和发掘是必须重点关注的一页。
但如果把目光放到当今的学生当中,我们可能会发现,“不想学、学不懂、没兴趣”才是人才培养路上的洪水猛兽。
对于教育问题,华先胜曾在TEDxHaiDianEDU演讲中表示道:“人类教育在数百年间,形式没有任何开创性的改变,一刀切的单一培养模式与培养体系,忽视人格心智成长等弊端越来越明显”。他认为,教育的核心就是以最短的时间学到最多的能力,而不仅仅只是知识,还可以包括创新的能力、独立思考的能力、批判性思维等跳出知识框架的能力。但今天的教育更重于知识,轻于能力,这是当今全世界教育的整体局面,也就是“规模化教育”。
规模化教育大概来自于400年前,这是一个非常伟大的创举,“学校”的出现让许多人得到好的教育,在时代的大背景之下已经是最优选了。但这种方式同时也牺牲了“个性化”——每个个体的能力、优势不一样,规模化教育是否能够满足未来的人才需求?这是今天打下的一个问号。
**未来技术再往前发展的话,我觉得这一点是有可能会被改变的**。”华先胜说。当下已经有人在规模化教育的前提下去做相关的尝试了,比如通过把题目和学生答题的答案数字化,来获知每个学生不同的擅长科目,再根据这些结果做教育方式上的轻微调整。
但这是非常初步的尝试,不能真正算个性化。未来的教育其实或许可以实现“学生可以自己选择学什么”的现象,而不是学校来做区分。从当下来看或许实现成本较高,但未来有可能可以用技术实现这种“规模化下的个性化教育”。核心在于:提升教育的效率,让每个人更好更快地成为“人才”,更多地聚焦在能力、甚至思维方式上,而不是仅仅是集中在知识上。
华先胜认为,一个人是否能真正做好事情,知识技能是基础,而思维方式才是决定他未来的创造力的关键。单纯对知识的运用当然也无可厚非,也适合作用于其他同样很重要的领域,但不见得适合做基础科研或应用科研。而善于发现新东西、寻找新的自由度的思维方式,无论是在基础科研还是应用科研都更有利。
在未来,人工智能、大数据等技术对教育肯定会带来变化,过程或许比较缓慢,因为这些技术本身也是需要研究的一部分。这时候它们就不仅仅只是技术了,更是教育本身。未来,教育本身的规律、甚至是人脑的规律等等,可能都会融合在一起,形成智能化的教育,也就是“规模化的个性化教育”。
“这是我下的一个断言,我相信会逐步地实现。”华先胜说道。“学习本身应该是一件快乐的事情,如果实现了个性化,那可能自然而然成为一件快乐的事情,因为每个人都可以学自己想要学并且适合自己学的东西。这对基础科研的能力培养也非常重要。”或许这条路还比较长,但让学习真正成为快乐的事情,人才的培养就不再是一个偶然事件,而是有可能批量出现优秀的人才。
## 科学、发展与幸福
如果人们从未去探索起源与初心,或许很难理解如今国内外对“基础科研”所投入的大量的人力、物力和财力。
进行基础研究并不考虑实际目的,它所产生的是一般性支持以及对自然及其规律的理解。尽管无法对任何一个问题给出完整具体的答案,但这种一般性知识提供了解答大量重要实际问题的方法。
**而应用研究的功能才是提供这样完整的答案。如果基础科学研究长期遭到忽视,工业研发的进展也终将陷于停滞。**
正如华先胜先生在《科学:无尽的前沿》的读书报告中所说的:
每个从事科研创新工作的个体和组织,通过对报告和导读的研读,了解更多的背景,了解历史的经验和教训,对科学的定义、科学研究的作用、科学研究的规律、科学研究的组织形式以及科研人才的发现和培养,有更深入的认知和思考,并付诸实践和进一步探索,无疑对科学的发展,对科学与社会、国家未来以及人民福祉所起的不可替代的作用的实现,有着重要的推动作用。
我们相信,OceanBase 的开源能够让软件更长远、更健康地发展。有了这个作为基础和社区的繁荣,围绕在 OceanBase 的商业化的公司和伙伴及客户,也会更加放心,得到长久的利益,这个便是我们开源背后的思考。
![](1.png)
\ No newline at end of file
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册