柴天佑数据驱动 上海院士圆桌会议聚焦大数据驱动创新
人民网北京12月2日近日,上海市科协主办了一年一度的上海工博会“院士圆桌会议”。上海市副市长周波出席会议并致辞,市科协主席陈凯先院士主持会议,市科协党组书记杨建荣,市科协顾问俞国生,市科协副主席张维华、王智勇、陆檩、李虹鸣、蔡永莲,巡视员钱之广出席会议。
江东亮、何积丰、汪品先、陆汝钤、陈国良、赵国屏、郭重庆、柴天佑、褚君浩等10多位院士们的思想分享,既让大家看到曙光,也带来了疑问:大数据时代的科研,我们准备好了吗?
10多位院士在院士圆桌会议上分享思想(鲁鸣 摄)
海洋地质学家、同济大学教授汪品先院士提醒,在科研数据的产出上,中国已成为大国,但我们不能满足于此,要想办法用相同的数据,读出别人得不到的学术成果。否则,就会成为“科研原料的输出国”。换句话说,我们不能自己“采矿”,而让别人“炼金”。
科学家看好大数据
要把“采矿”和“炼金”的关系说清楚,先得讲一讲大数据和科研正在如何碰撞。
大数据的概念正在快速普及。目前被公认的是,大数据方法有助于政府决策、企业管理,同样也能成为科学家的得力工具。有人提出,大数据是继实验、理论推演、计算机模拟之后,人类获取知识的“第四范式”。深圳大学计算机与软件学院院长陈国良院士认为,大数据方法让传统科研思维面临彻底革新。在圆桌会议上,这个观念得到了广泛认同。
中国科学院上海硅酸盐所研究员江东亮院士看好大数据,认为它可能为新材料研发带来革命。他说,如果组建一个海量的新材料数据库,也许能更方便地筛选出某种物质,比如航天复合材料。而且,目前材料科学的数据确实在快速生成――依靠新一代实验技术,科学家测定新材料性质的速度,比过去快上百倍。
国家人类基因组南方中心执行主任赵国屏院士说,以宇宙之大,也未必有生命数据这般复杂多元。目前在生命科学领域,新实验方法已能以前所未有的效率,完成个体基因测序。这些海量数据汇集起来,潜在价值不可估量。
数据正在大幅增加,问题是,我们马上就能用得上吗?
大数据还是大垃圾?
中国科学院上海技术物理所研究员褚君浩院士举了一个例子:通过卫星遥感获得的图像中,目前用得上的不到5%,剩下的95%都被浪费了。
赵国屏说,虽然人类基因组测序已完成,但其中,现在能读懂的还不到10%,大部分仍是“天书”。
华东师范大学软件学院院长何积丰院士说,人们都看好大数据。但专业领域还有一句话,大数据也是大垃圾。如果只有数据,没法利用,那么搜集、存储数据付出的成本,就是资源浪费。
实际上,“数据垃圾”正在生成。国家冶金自动化工程技术中心主任柴天佑院士说,国内许多工业信息化系统,每时每刻都在从生产线上搜集数据,但隔一段时间,数据存储不下,就只能删掉。此时,甚至没人搞得清,删掉的数据有没有用。
理论上,要让数据支持科研,必须先整理,让它变成“信息”,然后再深加工为“知识”。而这个转化,是一条漫漫长路。
谁来提供处理方法?
在利用大数据工具处理“科研原料”方面,国外似乎走在了前头。赵国屏说,现在,全世界的生命科学界都把基因测序搬到中国。原因很简单――中国有足够大的样本。然而,在中国做完测序,数据却被对方拿走、分析。赵国屏认为,当今时代,这种“花了力气却不知道怎么用”的局面不应该持续,否则就会错失难得的机遇。
汪品先认为,中国科学界靠产出科学数据,在国外刊物发了不少文章,有人就此满足。但实际上,如果完不成从“科研原料”的粗加工向深加工转型,某种意义上,过多投入就会变成浪费。
怎么转变?必须靠我们自主的大数据研究和应用。
江东亮说,目前国内材料科学界的确在为数据处理发愁,非常希望能有一种方便的工具,比如某种计算机软件,能方便地对海量数据进行筛选、处理。但目前,这种工具找不到,要让材料学家写代码,实在困难。
柴天佑认为,要高效处理大数据,涉及机器学习、人工智能等方面,这对现在的科学提出挑战。他曾问一所在超级计算机领域相当领先的高校:你们的机器能同时处理各种异构数据比如“表格 图像”吗?得到的回答是“不能”。
封闭不共享成发展障碍
何积丰表示,国外的大数据专业研究机构很重视在中国投资,与本地高校合作研究。国内大数据研究起步不算晚,也有一些实践和成果,但没得到足够重视。目前的怪象是,一谈大数据,不少人似乎总是觉得国外领先,但这并非实情。
对大数据研究者来说,国内还面临另一重困境。同济大学的郭重庆院士说,在国内有个现象,即有数据的不研究,要研究的没数据。这种封闭、不共享的状态限制了大数据作为一个学科的发展。在这方面,各级政府应该率先示范,因为他们是最主要的数据拥有者。
共享,是一种习惯、文化,同时也应该形成一种制度。中国科学院数学与系统科学研究所的陆汝钤院士说,强制规定别人把数据拿出来,没有操作性,也不合理:“数据是有经济价值的,能不能像石油、大豆那样,建立一个交易平台,通过价格杠杆,促进数据的流通呢?”(王琼实习)