鄂维南北大 中科院院士、北大教授鄂维南:大数据发展中的一些瓶颈问题
【摘要】8月26—27日,2015中国国际大数据大会在北京召开,移动LABS作为大会战略合作媒体受邀现场直播。中科院院士、北京大学、普林斯顿大学教授、普林科技董事长鄂维南做了题为“大数据发展中的一些瓶颈问题”的主题演讲。
中科院院士、北京大学、普林斯顿大学教授、普林科技董事长 鄂维南
以下为演讲速记:
非常感谢收到邀请,因为我在这个讲台上肯定也是一个新人,我可能大家一个不太熟悉的人,我是北京大学元培学院院长,是搞教育的。从秋天开始我们学院有一个新的专业,数据科学专业,这是全国一个系统的专业。今天我看了这次大会的主要宗旨之一是让大数据能够在中国务实、健康地发展,这个题目非常好,现在中国的大数据非常热,从国务院、各级政府、企业界、高校,整个社会都非常感兴趣。
中国大数据的前景非常广阔,市场非常大。怎么把这个广阔的前景变成现实现在还面临很多问题,我现在想讲讲我个人的一些经历。前面几位嘉宾也讲过很多了,我结合自己的体会讲一讲。
第一个问题就是没数据,理论上我们中国有很多数据,但实际做数据分析你会发现这是一个非常严重的困难。就像前面张总工程师讲数据孤岛是一个严重的问题,不同部门数据存在在不同的地方,格式也不一样。你要做数据,大数据最高的层次就是要用数据来形成智慧,使得社会各方面可以运转起来。做数据分析先要整合数据,这是我们通常的理念,这本身就是研究的困难。
第二是数据的质量的问题,最后我还要在后面提到。我想强调一点并不是说我们要有很完美的数据才能做分析,完美的数据永远是等不来的,我们做数据分析的人,我们的出发点是有多少数据可以做多少事,比方说碎片化的数据也可以有这样一个流程,你也可以把它整合起来也可以做分析,所以这一点我想强调一下,不是说等到有完美的数据才能做数据分析。这是第一个瓶颈,大家很清楚。
第二个瓶颈就是数据拥有方,像电信、联通,和数据分析,像我这样做数据分析的人,这中间有一个很大的洪沟,我们是做数据分析的,像电信、联通有数据,但是他们还没有像我们这样数据分析做了很多年,十几年,没有这样的。那么怎么样使得数据能够流通起来?
第一大家想到的就是开放,数据开放,现在政府也在呼吁数据开放,数据开放面临一个严重问题就是隐私问题,脱敏远远不够,隐私问题是一个无底洞。前面有一个我的铺林斯顿大学的同事,他说从算法角度来判断数据隐私这是不可能的。
下面是一个例子,他们把美国的信用卡3个月数据拿过来,拿过来以后他发现如果我知道一个人昨天在某个部门买了一点东西,前天在另外一个商场买了东西,我就知道这个人是谁,也就是把你所有的消费数据都找到了,那么我就了解你的消费习惯,所以其实就是我了解你在消费方面的隐私。
这是脱敏的,没有名字,没有号码什么的,但可以通过算法可以找到一个人的消费习惯。想靠法律办法解决隐私问题,这个严格来说是不可能,这是第一个问题。数据开放面临的问题。
第二个就是数据交易,现在交易所很多。我想说数据作为一种商品,它有一定的特殊性,我用了别人也可以用,没有任何消耗,可以在市场卖很多遍。这就产生一个问题,你这个数据到市场卖,根据经济学观点它的价值是零,你卖给我我可以用更低的价格卖给别人,所以数据交易理论上来说也是不可行的,现在很多数据交易平台,我不知道他们怎么做的,怎么突破这个悖论。
但是有一种说法是撮合,还有一种说法是不是直接卖数据,是卖数据的加工品,这实际上有这个悖论在背后,对这两种交易都是有影响的,只不过是更高层次的影响,这个问题本身不可避免。
怎么办?数据怎么流通起来?面临这样的情况现在还有另外个情况,就是数据拥有方,数据分析,他们的出发点,自己建一个团队自己来做,我想说我从事数据分析很多年,我想说数据分析有瓶颈,是一个技术活,而且你差个1%、2%,这样表明你在市场里没有竞争力,所以这条路也是有困难的。
另外我们国家的实际状况是什么呢?现在我们的数据分析公司是风起云涌,我把它说成是小锅炉战场,想当年大炼钢铁的时候就是自己在家里就建了锅炉就炼。
的确什么人都可以做,没有什么技术含量,但是现在我们讲的大数据有一个很重要的一点,大家平时不说的,就是现在数据分析的技术、方法、模型、算法有非常大改进,跟过去六七十年代完全不一样了,不是说搞几个SAAS软件或者RAAS软件就可以做了,虽然有人做起来了,也做得非常花哨,也可以说有很多市场,也可以说有很多人就能进入这个市场。
但是长远来说这条路走不通。所以我觉得数据行业服务最重要的是提高门槛,这个不是大家都可以做的,这真的是技术活,同样真正把门槛提高了,数据服务的企业对本身有责任感,它本身就具有责任感,你才能提到前面的交易、隐私的问题,这是第二个瓶颈。
第三个瓶颈是技术。一个方面是数据分析本身就是一个难题,第二点中国的数据有它的特色,比如院士刚刚讲到我们很多的视频,中国的视频比任何国家都要多,我们有很多监控视频,这些数据现在连存都存不下,北京的交通信息管理中心的视频只存21天,想用的时候没有了。
视频分析本身就是一个非常困难的问题。我们有很多监控视频的监控视频的分析。第二文本,我们用中文,美国用英文,中国的和美国的文本不完全一样,这也是中国大数据的一个瓶颈。
最主要的是我们的数据质量差、噪音多,也就是说在国外的方法拿到我们这里来不一定管用,因为噪音很多。这个是一个风控评级的模型,红的是国外这个企业本身做的,绿的是普林科技做的,把大小和生物差,可以看到不同的数段是不同类型,可以看到普林科技的模型比国外这个模型好很多,误差小很多。
但是我们都知道数据分析很严重的问题就是过度拟合,尤其过度拟合把数据里的噪音拟合进去了,你在训练级上表示非常好,你在测试级上真正实际数据表现差。
比如这个地方,训练级上蓝的线走势非常好,但到实际数据越来越差了。在我们国家尤其严重的问题,因为我们的数据质量非常差,数据里面噪音非常多。所以这个时候就需要对算法和模型进行改进,来避免过度拟合这样的问题。这是对我们这个市场提出了一个新问题。
这里面我举一个例子,不仅仅是数据分析本身就困难,中国市场的数据本身也有困难。还有一个难度,就是数据服务作为一个业务模式,它的商业模式现在没有真正被认可。互联网企业大家知道,平台搭起来,流量提上去商业模式就解决了,那数据通过什么方式赚钱,前景不是那么清楚。
最最严重的问题是人才问题,我们国家大数据发展最大的优势市场大,最大的劣势缺乏人才,人才缺乏非常严重。第一我们要跟国外争人才,现在在国外做大数据的也很热,有种说法说做IT的比做金融的华尔街的人更热门,做大数据分析的人,在谷歌、脸书网做的很热门,他们待遇非常好,这是对国外说。
在国内也好,国外也好,你还要跟企业竞争。比如我在美国铺林斯顿大学,这个大学是世界最好的大学之一了,现在在我们普林斯顿找数学家都非常困难,他很容易被大的公司挖走,我们去年有两个非常好的人才就被微软挖走了。所以即使在国外,现在学术界跟企业界竞争,人才都是非常严重缺乏的,在国外就更严重了。所以人才是非常严重的问题。
而在我们国家目前没有非常好的培养大数据人才的机理,这样的机制没有建立起来。本来我们的教育界、科技界的人才就缺乏,而在大数据领域,统计、机械学习等这些领域相比而言更加弱,所以这是一个严重问题。那么怎么解决这个问题?其实我个人在这方面想了很长时间,就是怎么才能在中国真正建设一个具有国际标准、国际水平的大数据平台?我们国家这么大的市场,我们做大数据,在国际上竞争第二是没有意义的,我们要竞争就至少在某些领域在领先地位。
要做到这一点至少得要有一个国际标准的研究平台,经过很多年我可以告诉大家明天再北京大学我们要有一个北京大数据研究院挂牌仪式。这个可以说是从体制来讲是一个创新,但是北京市政府、北京大学、北京工业大学、中关村管委会等联合推进的这样的研究院,既有体制内,也有体制外的部分,把人才培养教育和科研创新和市场化、产业化结合在一起。
我觉得这样的一个平台有可能把一些一流的人才吸引过来,因为他们这些人可能会看到中国市场的广大,在这样的平台上他既可以做科研,也可以做市场,做产业化。从这个平台也可以某种程度解决待遇问题,所以我从2009年开始到现在,6年的时间为了做这样一件事情想了很多,当然现在在各个部门,包括北大,包括北京市政支持下可以做起来,所以我们是挂牌了,万里长征走完第一步。
不管怎么样我的个人的感觉是说我们中国大数据的市场非常大,但要真正务实,落到实处我们要做的还非常多。
这几天有很多论坛,都很多代表都会讲我们做了很多很多事情,我想听起来都非常吸引人,但是我们听众也要问问你究竟是怎么做的。我们要采取一种开放务实的态度,最后讲的有点教训式的口吻,对不起。不是说教育,而是我自己这么多年来的经验和教训,谢谢大家。