闫安阿里云 阿里云闫安:数据能力成云平台核心竞争力
事实上,大数据已经成为全球云计算服务商的标配。在这方面,中国的能力毫不逊色于欧美等IT强国。Sort Benchmark排序竞赛被认为是大数据界的奥运会,国内云计算服务商阿里云在一个月前用不到7分钟(377秒)就完成了100TB的数据排序,打破了Apache Spark的纪录23.4分钟。
以下是演讲全文,有删减:
我们说数据在爆炸,到2020年将有非常多的设备在线,每年新增数据类型会达到10%。只有大数据平台、大数据应用做的更快,更实时,更易用,才能够真正改变业务。
所以今天分享的第一个技术,是Data Lake(数据湖泊),这不是一个新的概念,2011年福布斯上的一篇文章(注:《大数据需要一个大的新型架构》)提出来这个概念。
做数仓的时候,第一个问题是给数据建模,数据要建模摆放才能把数据引进来。但我怎么建模呢?我不知道问题是什么,我也不知道怎么解决,所以很多建模用户到最后会陷入一个尴尬的境地,我做了很多东西,到最后好像越做越大,把所有需求都满足才行,而别人要改我的数仓也很麻烦。
Data Lake是什么概念呢?就是数据能不能不处理,也不建模,就是把数据扔进来了,谁要用谁建模,怎么用根据你自己的需求来建,所以这个概念很吸引人。这样一看好象民主化了,没有中心的数据,但我加了一个句"让湖水动起来"。这个概念在去年是很火的,15年的时候大家仍然没有解决。概念很简单,但很容易做错,做错了之后就不是一个湖了,是一个沼泽,沼泽地,一片泥浆,根本没有办法用。
第二个技术,是一个很老的问题,实时问题。今年我认为大家最聚焦的是基于场景的大数据,就是斯时、斯地、斯人,实时概念非常重要。这个实时的东西解决了没有呢?其实也没有解决。
我举一个例子,如果用可穿戴设备和社区医院、三甲医院打通,这样心脏不好的时候可以做实时的监测。这样问题也来了,你走到一个信号不好的地方,这个时候要不要做实时?实际上是场景化的事情,实时的场景一定是更复杂的。
第三个是分析工具。今天一如既往的更加强调三个字,存、通、用。首先要有作用,最后形成业务,但是更多的分析工具把存储这个事情管理的越来越好,不同数据之间的打通也做的非常好。
具体讲几个,首先是可视化。分析工具发展了这么多年,今年每隔一段时间都会有一个大公司跳出来,发布最新的功能,所以大家还是一直在往前走,但现在的分析工具还是远远不够用。
比如嵌入,什么叫嵌入呢?我把数据收到数据中心,然后我再进行分析数据。但是我们现在说了,数据无处不在,为什么分析不无处不在呢?能不能在收集的时候已经做了很多处理了。
第四个是预测。根据过去的表现预测下面发生了什么。预测在很多传统行业都已经在用了,像搜索电商、广告视频、用户管理等等方面做了大量的预测,但是在传统行业里面,预测的应用场景会更多。
比如交通,你用着导航软件,它说前面堵了,但实际上是现在堵,等你过去的时候就不堵了。再比如设备,我买了一个锅炉,说能十年,十年到了我要不要换一个新的?但如果我把传感器放上去,你可以预测一下可以活多久。
第五个是智能时代,认知的计算。这个题目比较大,大家看到这个楼里面有很多小机器人,这个小机器人有没有智能?这个大家可以判断。为什么大家一直很热门的研究智能呢?它实际上是一个行业的推手。通过对大数据处理能力、实施能力,包括算法的研发等等对整个产业链都有很大的推动,所以每个大一点的公司都在研究人工智能,这个东西是未来。
第六个是数据架构师的兴起。互联网公司开始进入企业市场,"互联网 "是今年大家都明白的一个词,就是要把互联网思维、方式、工具引入企业,最适合做互联网 的往往是互联网公司,只有少数互联网公司,像阿里有超过4千个数据工程师和数据科学家,每天梳理的数据量超过很多公司一年的量,在这种体量下做出来的平台是值得学习的。未来几年有一个新的职业可能会火起来,就像前几年数据科学家这个词,也就是数据架构师。
第七个是数据国际化,要解决的问题是数据国界的问题。阿里云、AWS把业务做到全世界都是,那数据有没有国界呢?有,有些国家规定数据先不能离开国界。这个问题要解决,有很多技术问题,但已不仅仅是技术问题。
第八个是云计算、大数据的深度融合。在很多场景下需要云计算的弹性,做一款大数据的产品必然要有弹性,这个必须要融合。
从另一个方面来看,云平台之间的竞争白热化,因为最后大家拼的是资源,调度能力,这个很容易引起同质化的竞争,因为定价大家都可以比较。但不同云平台数据能力是非常差异化的, 所以这个是各个平台的必争之地,大家都在拼这方面的能力。
云数据、大计算,这个提法很有意思,大数据是什么?如果数据还是孤岛的话,数据量再多也不是大数据。所以真正理想的情况,不管数据在哪儿,数据一定要融合。所以云数据、大计算才能真正的王道。
第九个是大数据生态。数据生态实际上是一个很复杂的过程,大数据平台可以促进很多行业生态的形成。
比如,心脏病监控救护,涉及了设备生产商、120、各级医院,还有心脏病研发中心,围绕着这些数据和平台可以做成一个生态。在这个过程当中,大数据起到的是生态平台的作用。与此同时,这个生态一定要垂直化到各个领域。
什么意思呢?原来各行各业都有自己垂直行业的ISV,比如有些人就是专门给银行做方案,他对银行非常熟悉,但他有可能用的不是大数据的产品,用的是传统数据库的产品,但是今年这些ISV非常积极的来拥抱大数据,我们可以看到,如果这些ISV活起来的话,垂直领域的ISV的生态就起来了。所以整个生态,我认为包括平台、生产开发、服务流通全部环节加起来。
最后一个,安全、安全、安全。如果没有数据安全的话,大家不要谈大数据,没有一个人把数据拿在一个不安全的环境上来用。所以今天一个概念,就是数据可用不可见,如果A和B合作一个项目,A是银行,B是保险公司,如果A能看到B的数据,这种交换其实是很危险的,因为不管怎么保护,它可以用不同的方式,拿照相机拍照的方式也可以把你的数据存下来,所以一定不能让数据离开,一定要可用不可见。
什么叫可用不可见?我在云里面建一个虚拟的黑屋子,大家把数据放上去,可以在一起用,做一些事情,事情可以做,但是你看不到数据是什么。这些技术,今天大家可以看到很多阿里云做的创新创业项目,都是用这个模式做的。