李大学图片 京东集团副总裁李大学:要把大数据玩小[图]
这里面的关键是长期的数据积累,如果没有这个数据积累,大数据技术再牛也没用。
大数据开放考虑API模式
《21世纪》:京东现在的大数据平台也是基于Hadoop,那么发展的过程中是否存在从集中式到分布式变化的过程,或者说"去IOE"的过程?
李大学:大数据平台非常复杂,Hadoop本身解决的是分布式大数据存储,在这上面还要有实时计算的技术、分布式的挖掘系统。当然这里面还有安全。
所以企业没到一定的规模,没有一定的研发投入很难管理大数据平台。仅仅抓一个Hadoop容易,但是要把他玩转比较难了。你可能几百台Hadoop容易管,像我们上万台的Hadoop集群,就必须有二次开发能力。
京东也在想,未来这些技术,怎么为业界所用,把它开放给行业去用,这是我们未来想去做的,我们希望2015年能在这方面有更多探讨。
至于你说的"去IOE",这个过程并不明显。京东从中关村起家,最初服务器就是DIY,自己来定义规格。而且我们即将宣布和IT产业核心企业的合作,让更多电商和互联网行业的伙伴分享京东在这方面的成果。基于我们对电商的这种理解,现在市场上的服务器存在很大的浪费,表现在内存和CPU不匹配。
《21世纪》:京东包括大数据在内的技术系统几乎采取自研的模式,这是否与社会分工理论相悖?
李大学:其实我们也跟业界不断做交流,我们研发团队有一句话,"请进来,走出去"。我们的技术开放日,报名的人人满为患。
但是对于京东这样规模的公司来说,我们基本上找不到服务商能解决自己的大数据问题。互联网行业有个规律,叫幂律分布。放在电商行业也一样,"高个子"就那几家,市场上的电商解决方案提供商,只能也只会为"矮个子"服务,因为这部分企业数量大,有规模效应,而为高个子服务它挣不了多少钱。因此,京东这样的企业只能自己发展,自己摸索。市面上服务商的产品和技术,也没有机会在京东这种级别的平台上进行验证和演化。
没人能为京东提供解决方案,市场上的成熟解决方案也解决不了京东的问题。但是反过来京东技术可以为他们所用,高个子都能用,矮个子用就没有什么问题,无非剪短一点。
《21世纪》:那么,京东在开放自己的大数据能力方面有什么具体想法?
李大学:应该说开放的话,我们目前还处在一个初级阶段,未来还要深化。我的考虑是"数据API化",你要数据可以调,调了就可以用,而不用管后台的模型。
目前业界在这方面的所谓对外开放,主要还是开放计算能力和存储能力,属于基础设施层面。我认为应该再往上走一个层次,在应用层和商业层去做,而不是在底层拼价格。
京东明年5月会落成一个非常大的数据中心,在万事俱备的时候,我们会公布具体的商业策略。