邬贺铨大数据 我国工程院院士邬贺铨:大数据是博学多才的

2017-12-20
字体:
浏览:
文章简介:我国工程院院士邬贺铨:大数据是博学多才的google,数据量,多维度,数据剖析,非构造化本地时政我国工程院院士邬贺铨:大数据是博学多才的"大数据不能以'大'盖全

我国工程院院士邬贺铨:大数据是博学多才的

google,数据量,多维度,数据剖析,非构造化

本地时政

我国工程院院士邬贺铨:

大数据是博学多才的

“大数据不能以‘大’盖全,它是已发作作业规则的总结。”昨日,我国工程院院士邬贺铨在“榜首届大数据科学与工程世界会议(2016)——大数据科学知道与了解”论坛上宣告了宗旨讲演。他指出,大数据不只仅数据量的无量,并且是多维度和具有代表性的。一同,大数据寻求数据精准,并且偏重规则,其“深”又在于大数据的剖析不只需求许多的数据并且需求树立模型。

首要,邬贺铨指出,大数据具有多个来历,其间包含社会空间数据、物理空间数据、信息空间数据三个方面。又能够分为国家安全数据、商业隐秘数据、自个隐私数据。从构造上来看,大数据可分红构造化、半构造化、非构造化,其间,非构造化,是不能用表格来标明的数据。

在邬贺铨看来,大数据具有添加性、长时刻性、颗粒性、移动性、多维性、语义性、隐私性等特征。大数据只需大于必定量时才有用,到2020年人类的数据量或许会抵达40ZB,假定装到光盘上,其分量需求几十艘美国的“尼克兹航母”才干装下。如今,各行各业天天都发作着许多的数据。

可是,大数据不只仅数据大,并且是多维度与具有代表性的。麦肯锡曾评估大数据价值堪比石油,但矿藏本钱因不行再生一般会随时刻而增值,信息财物则跟着互联网翻开会不断添加但折旧很快。比方,google公司,依据美国阿特兰大中部区域2008年春夏之交有关流感的查找词频率失常添加而成功判别行将迸发流感,但流感疫情的先兆与有关流感查找词突发的有关性的逆出题并不树立,致使google对2012年末美国流感的猜想作用比实习状况过火夸张。

这不是大数据的失效,而是google内容如能更多注重和搜集查找引擎以外的大数据作用会十分好。

说到大数据的“精”,邬贺铨说,一般指的是大数据寻求数据精准但偏重规则,这应了解为关于一个大数据集而言,咱们很难恳求悉数数据都精准,都只需求大大都数据有代表性,这并不阻止数据调集得到较为精确的作用。比方,google的无人驾御轿车车牌,运用传感器、雷达、导航系统、数据地图、实时街景数据和大数据剖析等技能支持无人驾御车,这个精度恳求面积,它经过大数据进行扫街扫出来的地图,比baidu地图精确度高得多,这恳求十分精细。

此外,大数据还能够跋涉剖析精度。近期十年,语音辨认过失率和机器翻译的精确性都成倍改善,其间20%的奉献来自方法的改善,80%则在于数据量的跋涉。传统用OCR方法辨认文字的成功率到98%后就很难再跋涉,但经过许多搜集已知文字的相片和图画等用于对比,辨认成功率跋涉到99.9%。

(稿件由记者牛悦稿件依据公民网、数据观图文直播拾掇)