沈浩知乎 沈浩:我们可以通过大数据感知社会

2018-01-17
字体:
浏览:
文章简介:在今天我们看到对于广电行业来讲,其实无论广播电视还是其他媒体,是一个融合和聚合的时代.人们通过移动.互联网等等方式,人们在看电视的时候,人们

在今天我们看到对于广电行业来讲,其实无论广播电视还是其他媒体,是一个融合和聚合的时代。人们通过移动、互联网等等方式,人们在看电视的时候,人们看到电视已经有了操作系统,或许人们在看电视的时候,通过按一下手机就能看到各种电视节目,看到电视了,当然也有人在看电视的时候其实他经常是在看电视上网,也可能主要是上网,看到网上人们提到什么事情又去电视上去看两眼。在这样一个融合聚合的时代。

今天的大数据仅仅露出冰山一角

什么是大数据时代?在大数据时代,我们越来越多的可以从数据中观察到人类的复杂模式,以数据为基础的数据决定人们的未来,但并不是数据改变我们,而是我们对数据可用知识的增加。这句话实际上是巴拉巴西说的,他有一本新书叫《爆发》,中文版来到中国的时候我给他写了一个推介语。这本书的核心他说人类93%的行为是可预知的,人类行为的93%是可预知的。今天人们甚至把大数据当成了第四种生产资料,它是一种石油,新的石油。

中国传媒大学新闻学院教授 沈浩

实际上今天大数据也仅仅露出了冰山一角。当它露出来的时候,我们的社会科学者,媒体观察家、商业人士也已经意识到大数据对社会的影响,特别是对商业的影响。本质上大数据是一个很重要的技术,涉及到数据挖掘技术、数据可视化技术、编程技术、软件技术以及其他的一些相关的领域包括向机器学习、统计分析,这些概念或许过去媒体很少谈论。

大数据时代的一个标志是大数据的商业自动化生存。它的数据量很大,纬度视点非常复杂,实时强调它的数据。过去移动也在做数据挖掘,那时候不叫大数据,即使叫大数据,但跟我们似乎关系不大,那时候的数据挖掘是解决企业内部的问题。淘宝也有大数据,但是它的大数据跟我们没有多大关系,它主要解决企业内部经营和精准经营。

大数据给我们生活带来了不同

为什么今天在谈论大数据呢?那是因为大数据给我们带来了太多的不同。今天我们每个人都在使用微博,当然也包括微信。微博跟微信是不一样的,微博的数据我们是可以轻松或者轻易获取的,移动可以分析我们花了多少条短信,什么时候发,但是它不能分析我发的什么内容。今天如果你在微博上发东西,我不光知道你什么时候发,而且你发的什么内容,说的什么事情,我也可以知道。

我经常跟我的学生说,你要好好写微博,将来有什么都可以仔细看你的微博,由此可以了解你的性格,了解你的品牌爱好,了解你的生活方式甚至你的价值观。

从这一点上来讲当我们非常容易获得我们所说的数据的时候,特别是在社交媒体,以新浪微博。这是我提前抓来的数据,这是人民日报官网的微博,我们通过这些数据就可以看到,这个人什么时候发的微博,他可以到了分和秒,星期几,因此我可以算计一天24小时大概你都几点发微博,一周7天你都什么时候发微博,当然这些数据分析都是非常简单的。

我们更关注的是什么?关注他说的什么内容,过去这些内容你可能不能分析,但是今天他都变成了数据网。

当我们拿到这个数据的时候,第一步可以完成对他所有的一些我们直接印象,完全可以把数据从分结构网变成结构化的数据,那么这种结构化就相当于我把它封死。所以对于像分子这样的技术实现了我们对非结构化的结构化,特别进入了叫文本搭载技术。

在这里面我们看到,这时候我们已经能够完成把所有的数据都变成了一个词汇。你可以看到这时候他(某名人)会说,这句话他变成了说最大的余震为27日零5时发生的,这是当时地震发的微博,这个数据量有多大呢?我们可以看到数据量短短收集这么多,一分钟就有将近60万的记录,对于这些数据我们有数据流的处理,我们可以看到在这个数据流中数据流动流到了这个位置我们可以获取我们想获得的一些信息,这些信息在流动的过程中,实际上我们已经算出来了他的所有的一些词性。

我们经常说一个人在微博上经常写名词,用得多说明这个人有专业知识,在这个时候我们看到,我们已经能够知道他说的什么词汇,当然我留了一些实体词像名词、动词、形容词,这个时候通过这样的数据处理工作以后,把它导出来,导出来以后我们实际上可以在这里面直接对这些数据进行分析了。