中国名人录网站:中国高官资料库
我一直很想写一写中国名人录这个网站。这个名人录收集了许多中国高官的生平,而且还在不断更新他们的行程以及公开的露面。它还能帮助我们了解这些高官的事业交叉点。这个网站声称,他们保有4000余名中国军政教商和媒界的高官资料,还对其中300名保持着跟踪记录。中国名人录网站堪称中国高官资料库。
对中国名人录这个网站里数据准确性我并不敢打包票这些更新及时并且看来很正式的数据来源于文汇集团。但这个网站的有趣之处不在这里,而是在于它对数据的组织方式以及由此带来的使用体验。虽然不能说中国名人录是对结构化新闻的深入实践,但它的确实现了部分理念。
在中国名人录这个网站上,你能调出官员们的生平记录,可以选择文章模式,或者简历一般的列表模式。当然这也没有什么新奇之处,新奇的地方在于,在你浏览的每一个人物名字右边都会出现一个选择框。你选择那些你想比较的人之后,这个网站就会列出这些人的共同之处。对比的方面包括职位、工作地点以及受过教育的学校等。
这一功能不仅给数据赋予了语境,也同时发掘了数据的价值,并且这是通过数据库固有的结构实现的,而不是加外在标签,或者语法分析之类的方法。倒不是说语法分析不能在技术上得到同样效果,只是我觉得用数据库的手段会简单很多。
长远来说,中国名人录还有待完善。它只提供了简单的比较清单,在视觉上还不够吸引人,也不足以促使读者去深入探索。有很多网站在呈现数据的时候便使用了更视觉化的方式。例如muckety和silobreaker这两个网站。不过即便如此,只要假以时日,中国名人录仍能在数据可视化大为领先。
我最关注的还是中国名人录网站数据结构的各种细节。我并没有机会去了解中国名人录的后台运作,不过据我猜测,这个网站是按照姓名、学校、职位、工作地以及日期这些标准来组织数据的。这样组织数据也很合理,不过可以再灵活一些,那样才能更好的匹配不同记录中的相同时间段。
例如,假设官员A从1986年到1992年在成都工作,官员B从1991年至1996年在成都工作,而官员C则是从2000年至2005年在成都工作。系统应该能判定A与B的关系比他们各自和C的关系更加紧密。
C虽然也和A、B一样曾在成都工作过,但是并非同一时间段,所以,至少在理论上说,C与两人的关系和A、B两人间的关系相比要弱一些。但现在在中国名人录上做类似以上A、B、C三个人的比较时,得出的只是干巴巴的数据。
我想要借此说明的是,当我们建立数据结构、并进一步搜集数据的时候,我们不应只关注搜集和更新数据的过程,还要思考最终通过这些数据要达成的最终产品或应用,这样才能更有效的搜集更有价值的数据,并且避免做大量无用功。
蔡翔祁(Reginald Chua),汤森路透数据总编,于集团纽约总部工作。他曾任香港《南华早报》总编,以及《华尔街日报》副总编。他的工作经历涵盖了平面媒体、电视、电台,以及新媒体。