慎小嶷预测准吗 连《精准预测》作者也预测失准了!为什么各家美国总统大选民调都失准了?
民意调查是打选战团队为寻找民意的利器,而近年来资料科学的兴盛,像是奥巴马的竞选团队善用资料赢得总统大选。但在这一次美国总统大选,却让众多民调组织叠破眼睛,从畅销书作者到新闻媒体纷纷预测失准。到底发生什么事情呢?而特朗普团队在自身预测会落选情况下,又怎么成功在一片看衰声下赢得选举?
综合各家表现,纽约时报 Upshot、CNN 等,或是《精准预测》作者网站 FiveThirtyEight,和普林斯顿 Election Consortium 都杠龟。到底这次选举有什么特别之处,让众位专家纷纷判断错误?而特朗普团队本身自己又怎么看他们分析的资料呢?
2016 年美国总统大选充满口水战,许多美国选民怀着对对手阵营候选人的恨意而投票。竞选过程中也少谈政见,表示过往的历史模式往往难以套用到这次选战。不过这不表示资料科学无效,而是使用资料的人解读资料失败了。由于总统大选每四年举行一次,需要相当长的时间才能验证建构的模型是否正确,而且往往要失误才能看出问题。
资料科学起初从电子商务开始,购物网站常见的推荐购买选项。后来资料科学应用的范围扩散到其他领域,像是舆情分析,医疗等。原先资料科学能发挥的地方,在选举预测就派不上用场了。购物有成千上万笔消费记录能参考建构模型,但换到选举能依赖的资料就不多。而且这些资料往往也有偏差。
更细致的模型建立让结果更贴近最终结果
不过不是每一家媒体都预测失准,洛杉矶时报与加州大学旧金山分校 Dornsife 学院合作的团队就在选前常常算出特朗普领先的状况,而最后预测特朗普当选,依赖更细微的变因建构模型。洛杉矶时报华盛顿分部的 David Lauter 就说,他们依据更为细致的选项来建构模型,其中一个变因是依据百分为尺度,询问这次选举去投票的机率多高。而有较高倾向投票的人,其选择也会加权处理。
IBD/TIPP的民调做出来的结果也是特朗普当选。他们做了什么呢?他们打民调电话抽样更多手机用户。
特朗普团队的见解,觉得也不会赢但仍努力打下去
特朗普的资料团队以结果来说做了相当好的工作,即便他们自己做的数据显示特朗普是输的。选举前三周的 10/18,特朗普阵营内部的选举模拟器“Battleground Optimizer Path to Victory”显示特朗普有 7.8% 的机率能赢,在关键的州特朗普被判断落后,特别是佛罗里达。但值得留意是是特朗普落后的幅度并不大。
特朗普团队努力找出近年来饱受经济不好的铁锈地带选民,用经济议题打选举。另外还吸引对既有体制不满的人投给他,希拉里的电邮门事件加速这些选票的转移。最后就如我们看到的结果,以相当接近的票数赢得一些关键州的胜利。
模型出错的可能原因
不少统计、数据背景的人对这次选举预测失准状况发布意见,像是耶鲁大学生物资讯中心研究科学家 Pradeep Mutalik 博士说:“这些模型过强调准确性了。”他计算媒体倚赖的投票模型失准程度达到 15~20%。
Google、FaceBook、Amazon 这些硅谷公司的成功,让不少人乐观的认为 big data 能解决一切。演算法,但往往缺乏背景知识而做出很离谱的决定。像是前阵子FaceBook的演算法判断越战经典照片,躲开烧夷弹攻击的女孩,被FaceBook认定是儿童色情图片,而被不少人批评。
微软的 Tye 聊天机器人学会种族歧视的话语,很快被迫停止运作。Google Flu Trend 依据搜索数量预测流感流行状况,最初预测相当准,到后来数值严重高估。
如果没有认清资料有其限制,并且可能误信有瑕疵的假设,将会建出有问题的模型,澳洲资料科学和统计学家 Anthony Goldbloom 这么说。MIT 史隆商学院教授 Erik Brynjolfsson 说:“资料科学其实不是要给你答案,而是给你机率的科学。”因此统计学家或资料科学家大半都接受这次总统选举结果,因为就是有可能当选可能性低的人当选。
对于民调团队来说,这次美国总统大选可是很难受。像是《精确预测》作者被不少人包括本篇文章嘲笑,但如同前面提到只有出错时才知道问题出在那里,才有可能修正模型。
尽管大部分民调这次选举表现不好,其实这不表示 big data 或是资料科学是失败的,而是不好的资料,像是小量偏差的资料,有问题的演算法、和人类的偏见。民调、统计还是所谓资料科学,都是机率,意味事情没发生前,都有可能往另一个方向走。