哥白尼发明了什么 哥白尼原则到底什么意思?
老人们常会对那些有些自以为是的年轻人说:“地球离了谁都会接着转的。”。而心高气傲的年轻人则会不屑一顾的笑笑。但老人的话往往是睿智的。科学上有一个和奥斯卡姆的剪刀一样通用,却不那么广为人知的principle,即 Copernican principle,说的是:“人,作为观测者,没有道理处在一个最特殊的位置上。”更专业的说法是:
提起哥白尼,我们想到的是他的日心说,日心说相比与地心说,将人作为观察者,从宇宙的中心这个特殊的位置移开。类似的,进化论也让人类不在是那么特殊的一种观察者。而认知科学家在近些年里,更是一次次的重写“人是唯一一种可以×××的动物”,×××的内容从语言到使用工具,人类作为观察者,正变得越来越没有那么特殊。
哥白尼法则也预示着我们处在中间的位置,不论是从那个角度去看。从微观到宏观的物理尺度来看,人类的位置如下图所示
从可预测性上来看,我们感兴趣的大部分系统也处在中间位置,比如金融系统及人际关系网络,这些系统即不像单摆那样单调,又不是完全的混沌,从而在理论上就不可预测。
而将哥白尼法则应用到时间上,则意味着我们观察一件事的时候既不是这件事开始的时候,也不是其将要结束的时候,而应该是在这件事正在进行的时候。这时就要讲一讲哥白尼法则最成功的运用了,即1969年,美国普林斯顿大学教授J. Richard Gott偶然参观了柏林墙说:“这座墙最多还能存在24年。我现在并不清楚它为什么会倒塌。我只预测它的寿命。”
这个预测背后的逻辑可以用下面两幅图来说明,这里感谢公众号”乘桴“的图片
第一幅图是基于高特教授参观柏林墙的这件事是偶然的,从而其也不会处在一个特殊的时间点上,从而更可能是在柏林墙已存在的时间。第二幅图是假设我们只关注柏林墙存在的上限。
这样的故事会让读者很容易记住哥白尼法则,而忘记哥白尼法则的基本假设,从而造成对哥白尼法则的滥用。比如你看到一个朋友在朋友圈秀恩爱,你一问他们一天前表白成功的,然后你基于哥白尼法则预测他们有很大的可能将在一天后分手。这时你多半会犯错的,因为你观测到他们秀恩爱这个行为不是随机的,而是由于他们刚刚认识才会发生的,这时你就不该用哥白尼法则。
为了运用哥白尼法则,我们需要了解置信度的概念,根据高特教授的推测,在80%准确度的条件下,在特殊观测位置之外,某件事物未来存在时间最少不小于过去存在时间的1/9,最大不大于过去存在时间的9倍。
这意味着我们需要足够多的观察,来确保自己的预测不犯错误。比如马斯克的超级高铁建成了,如果我为了保证其是安全的,不会在其首航乘坐,这时任何关于这项新技术的安全性的估计,根据哥白尼法则,都不够准确。而换一个视角来看,制药商要论证一个药品是安全的,则需要提供之前多次实验的数据,而不是只是检测一次。
将哥白尼法则运用到日常的生活中,最典型的例子就是不要总跳槽。如果你看到一个每三个月跳槽一个的求职者,你最稳妥的估计是他三个月后还会从你的公司跳出去。如果你讲述一个人的感情经历时说你有过10个前任,那么你有很大的概率成为她或者他的前任。
将哥白尼法则推广出来,就会是机器学习中运用的最大熵原理,即在已知部分知识的前提下,关于未知分布最合理的推断就是符合已知知识最不确定或最随机的推断,这是我们可以作出的唯一不偏不倚的选择,任何其它的选择都意味着我们增加了其它的约束和假设,从而让我们处在特殊的观察者的地位上。
熵是用来度量不确定性的,在上图中,我们知道水中加入了墨水,我们给出的预测会是右边而不是左边,不止是由于热力学第二定理。当我们假设我们观察加入墨水后的时候不那么特殊,那么最有可能的就是右边的状态。接着想象如果加入的不是一滴墨水,而是一则信息进入了股票市场,最大熵原理告诉我们在做预测的时候,也应该做出尽可能少的假设。
最大熵模型的应用广泛,自然语言处理,天体物理,医学,金融等,而这个模型的可扩展性,正是来源于哥白尼原理。投资时讲不要把所有鸡蛋放到一个篮子中,其背后的道理也是假设我们观察到的投资机会不是那么特殊的。
关于哥白尼原理,要说的还有很多。最大熵模型又是机器学习中一个比较难训练的模型,这里只是将一些观念连接起来,最后在文章的结尾开一个脑洞,老子云”多言数穷,不若守于中。”这里的道理其实也是说多言,也就会不自觉的让我们作为观察者变得特殊起来,守乎中,就是保持没那么有把握的状态,假设自己是在中间的位置上,这不也符合哥白尼原理吗?如果你接受了这一句背后的逻辑,那么道德经中这一句之前的句子你应该不会误解了。
道德经中的“天地不仁,以万物为刍狗:圣人不仁,以百姓为刍狗。”常常被人们误解,但若是理解到这里说的是要我们不要把自己当成是特殊的观察者,那么对这一句的道德批判就会少一些。