贝叶斯统计和经典统计的区别

2018-01-20
字体:
浏览:
文章简介:额,嗯~~用岭回归做例子,讲一下我对正则化的理解.我们考虑最常用的n个样本p个自变量的线性回归,假设它有这样的形式 y=Xb e.其中y是n维向量代表因变量,X是n*p维矩阵代表自变量,b是p维向量代表回归系数,e是0均值等方差的正态分布随机向量代表误差.我们对回归系数b感兴趣.注意这里我们是频率派的观点,b有一个固定但是未知的值在那儿.通过最小二乘法,或者极大似然法,我们能得到b的一个估计b0=(X'X)^(-1)X'y,它是b的一个无偏估计.并且,高斯老师告诉我们说,b0是所有b的无偏估计中

额,嗯~~用岭回归做例子,讲一下我对正则化的理解。

我们考虑最常用的n个样本p个自变量的线性回归,假设它有这样的形式 y=Xb e。其中y是n维向量代表因变量,X是n*p维矩阵代表自变量,b是p维向量代表回归系数,e是0均值等方差的正态分布随机向量代表误差。我们对回归系数b感兴趣。注意这里我们是频率派的观点,b有一个固定但是未知的值在那儿。

通过最小二乘法,或者极大似然法,我们能得到b的一个估计b0=(X'X)^(-1)X'y,它是b的一个无偏估计。并且,高斯老师告诉我们说,b0是所有b的无偏估计中方差最小的那个。然而,很多时候b0并不是很好的估计,这主要有两个原因。

第一,当X的p个自变量有线性相关的关系时,X'X这个矩阵会不可逆,也就是说b0会不存在。当然真实数据中完全线性相关的情形会比较少,但接近线性相关的情况是很有可能发生的,也就是所谓的多元共线性(multicollinearity)。当存在多元共线性时,X'X这个矩阵的条件数(condition number)会很大,它求逆之后会导致b0的值很不稳定。

第二,所有无偏估计中方差最小,不见得就是最好。无偏的意思是没有偏差。下面举个例子说明什么是偏差,什么是方差。

假设我们在打靶,要打中数轴上的0点。loveisp同学打了几次,结果是-2.0,-3.0, 1.0, 4.0。Vacant同学打了几次,结果是0.9, 1.1, 1.0, 1.0。现在要选择一位同学参加校运会,校运会上只能打一靶,大家会选谁?

乍一看,loveisp的平均成绩是0,Vacant的平均成绩是1,是loveisp打得更准吗?我想多数人都不会这么认为。虽然Vacant 同学可能有斗鸡眼还是怎么的,每次都朝同一个方向打偏,但是她发挥很稳定,每次都偏得不远。loveisp同学这种成绩可以看做是无偏的,平均起来比较好,但是成绩不稳定,也就是方差比较大。Vacant同学这种成绩是有偏的,可是发挥稳定方差很小。当然如果Vacant眼睛斗得比较厉害,偏差太大,大家也是不会选她去校运会的。

我们拿到一组样本之后,只会得到关于b的一个估计,也就是只能打一次靶。所以方差和偏差对我们来说都很重要,需要同时考虑。高斯老师告诉我们,这个时候我们要考虑的是”均方误差“(mean squared error,MSE)这个量,可以证明它等于方差 偏差的平方。MSE小的,才是好的估计。

好了,跑了很久的题,我们终于可以开始讲正则化了。正则化主要是为了解决第一个问题,也就是让病态的问题(ill-posed problem,这里指对条件数很大甚至不可逆的矩阵求逆)变得正常起来。对症下药我们让b(k)=(X'X kI)^(-1)X'y,这就是所谓的岭回归(ridge regression)。这里k是一个正的正则化参数(岭参数),I是p维恒等矩阵。这样子X'X kI这个矩阵就总是可逆的了,较大的k可以让矩阵的条件数变小,病好了。

同时,我们发现,b(k)这个估计的MSE总是会比b0小。OK,打靶这种事儿还是要请b(k)上。但是k取多少比较好呢?这个问题不好办,因为使得b(k)的MSE最小的那个k跟样本数n、误差e的分布以及真正的b的取值有关。实际应用中e的分布和b的取值都是不知道的,我们最好通过交叉验证去取k,那就扯远了。

额~~已经够长了,以后再讲贝叶斯的观点看岭回归和正则化。