极大似然估计问题与线性神经网络

正态分布与平方损失

接下来,我们通过对噪声分布的假设来解读平方损失目标函数。

正态分布和线性回归之间的关系很密切。
正态分布(normal distribution),也称为高斯分布(Gaussian distribution),
最早由德国数学家高斯(Gauss)应用于天文学研究。
简单的说,若随机变量xx具有均值μ\mu和方差σ2\sigma^2(标准差σ\sigma),其正态分布概率密度函数如下:

p(x)=12πσ2exp(12σ2(xμ)2).p(x) = \frac{1}{\sqrt{2 \pi \sigma^2}} \exp\left(-\frac{1}{2 \sigma^2} (x - \mu)^2\right).

改变均值会产生沿xx轴的偏移,增加方差将会分散分布、降低其峰值。

均方误差损失函数(简称均方损失)可以用于线性回归的一个原因是:我们假设了观测中包含噪声,其中噪声服从正态分布。

噪声正态分布如下式:

y=wx+b+ϵ,y = \mathbf{w}^\top \mathbf{x} + b + \epsilon,

其中,ϵN(0,σ2)\epsilon \sim \mathcal{N}(0, \sigma^2)

因此,我们现在可以写出通过给定的x\mathbf{x}观测到特定yy似然(likelihood):

P(yx)=12πσ2exp(12σ2(ywxb)2).P(y \mid \mathbf{x}) = \frac{1}{\sqrt{2 \pi \sigma^2}} \exp\left(-\frac{1}{2 \sigma^2} (y - \mathbf{w}^\top \mathbf{x} - b)^2\right).

现在,根据极大似然估计法,参数w\mathbf{w}bb的最优值是使整个数据集的似然最大的值:

P(yX)=i=1np(y(i)x(i)).P(\mathbf y \mid \mathbf X) = \prod_{i=1}^{n} p(y^{(i)}|\mathbf{x}^{(i)}).

根据极大似然估计法选择的估计量称为极大似然估计量
虽然使许多指数函数的乘积最大化看起来很困难,
但是我们可以在不改变目标的前提下,通过最大化似然对数来简化。
由于历史原因,优化通常是说最小化而不是最大化。
我们可以改为最小化负对数似然logP(yX)-\log P(\mathbf y \mid \mathbf X)
由此可以得到的数学公式是:

logP(yX)=i=1n12log(2πσ2)+12σ2(y(i)wx(i)b)2.-\log P(\mathbf y \mid \mathbf X) = \sum_{i=1}^n \frac{1}{2} \log(2 \pi \sigma^2) + \frac{1}{2 \sigma^2} \left(y^{(i)} - \mathbf{w}^\top \mathbf{x}^{(i)} - b\right)^2.

现在我们只需要假设σ\sigma是某个固定常数就可以忽略第一项,
因为第一项不依赖于w\mathbf{w}bb
现在第二项除了常数1σ2\frac{1}{\sigma^2}外,其余部分和前面介绍的均方误差是一样的。
幸运的是,上面式子的解并不依赖于σ\sigma
因此,在高斯噪声的假设下,最小化均方误差等价于对线性模型的极大似然估计。


核心结论

  1. 高斯噪声假设:当我们假设数据中的噪声服从正态分布(高斯分布)时

  2. 极大似然估计:使用极大似然估计法来估计线性模型的参数

  3. 等价性证明:在上述假设下,最小化均方误差 (MSE) 等价于对线性模型进行极大似然估计

这揭示了为什么均方误差损失函数在回归问题中如此常用——它背后有扎实的统计学理论支撑。