贝叶斯学派 v.s. 频率学派

给定训练数据集 XX 和参数 θ\theta

其中 $X=(x_0, x_1, …, x_n), x \sim^{i.i.d.} P(X|\theta) $

为简化记 P(Xθ)=i=1nP(xiθ)P(X|\theta) = \prod_{i=1}^{n} P(x_i|\theta)

频率派

假设

认为 θ\theta 是未知常量,XX 是随机变量。

参数估计

MLE 极大似然估计:似然函数连乘最大化

θMLE=argmaxθlogP(Xθ)\theta_{MLE}= \arg \max_\theta \log P(X|\theta)

套路

  1. 统计机器学习模型:概率模型、判别模型
  2. 问题定义和损失函数设计
  3. 求解优化问题

举例

假设扔硬币观察正反面变量 XX 服从二项分布P(X=1θ)=θ,P(X=0θ)=1θP(X=1|\theta)=\theta,P(X=0|\theta)=1-\theta

实验 44581 次,观测到正面 39640 次正面,用 MLE 极大似然估计求解 θ\theta

θ=argmaxθθ39640(1θ)4941=0.8894\theta^*=\arg\max_\theta \theta^{39640}(1-\theta)^{4941} = 0.8894

与古典概率学求解结果相同,但小样本可能导致预估偏差大,可尝试贝叶斯派方法

贝叶斯派

假设

认为 \theta~P(\theta) 是随机变量,XX 是随机变量

后验概率 = (似然度 * 先验概率)/标准化常量

P(θX)=P(Xθ)P(θ)P(X)P(Xθ)P(θ)P(\theta|X)=\frac{P(X|\theta)P(\theta)}{P(X)} \propto P(X|\theta)P(\theta)

其中 P(X)P(X) 可写为累加或积分形式 θP(Xθ)P(θ)dθ\int_\theta P(X|\theta)P(\theta) d\theta

其中 P(θX)P(\theta|X) 是后验概率,P(Xθ)P(X|\theta) 是似然(likelihood),P(θ)P(\theta) 是先验概率、对参数默认分布假设。

参数估计

MAP 最大后验概率估计:寻找最优 θ\theta 使得后验概率最大

θMAP=argmaxθP(θX)=argmaxθP(Xθ)P(θ)\theta_{MAP} = \arg\max_\theta P(\theta|X)=\arg\max_\theta P(X|\theta) P(\theta)

贝叶斯预计:估计 θ\theta 关于 XX 的概率分布,较难求解

P(\theta|X) = \frac{P(X|\theta)P(\theta)}{\int_\theta P(X|\theta)P(\theta) d\theta}​

贝叶斯预测:通过 P(θX)P(\theta|X) 求 x 的概率分布

P(x~X)=P(x~,θX)dθ=P(x~θ)P(θX)dθP(\tilde x|X) = \int P(\tilde x,\theta|X)d\theta = \int P(\tilde x|\theta)P(\theta|X)d\theta

套路

  1. 概率图模型:HMM / CRF
  2. 求解积分问题:EM / MCMC / 蒙特卡洛模拟等方法

区别

以抛硬币正面朝上的概率为例:

对随机变量如何看待:

  • 频率派:随机变量是固定值,通过不断重复实验逼近
  • 贝叶斯派:开始变量服从某一分布,通过实验观测结果,对参数估计产生变化。

适合场景:

  • 频率排:先验知识弱,样本多
  • 贝叶斯派:先验知识强,样本少

例子

给定数据集

D={(x1,y1),(x2,y2),...,(xn,yn)}D=\{(x_1, y_1), (x_2, y_2), ...,(x_n, y_n)\}

考虑线性回归模型

y=θTx+ϵy=\theta^T x + \epsilon

先说结论:

  • 模型参数服从【 高斯 】分布,贝叶斯派 MAP 估计结果和频率派 MLE +【L1】正则估计结果一致
  • 模型参数服从【拉普拉斯】分布,贝叶斯派 MAP 估计结果和频率派 MLE +【L2】正则估计结果一致

再做推导:

假设随机变量服从分布

ϵN(0,σ2),yN(θTx,σ2)\epsilon \sim N(0, \sigma^2), y \sim N(\theta^Tx, \sigma^2)

频率派优化目标函数和 L2 正则,得到参数解:

\begin{align} \hat{\theta}_{MLE} &= \arg \min_\theta \prod_{i=1}^{n} P(y_i|x_i;\theta) + \lambda ||\theta||^2 \\ &= \arg \min_\theta \sum_{i=1}^{n} \log P(y_i|x_i;\theta) + \lambda ||\theta||^2 \\ &= \arg \min_\theta \sum_{i=1}^{n} \big(\log \frac{1}{\sqrt{2\pi}\sigma} + \log \exp{(-\frac{(y_i - \theta^Tx)^2}{2\sigma^2})}\big) + \lambda ||\theta||^2\\ &\approx \arg \min_\theta \sum_{i=1}^{n} (y_i - \theta^T x_i)^2 + \lambda ||\theta||^2 \end{align}

其中 P(yixi;θ)=PDFnorm_dist(yi;μ=θTxi,σ)=12πσe(yiμ)22σ2P(y_i|x_i;\theta)=PDF_{norm\_dist}(y_i;\mu=\theta^Tx_i,\sigma)=\frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{(y_i -\mu)^2}{2\sigma^2}}

贝叶斯派假设模型参数符合高斯分布

θN(0,σ02)\theta \sim N(0, \sigma_0^2)

P(θy)=P(yθ)P(θ)p(y)P(\theta|y)=\frac{P(y|\theta)P(\theta)}{p(y)}

优化目标函数

\begin{align} \hat\theta_{MAP}&=\arg\max_\theta P(\theta|y)=\arg\max_\theta P(y|\theta)P(\theta)\\ &=\arg\max_\theta \frac{1}{\sqrt{2\pi}\sigma} \exp{(-\frac{(y-\theta^Tx)^2}{2\sigma^2})} \frac{1}{\sqrt{2\pi}\sigma_0}\exp{(-\frac{||\theta||^2}{2\sigma_0^2}} )\\ &\approx \arg \min_\theta \sum_{i=1}^{n} (y_i - \theta^T x_i)^2 + \lambda ||\theta||^2 \end{align}

参考

【机器学习我到底在学什么】哲学角度聊聊贝叶斯派和频率派,数学角度看看极大似然估计和最大后验估计 https://www.bilibili.com/video/BV1Ea4y1J7Jq

机器学习-白板推导系列(一)-开篇 https://www.bilibili.com/video/av31950221

李航 《统计学习方法》

周志华 机器学习

PRML

MLAPP

《ESL》

《Deep Learning》

台大 林轩田 《机器学习基石》/《机器学习技法》(SVM) / 《VC理论 》

张志华《统计机器学习》(贝叶斯)/《机器学习导论》(频率派)

Stanford Andrew Ng CS229 CS330

徐益达 概率模型,github notes

台大 李宏毅 ML 2017 / MLDS 2018

正态分布 N(μ,σ2)N(\mu, \sigma^2) 概率密度函数

f(x)=12πσexp((xμ)22σ2)f(x)=\frac{1}{\sqrt{2\pi}\sigma}\exp{(-\frac{(x-\mu)^2}{2\sigma^2})}

拉普拉斯分布 L(μ,b)L(\mu,b) 概率密度函数

f(xμ,b)=12bexp(xμb)f(x|\mu,b)=\frac{1}{2b}\exp(-\frac{|x-\mu|}{b})

本文有帮助?