给定训练数据集 和参数
其中 $X=(x_0, x_1, …, x_n), x \sim^{i.i.d.} P(X|\theta) $
为简化记
频率派
假设
认为 是未知常量, 是随机变量。
参数估计
MLE 极大似然估计:似然函数连乘最大化
套路
- 统计机器学习模型:概率模型、判别模型
- 问题定义和损失函数设计
- 求解优化问题
举例
假设扔硬币观察正反面变量 服从二项分布
实验 44581 次,观测到正面 39640 次正面,用 MLE 极大似然估计求解
与古典概率学求解结果相同,但小样本可能导致预估偏差大,可尝试贝叶斯派方法
贝叶斯派
假设
认为 \theta~P(\theta) 是随机变量, 是随机变量
后验概率 = (似然度 * 先验概率)/标准化常量
其中 可写为累加或积分形式
其中 是后验概率, 是似然(likelihood), 是先验概率、对参数默认分布假设。
参数估计
MAP 最大后验概率估计:寻找最优 使得后验概率最大
贝叶斯预计:估计 关于 的概率分布,较难求解
P(\theta|X) = \frac{P(X|\theta)P(\theta)}{\int_\theta P(X|\theta)P(\theta) d\theta}贝叶斯预测:通过 求 x 的概率分布
套路
- 概率图模型:HMM / CRF
- 求解积分问题:EM / MCMC / 蒙特卡洛模拟等方法
区别
以抛硬币正面朝上的概率为例:
对随机变量如何看待:
- 频率派:随机变量是固定值,通过不断重复实验逼近
- 贝叶斯派:开始变量服从某一分布,通过实验观测结果,对参数估计产生变化。
适合场景:
- 频率排:先验知识弱,样本多
- 贝叶斯派:先验知识强,样本少
例子
给定数据集
考虑线性回归模型
先说结论:
- 模型参数服从【 高斯 】分布,贝叶斯派 MAP 估计结果和频率派 MLE +【L1】正则估计结果一致
- 模型参数服从【拉普拉斯】分布,贝叶斯派 MAP 估计结果和频率派 MLE +【L2】正则估计结果一致
再做推导:
假设随机变量服从分布
频率派优化目标函数和 L2 正则,得到参数解:
\begin{align} \hat{\theta}_{MLE} &= \arg \min_\theta \prod_{i=1}^{n} P(y_i|x_i;\theta) + \lambda ||\theta||^2 \\ &= \arg \min_\theta \sum_{i=1}^{n} \log P(y_i|x_i;\theta) + \lambda ||\theta||^2 \\ &= \arg \min_\theta \sum_{i=1}^{n} \big(\log \frac{1}{\sqrt{2\pi}\sigma} + \log \exp{(-\frac{(y_i - \theta^Tx)^2}{2\sigma^2})}\big) + \lambda ||\theta||^2\\ &\approx \arg \min_\theta \sum_{i=1}^{n} (y_i - \theta^T x_i)^2 + \lambda ||\theta||^2 \end{align}其中
贝叶斯派假设模型参数符合高斯分布
优化目标函数
\begin{align} \hat\theta_{MAP}&=\arg\max_\theta P(\theta|y)=\arg\max_\theta P(y|\theta)P(\theta)\\ &=\arg\max_\theta \frac{1}{\sqrt{2\pi}\sigma} \exp{(-\frac{(y-\theta^Tx)^2}{2\sigma^2})} \frac{1}{\sqrt{2\pi}\sigma_0}\exp{(-\frac{||\theta||^2}{2\sigma_0^2}} )\\ &\approx \arg \min_\theta \sum_{i=1}^{n} (y_i - \theta^T x_i)^2 + \lambda ||\theta||^2 \end{align}参考
【机器学习我到底在学什么】哲学角度聊聊贝叶斯派和频率派,数学角度看看极大似然估计和最大后验估计 https://www.bilibili.com/video/BV1Ea4y1J7Jq
机器学习-白板推导系列(一)-开篇 https://www.bilibili.com/video/av31950221
李航 《统计学习方法》
周志华 机器学习
PRML
MLAPP
《ESL》
《Deep Learning》
台大 林轩田 《机器学习基石》/《机器学习技法》(SVM) / 《VC理论 》
张志华《统计机器学习》(贝叶斯)/《机器学习导论》(频率派)
Stanford Andrew Ng CS229 CS330
徐益达 概率模型,github notes
台大 李宏毅 ML 2017 / MLDS 2018
正态分布 概率密度函数
拉普拉斯分布 概率密度函数