贝叶斯定理
由联合概率的乘法交换律得到
其中
-
为先验概率,即在得到新数据前的某一假设
-
为后验概率,即在看到新数据后,我们待求解的该假设的概率
-
称为似然度,是该假设下得到这一数据的概率
-
称为标准化常量,是在任何假设下得到这一数据的概率
将 变成样本 ,将 变成连续的参数 ,有贝叶斯公式
其中
- 为先验分布,可设为 0-1 均匀分布
- 为后验分布
- 为似然函数,即我们观测到的样本分布
累计分布函数 CDF ,也叫分布函数,有 ,是非降、有界、有连续的函数。
概率密度函数 PDF ,有 ,是有界、单调、右连续的函数。
求解参数 ,可以用矩估计法或极大似然估计法
贝叶斯分类器
贝叶斯决策论
假设样本分类空间 ,样本 上的条件风险定义
其中 是误分 为 类产生的损失
寻找一个判定准则 以最小化风险
贝叶斯准则:为最小化总体风险,只需在每个样本上选择那个能使条件风险 最小化的类别标记,即
其中, 反应了分类器所能达到的最优性能,即通过机器学习所能产生的模型精度的最上限。
此时 称为贝叶斯最优分类器
与之对应的总体风险称为 称为贝叶斯风险。
当最小化分类错误错误分类率时, 定义为
此时条件风险
于是最小化分类错误率的贝叶斯最优分类器为
不难看出,要使用贝叶斯判定准则来最小化决策风险,首先要获得后验概率 ,但是在现实任务中很难。问题可以转化为贝叶斯公式
其中, 是类先验概率, 是样本 x 相对于标记 c 的累条件概率,或者成为似然, 是用于归一化的证据因子。对给定样本 ,证据因子和累标记无关。因此累估计 的问题就转化为如何基于训练数据集 来估计先验 和似然
其中 的频率学派估计方法,假定参数是客观存在的固定值,通过优化似然函数等准则来确定参数值。Bayesian 学派认为,参数是为观察到的随机变量,它本身也可有分布,因此可以假定参数服从一个先验分布,然后基于观测到的数据来计算参数的后验分布.
频率学派的 MLE 方法:令 表示训练集中第 类样本组成的集合,假设这些样本是独立同分布的,则参数 对于数据集 的似然是
通常用对数似然,避免上式连乘操作的下溢
朴素贝叶斯分类器
贝叶斯公式估计后验概率 的困难在于 是所有属性上的联合概率,难以从有限的样本直接估计而得。为解决这个问题,朴素贝叶斯分类器采用了 “属性条件独立性假设”:对已知类别,假设所有属性相互独立。那么有
其中 为属性的数目, 为 在第 个属性上的取值
对所有类别 相同,因此贝叶斯判定准则有
这就是朴素贝叶斯分类器的表达式,其中
半朴素贝叶斯分类器
推导 wiki
One-Depedent Estimator,ODE,独依赖估计,假设每个属性在类别之外最多仅依赖一个其他属性,可以推导出
TODO
贝叶斯网
也叫信念网,belief network,借助无环图,Directed Acyclic Graph,DAG 来刻画属性之间的依赖关系,并使用条件概率表 CPT 来描述属性的联合概率分布
TODO
EM 算法
在训练集中,有时会有未观测到的变量,即隐变量。令 表示已观测变量集合, 表示隐变量集, 表示模型参数。若想对 做极大似然估计,则应最大化对数似然函数
由于 是隐变量,无法直接求解。我们可以用梯度下降方法估计隐变量,但是求和项数会随着隐变量的数目指数增加,给梯度计算带来麻烦。或者可用 EM 方法 (非梯度优化方法),通过对 计算期望,来最大化已观测数据的对数边际似然 marginal likelyhood
Expectation Maximization 算法,是常用的估计参数隐变量的方法,其基本想法是:若参数 已知,则可根据训练数据推断初最优隐变量 的值 (E步);反之,若 的值已知,则可方便地对参数 做极大似然估计 (M 步)。交替 E 步,M 步直到收敛到局部最优解.
Expetation 步:若当前参数 推断隐变量分布 并计算对数似然 关于 Z 的期望,
Maximization 步:寻找参数最大化的期望似然
参考
《统计学习方法》,李航
《贝叶斯思维——统计建模的 Python 学习法》,Allen B. Downey