Standard Init
其中 是第 i 层的输入节点。
在 Xavier Init 提出前,一般用 unsupervised pre-trainning 和 greedy layer-wise procedure 来训练神经网络。
Xavier Init
其中 , 是第 i 层的输入、输出节点,以下是推导过程。
推导过程
卷积层的输入层 ,输出为 。
根据概率公式, 的方差可以展开为
假设输入 和权重 的均值都为 0,上式可以简化为
假设输入 和权重 独立同分布,则有
由约束条件:【输入输出方差一致】,推导出
对一个多层网络,某一层的方差,可以用累积的形式表达
反向传播计算梯度,也有类似的形式
由约束条件:【前向传播与反向传播每一层的方差一致】,推导出
一般输入输出节点不相等,作为权衡有
由统计学定公式, 在 区间均匀分布,方差为
推导出 Xavier 初始化公式,符合正态分布