选自
作者:Jimmy Lei Ba、Jamie Ryan Kiros、 E.
机器之心编译
参与:李亚洲

摘要:训练最先进的深度神经网络计算成本昂贵。减少训练时间的一个方式是将神经元活动归一化。最近介绍的一种名为batch 的技术在小批量(mini-batch)的训练案例上使用一个神经元总结输入( input)的分布计算均值与方差,然后用它们归一这一神经元在每个训练案例上的总结输入。这明显减少了前馈神经网络中的训练时间。然而,batch 的效果依赖于 mini-batch 的大小,而且如何应用于循环神经网络也不明显。在此论文中,我们通过计算来自单一训练案例中一层神经元的所有总结输入的均值与方差(用于归一化的),将 batch 调换为层归一化(layer )。如同 batch ,我们也给每一个神经元自己的适应偏差( bias)与增益,它们在归一化之后、非线性(non-)之前被使用。不同于 batch ,层归一化在训练以及测试时间上表现出完全同样的计算能力。它也能通过分别计算每一时间步骤上的归一化统计( )直接应用于循环神经网络。层归一化在循环网络中的隐态动态的稳定上非常有效。经验上,我们的结果显示相比于先前公开的技术,层归一化能充分的减少训练时间。
©本文由机器之心编译,转载请联系本公众号获得授权。
————————————————
加入机器之心(全职记者/实习生):
投稿或寻求报道:
广告&商务合作:
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...