Adam

重みの更新方法の一つ。
MomemtumとRMSPropを組み合わせた方法。
勾配の2乗の移動平均だけでなく、勾配の移動平均も保持する。

\( m_t = \rho _1 m_{t-1} + (1-\rho _1)\frac{\partial L}{\partial W_t} \)
\( v_t = \rho _2 v_{t-1} + (1-\rho _2)\frac{\partial L}{\partial W_t} \odot \frac{\partial L}{\partial W_t} \)
\( \hat{m_t} = \frac{m_t}{1-\rho ^2_1} \)
\( \hat{v_t} = \frac{v_t}{1-\rho ^t_2}\)

\( W_{t+1} = W_t – \eta\frac{1}{\sqrt{\hat{v_t}} +\delta} \odot \hat{m_t} \)

\( \rho _1 \)、\( \rho _2 \)は共に減衰率で1に近いハイパーパラメータ。\( t \)はステップ数。\( \odot \)はアダマール積。\( \delta \)は0割り防止の小さい数。