您的位置  > 互联网

通过归一化+乘固定尺度因子的情况讨论

为什么有进步。 我们还是讨论四类情况,归一化并乘以比例因子(其他情况原理类似):输出{x1,x2,x3,x4}等价于{s * cosθ,x2,x3,x4} 。 当 x = {5, 1, 1, 1} 时,原始输出接近收敛,训练停止,改用large。 第一列的 cosθ 被迫变成 cos(mθ)(即)、cosθ-m(即)或 cos(θ+m)(即),输出会减少,其他列保持不变。 这时,输出可能会变成x={4,1,1,1},网络可以继续训练,也是增加训练的难度,让训练得到的特征映射更好。 对比不同loss的曲线,下图来自,所有loss都是单调递减的。 与cosθ曲线相比,乘法对应的cos(mθ)曲线下降最多,训练难度急剧增加,退火技术难以收敛。 另一方面,加和下降较小,训练难度略有增加,因此更容易收敛。