Transformer P28 动态调整学习率策略详解
上节课,介绍了 Label Smoothing 这个正则化策略,接下来再给补充一个论文当中的知识点,在论文的 5.3 节,关于学习率衰减策略的设置。这节课的安排,是首先实现论文里面的方法,然后再讲一个自己写的策略。因为论文里面的训练次数比较多,他的 warmup 值也会比较大,但是我们训练不了几十万次,自己写的策略会比较好控制一些。
代码示例
1、论文中的学习率调整策略
内容不可见,请联系管理员开通权限。
2、自定义调整策略
内容不可见,请联系管理员开通权限。
3、动态调整学习率
内容不可见,请联系管理员开通权限。
这节课主要是给大家介绍了,在训练过程中动态调整学习率的方法。因为模型结构越复杂,对参数的精细化程度要求也越高。所以我们用动态学习率的目的,是在兼顾训练效率的同时,尽量让模型效果更稳定。
下节课,再给大家补充一个多 GPU 并行训练的方法之后,就可以用真实数据集,来做模型训练了。
本文链接:http://ichenhua.cn/edu/note/675
版权声明:本文为「陈华编程」原创课程讲义,请给与知识创作者起码的尊重,未经许可不得传播或转售!