Transformer P28 动态调整学习率策略详解

作者：陈华 • 发布时间：2023-09-26 • 阅读 1257

上节课，介绍了 Label Smoothing 这个正则化策略，接下来再给补充一个论文当中的知识点，在论文的 5.3 节，关于学习率衰减策略的设置。这节课的安排，是首先实现论文里面的方法，然后再讲一个自己写的策略。因为论文里面的训练次数比较多，他的 warmup 值也会比较大，但是我们训练不了几十万次，自己写的策略会比较好控制一些。

代码示例

1、论文中的学习率调整策略

内容不可见，请联系管理员开通权限。

2、自定义调整策略

内容不可见，请联系管理员开通权限。

3、动态调整学习率

内容不可见，请联系管理员开通权限。

这节课主要是给大家介绍了，在训练过程中动态调整学习率的方法。因为模型结构越复杂，对参数的精细化程度要求也越高。所以我们用动态学习率的目的，是在兼顾训练效率的同时，尽量让模型效果更稳定。

下节课，再给大家补充一个多 GPU 并行训练的方法之后，就可以用真实数据集，来做模型训练了。

本文链接：http://ichenhua.cn/edu/note/675

Transformer P28 动态调整学习率策略详解

本课程为收费课程，购买后可查看！

Transformer P28 动态调整学习率策略详解

代码示例

陈华编程

关于我们

合作平台

相关网站

联系我们