Transformer P10 Add&Norm代码实现

作者：陈华 • 发布时间：2023-08-30 • 阅读 1272

根据 Transformer 的结构图，接下来进入的是 Add & Norm 层，从名称上就可以看出，这一步要做两个操作，Add 的残差，和 Norm 层标准化。虽然这个操作在整个 Transformer 架构中，被多次重复用到，但代码简单，就不做封装了，直接在多头注意力类里面实现。

1、Mask扩维

分头之后，scores 维度增加了，mask 也要做相应的扩维。

内容不可见，请联系管理员开通权限。

2、Add

我们说 Attention，其实得到的是 query 在 key 和 value 作用下的表示，所以入参是 query。

内容不可见，请联系管理员开通权限。

3、Norm

torch 中已经实现了 Norm 层，可以直接调用。

内容不可见，请联系管理员开通权限。

注意事项

这节课代码很简单，但其中包含的两个知识点，是面试中的常考点，课后可以针对性的查缺补漏。

本课程为收费课程，购买后可查看！