Transformer P8 Attention处理Key_Padding_Mask

作者：陈华 • 发布时间：2023-08-30 • 阅读 1271

上节课当中，我们实现了用于注意力计算的 attention 函数，但在函数实现过程中，忽略了一个问题，就是在NLP任务中，输入模型的句子一般都是有长有短的，为方便批处理，会强行用 pad 填充到等长。

而填充的 pad 经过词嵌入和位置编码层，会被编码成一个正常的特征向量，为了防止 pad 影响计算结果，需要把 pad 对应位置的数值 mask 掉。

需要注意的是，在代码实现环节，我们仅考虑 key 的 pad 位置，query 的填充，会在 decode 环节被 mask 掉。

1、masked_fill 方法

填充的位置可以是0，也可以用1，masked_fill 注意对应即可。

内容不可见，请联系管理员开通权限。

2、封装函数

内容不可见，请联系管理员开通权限。

3、attention 函数添加 mask 参数

内容不可见，请联系管理员开通权限。

好的，那现在我们就一起完成了 Multi-Head Attention 中的，Attention 的代码实现，下节课就开始处理前面的 Multi-Head 部分。

本课程为收费课程，购买后可查看！