Transformer P18 翻译任务词表文件生成

作者：陈华 • 发布时间：2023-09-02 • 阅读 1074

上节课，给大家介绍了中英文分词的方法，搞定分词之后，就要开始构建词表了。构建词表的目的，其实就是让每个词跟一个数字对应，才能做后续的数学运算。

另外，还有一个点要提醒大家，对中文来说，常用的汉字也就三千来个，不分词直接用字做运算，生成器的参数会更少，理论上说训练起来会更容易；但是，单个字做预测，会损失词的语义信息，训练难度也会相应增加。所以，两种方案都是可行的，大家有时间可以自行尝试对比，课上还是使用 jieba 分词之后的词语，来构建词表。

目标分析

内容不可见，请联系管理员开通权限。

代码示例

1、创建预处理文件

内容不可见，请联系管理员开通权限。

2、预设特殊标记词

内容不可见，请联系管理员开通权限。

3、加载json文件，并记录分词结果

内容不可见，请联系管理员开通权限。

4、按出现次数，去重生成词表

如果语料库够大，可以按最小次数，过滤掉生僻词。

内容不可见，请联系管理员开通权限。

5、生成词表文件

内容不可见，请联系管理员开通权限。

好的，现在就搞定了中英文词表的生成，虽然是根据一个小数据集生成的，但功能已经完成了。后面加载大数据集，代码不用动，只需要改路径配置就可以了。

本文链接：http://ichenhua.cn/edu/note/665

Transformer P18 翻译任务词表文件生成

本课程为收费课程，购买后可查看！

Transformer P18 翻译任务词表文件生成

目标分析

代码示例

陈华编程

关于我们

合作平台

相关网站

联系我们