Transformer P18 翻译任务词表文件生成
上节课,给大家介绍了中英文分词的方法,搞定分词之后,就要开始构建词表了。构建词表的目的,其实就是让每个词跟一个数字对应,才能做后续的数学运算。
另外,还有一个点要提醒大家,对中文来说,常用的汉字也就三千来个,不分词直接用字做运算,生成器的参数会更少,理论上说训练起来会更容易;但是,单个字做预测,会损失词的语义信息,训练难度也会相应增加。所以,两种方案都是可行的,大家有时间可以自行尝试对比,课上还是使用 jieba 分词之后的词语,来构建词表。
目标分析
内容不可见,请联系管理员开通权限。
代码示例
1、创建预处理文件
内容不可见,请联系管理员开通权限。
2、预设特殊标记词
内容不可见,请联系管理员开通权限。
3、加载json文件,并记录分词结果
内容不可见,请联系管理员开通权限。
4、按出现次数,去重生成词表
如果语料库够大,可以按最小次数,过滤掉生僻词。
内容不可见,请联系管理员开通权限。
5、生成词表文件
内容不可见,请联系管理员开通权限。
好的,现在就搞定了中英文词表的生成,虽然是根据一个小数据集生成的,但功能已经完成了。后面加载大数据集,代码不用动,只需要改路径配置就可以了。
本文链接:http://ichenhua.cn/edu/note/665
版权声明:本文为「陈华编程」原创课程讲义,请给与知识创作者起码的尊重,未经许可不得传播或转售!