GCN项目 P5 生成词表和标签表缓存文件
在之前的流程中,我们已经将训练和测试图片,OCR识别生成的csv文件,打上了类别标签。现在我们需要通过训练集的文件,生成词表和标签表的缓存文件,从而实现文字和标签的数字化。
代码示例
1、添加配置项
内容不可见,请联系管理员开通权限。
2、创建文件
内容不可见,请联系管理员开通权限。
3、文本替换函数
文本替换是最简单,也是最有效的文本信息增强手段。比如身份证号码都是数字,但每个人的身份证号码都不相同。直接进行编码,这个特征差异就会很大,但如果我们把所有的数字都用0代替,这个特征就会基本相同,可以大大提高模型准确率。
内容不可见,请联系管理员开通权限。
4、生成词表
内容不可见,请联系管理员开通权限。
5、生成标签表
内容不可见,请联系管理员开通权限。
6、调用并生成文件
内容不可见,请联系管理员开通权限。
本文链接:http://ichenhua.cn/edu/note/468
版权声明:本文为「陈华编程」原创课程讲义,请给与知识创作者起码的尊重,未经许可不得传播或转售!