NER项目 P5-1 定义Dataset数据集和文本等长切分(1)
经过前面的数据预处理操作,我们已经得到了训练样本、测试样本文件,以及词表和标签表的缓存文件,接下来就是定义Dataset类,来加载数据。另外在加载数据时,需要将文本切分为等长的句子。
代码示例
1、新建文件
内容不可见,请联系管理员开通权限。
2、加载词表和标签表
内容不可见,请联系管理员开通权限。
3、Dataset
type 参数,这个类是训练和测试公用的,所以定义一个参数来区分加载哪个文件。
base_len 参数,用来定义句子的参考长度,特殊情况再稍做处理。
内容不可见,请联系管理员开通权限。
切分文本
目前我们已经定义好了Dataset类,并将文本加载到DataFrame中,下一步,就是要将长文本拆分成句子。我们这里采用等长切分,每隔50个字切一刀。
但有一种情况需要处理,就是切点上是非O标签,则需要将切点往后移动,直达O标签为止。
1、计算分割点
内容不可见,请联系管理员开通权限。
2、文本数字化
内容不可见,请联系管理员开通权限。
本文链接:http://ichenhua.cn/edu/note/457
版权声明:本文为「陈华编程」原创课程讲义,请给与知识创作者起码的尊重,未经许可不得传播或转售!