接下来的几节课,要完成的任务,是给之前讲过的命名实体识别任务,替换一份比较好的医疗数据集,重新训练之后,用于医疗知识图谱项目中的实体识别流程。

数据集说明

同样是医疗的项目,为什么要替换数据集呢?因为之前NER课程用的数据集,是一个竞赛提供的,竞赛一般为了拉开差距,会故意加上一些噪声,不做清洗准确率很难超过0.7。

知识图谱这个项目,还是想给大家做出一个尽量好的效果,所以重新找了一份相对比较好的数据,来做实体识别的模型训练。同时,也是借这个机会,给大家演示一下替换数据集的过程,之前也有很多同学有这方面的疑问,在这里做一个统一的答疑讲解。

命名实体识别项目:http://edu.ichenhua.cn/edu/course/24,没有学过的同学,还是建议大家去补一下基础。

数据集:ChineseBLUE/cMedQANER

内容不可见,请联系管理员开通权限。

代码示例

1、目录结构

模型训练过程,是离线操作,单独创建文件夹来处理。

内容不可见,请联系管理员开通权限。

2、修改配置文件

内容不可见,请联系管理员开通权限。

3、生成标签表

数据集贴心的帮我们生成了,字符和标签一对一的样本文件,预处理只需要提取标签即可。

内容不可见,请联系管理员开通权限。

这节课内容比较简单,主要是把新的数据集,导入到了之前的实体识别项目中。还是那句话,万丈高楼平地起,如果没看过之前实体识别的课程,还是建议先学习之前的命名实体识别课程,打好基础再看后面的内容。

本文链接:http://ichenhua.cn/edu/note/614

版权声明:本文为「陈华编程」原创课程讲义,请给与知识创作者起码的尊重,未经许可不得传播或转售!