医疗问答 P3 模型训练数据集和图谱数据介绍
上节课介绍的课程内容里面,可能有一项内容大家比较关心,就是数据集。这个项目要用到的数据比较多,两个深度模型的训练,和知识图谱的构建,都需要用到数据。下面依次给大家介绍一下,这几个环节需要用到的数据。
数据集
1、实体识别
ChineseBLUE/cMedQANER
Github:https://github.com/alibaba-research/ChineseBLUE
内容不可见,请联系管理员开通权限。
整体的 f1-score:0.77,项目需要识别三类实体:desease - 0.85,drug - 0.63,symptom - 0.75,总体可用,
2、意图识别
CMID:https://github.com/IMU-MachineLearningSXD/CMID
内容不可见,请联系管理员开通权限。
CMID这份数据质量不高,类别也不能完全覆盖,这个项目定制的意图类别。所以,用ChatGPT自己生成训练语料,准确率1.0,还可以灵活扩展,无懈可击。
3、图谱数据
寻医问药 - 疾病百科:https://jib.xywy.com/
内容不可见,请联系管理员开通权限。
好的,关于这个课程的总体介绍,就给大家讲完了,后面课程就是带大家一步步的完成项目的功能,下一个章节就开始做实体识别的模型训练了。
本文链接:http://ichenhua.cn/edu/note/631
版权声明:本文为「陈华编程」原创课程讲义,请给与知识创作者起码的尊重,未经许可不得传播或转售!