上节课介绍的课程内容里面,可能有一项内容大家比较关心,就是数据集。这个项目要用到的数据比较多,两个深度模型的训练,和知识图谱的构建,都需要用到数据。下面依次给大家介绍一下,这几个环节需要用到的数据。

数据集

1、实体识别

ChineseBLUE/cMedQANER

Github:https://github.com/alibaba-research/ChineseBLUE

              precision    recall  f1-score   support

        body       0.74      0.79      0.77       234
       crowd       0.86      0.92      0.89        78
  department       0.86      0.75      0.80         8
     disease       0.82      0.87      0.85       431
        drug       0.62      0.64      0.63        61
     feature       0.96      0.93      0.95        28
  physiology       0.83      0.78      0.80        45
     symptom       0.72      0.79      0.75       229
        test       0.49      0.59      0.54        49
        time       0.49      0.53      0.51        32
   treatment       0.71      0.66      0.69       145

   micro avg       0.75      0.79      0.77      1340
   macro avg       0.74      0.75      0.74      1340
weighted avg       0.75      0.79      0.77      1340

整体的 f1-score:0.77,项目需要识别三类实体:desease - 0.85,drug - 0.63,symptom - 0.75,总体可用,

2、意图识别

CMID:https://github.com/IMU-MachineLearningSXD/CMID

病症:定义,病因,临床表现,相关病症,治疗方法,推荐医院,预防,所属科室,禁忌,传染性,治愈率,严重性
药物:作用,适用症,价钱,药物禁忌,用法,副作用,成分
治疗方案:方法,费用,有效时间,临床意义/检查目的,治疗时间,疗效,恢复时间,正常指标,化验/体检方案,恢复
其他:设备用法,多问,养生,整容,两性,对比,无法确定

CMID这份数据质量不高,类别也不能完全覆盖,这个项目定制的意图类别。所以,用ChatGPT自己生成训练语料,准确率1.0,还可以灵活扩展,无懈可击。

3、图谱数据

寻医问药 - 疾病百科:https://jib.xywy.com/

name(疾病名称)
desc(定义)
category(分类)
prevent(预防)
cause(病因)
symptom(症状)
yibao_status(是否医保)
get_prob(患病比例)
easy_get(易感人群)
get_way(传染方式)
acompany(并发疾病)
cure_department(就诊科室)
cure_way(治疗方式)
cure_lasttime(治疗周期)
cured_prob(治愈率)
common_drug(常用药品)
cost_money(治疗费用)
check(检查项)
do_eat(宜吃食物)
not_eat(忌吃食物)
recommand_eat(推荐菜谱)
recommand_drug(推荐药物)
drug_detail(药物明细)

好的,关于这个课程的总体介绍,就给大家讲完了,后面课程就是带大家一步步的完成项目的功能,下一个章节就开始做实体识别的模型训练了。

本文为 陈华 原创,欢迎转载,但请注明出处:http://ichenhua.cn/read/645