医疗问答 P4 创建图谱构建类并读取文件
从这节课开始,就要进入图谱构建环节了。构建图谱的数据来源,是用爬虫爬取的寻医问药网站,疾病百科栏目(http://jib.xywy.com/)的数据。
爬虫不是这个项目的重点,在上一个的项目《电影知识图谱问答机器人》里面讲过,而且寻医问药这个网站没有特殊的反爬策略,稍有基础的同学都能自己搞定,所以课上就不重复讲爬虫的内容,直接用网上公开的别人爬好的一份数据。
数据结构
数据是一行一个疾病,json格式,需要注意的是,有的疾病字段有空缺。
内容不可见,请联系管理员开通权限。
代码示例
1、模块导入
内容不可见,请联系管理员开通权限。
2、创建图谱构建类
内容不可见,请联系管理员开通权限。
3、读取数据文件
内容不可见,请联系管理员开通权限。
这节课内容比较简单,主要是把构建图谱的原始数据加载进来了,下节课再来解析json。
本文链接:http://ichenhua.cn/edu/note/632
版权声明:本文为「陈华编程」原创课程讲义,请给与知识创作者起码的尊重,未经许可不得传播或转售!