KBQA项目 P6 正则实现问题中关系和属性提取
前面课程中,用正则匹配的方式,提取到了问题中的实体,正常来说,关系和属性也可以用同样的方式处理。但是,关系和属性并不像实体那样具有唯一性。
比如霸王别姬这个电影,正常的提问方式,肯定会包含这个词,这个实体就不会有歧义,但是关系和属性的问法就比较多变,会有一些口语化的表达,比如:
内容不可见,请联系管理员开通权限。
对于这个问题,这个项目中,我们用一种比较简单的方案,定义同义词来处理。比如把演员、主演、谁演的这些词,用同义词替换成“主演”这个词,再去匹配属性和关系。
代码示例
1、定义属性和关系的同义词
内容不可见,请联系管理员开通权限。
2、正则匹配提取属性和关系
内容不可见,请联系管理员开通权限。
3、解析后统一返回
内容不可见,请联系管理员开通权限。
这两节课中,用正则表达式,提取了用户问题中实体和关系等信息,正则的方法虽然简单粗暴,但准确率高,识别的结果基本不会有误差。除此之外,也可以用模型,去做实体抽取和意图识别,当然,这个方法模型处理工作量就比较大,先给大家做一个预告,在后面的项目中再详细讲解。
本文链接:http://ichenhua.cn/edu/note/599
版权声明:本文为「陈华编程」原创课程讲义,请给与知识创作者起码的尊重,未经许可不得传播或转售!