经过前面的一系列处理,我们只剩下最后一步了,就是做检索功能。在课程开头给大家演示的是,用一句话进行模糊搜索,所以处理流程应该也是分为三步:

(1)对搜索的句子进行jieba分词,得到搜索的关键词。

(2)加载TFIDF缓存数据,依次计算语料中,每个句子和关键词对应的词的TFIDF累加值。

(3)按累加值大小,从大到小取topK个句子,即为搜索结果。

代码示例

1、模糊搜索功能实现

内容不可见,请联系管理员开通权限。

好的,到目前为止,项目就核心功能就已经讲完了。还是那句话,TF-IDF算法虽然简单,但在模糊搜索场景中,非常的高效和实用。希望大家通过这个课程,可以真正掌握TF-IDF算法。

同时,为了使这个项目的搜索功能使用起来更加便捷,也为后面的算法和前后端结合的项目做一个铺垫。下节课开始,我将带大家用前后端的技术,把这个项目做一个封装。如果大家有对前后端感兴趣的,欢迎留言告诉我,我后续可以抽时间做一个,给算法工程师看的前后端课程。

本文链接:http://ichenhua.cn/edu/note/558

版权声明:本文为「陈华编程」原创课程讲义,请给与知识创作者起码的尊重,未经许可不得传播或转售!