TF-IDF项目 P7 加载语料库并缓存TFIDF值
前面课程中,我们一直使用简单的测试文本,在调用模型,这节课我们就要加载真正的语料数据了。因为语料库比较大,总共18w条新闻标题,调用模型时,需要jieba分词、计算TF、IDF值等流程,处理一次的时间会很长,所以我们需要整体跑一次,然后把检索时需要用到的数据缓存下来,加快检索的速度。
代码示例
1、封装缓存方法
数据缓存,用pickle包来实现。
内容不可见,请联系管理员开通权限。
2、加载语料库并缓存
内容不可见,请联系管理员开通权限。
经过这样一个缓存的过程,我们就把18w条新闻标题,转化成了一一对应的TFIDF值,相当于把文本转化成了数值信息。做检索时,就只需要把TFIDF的缓存内容加载出来,挨个计算,取最大的K个值就可以了。
本文链接:http://ichenhua.cn/edu/note/557
版权声明:本文为「陈华编程」原创课程讲义,请给与知识创作者起码的尊重,未经许可不得传播或转售!