TF-IDF项目 P7 加载语料库并缓存TFIDF值

作者：陈华 • 发布时间：2022-12-23 • 阅读 1097

前面课程中，我们一直使用简单的测试文本，在调用模型，这节课我们就要加载真正的语料数据了。因为语料库比较大，总共18w条新闻标题，调用模型时，需要jieba分词、计算TF、IDF值等流程，处理一次的时间会很长，所以我们需要整体跑一次，然后把检索时需要用到的数据缓存下来，加快检索的速度。

1、封装缓存方法

数据缓存，用pickle包来实现。

内容不可见，请联系管理员开通权限。

2、加载语料库并缓存

内容不可见，请联系管理员开通权限。

经过这样一个缓存的过程，我们就把18w条新闻标题，转化成了一一对应的TFIDF值，相当于把文本转化成了数值信息。做检索时，就只需要把TFIDF的缓存内容加载出来，挨个计算，取最大的K个值就可以了。

本课程为收费课程，购买后可查看！