TF-IDF项目 P4 TF-IDF算法缺陷分析和TF-IWF算法

作者：陈华 • 发布时间：2022-12-23 • 阅读 1301

上节课中，带大家完整实现了TF-IDF算法，并对TF-IDF值的进行排序，提取了topK的关键词。但是还遗留了一个问题，就是程序输出的结果，和我们预判的不一致，这节课，我们就来分析和解决这个BUG。

BUG分析

在计算IDF时，为了防止出现除0错误，在分母上加了1。log((N/(num+1))可能会出现三种取值：

（1）语料库足够大，N/(num+1)>1，IDF为正数，num越大，IDF值越小。

（2）语料库较小，仅有一篇文档不包含某个词，N/(num+1)=1，IDF为0，乘以任何数依然为0，导致TF值失效。

（3）语料库较小，每个文档中都含有某个词，N/(num+1)<1，IDF为负数，TF越大，TF-IDF值反而越小。

经过以上分析可以看出，要保证TF-IDF的本来含义，我们要保证IDF值为正数，也就是log()内的分数大于1。

方案一

N>=num，(N+2)/(num+1)>1，分子分母都加上某一个常数，相对大小不变，num越大，分数值越小。

方案二

TF-IDF的设计，本身就具有很多缺陷，其中一个就是在计算IDF时，如果语料库是同一主题，主题词会在不同文档中被重复提及，就会导致IDF值很小，从而降低重要性。

针对这个问题，研究者提出了改进的加权算法TF-IWF(Term Frequency - Inverse Word Frequency)。

IWF = log(语料库中所有词的个数/某个词在整个语料库中出现的次数)

这种加权方法，即使语料库中每个文档都包含主题词，IWF也不会接近0，更加精确的表达了重复出现的主题词，在整个语料库中的重要程度。

代码示例

1、计算IWF

内容不可见，请联系管理员开通权限。

2、计算TF-IWF

内容不可见，请联系管理员开通权限。

3、提取topK关键词

内容不可见，请联系管理员开通权限。

以上我们用两种方法，解决了IDF为0或负数导致的BUG，但是这个BUG只会在语料库非常小的情况下才会出现。在真实项目中，语料库都是比较大的，一般不会出现这个问题。所以后面流程，还是沿用上节课讲的通用的TF-IDF算法，来完成这个项目。这节课给大家讲的两个方案，只是为了帮助大家建立分析问题，解决BUG的思维模式。

本文链接：http://ichenhua.cn/edu/note/554

TF-IDF项目 P4 TF-IDF算法缺陷分析和TF-IWF算法

本课程为收费课程，购买后可查看！

TF-IDF项目 P4 TF-IDF算法缺陷分析和TF-IWF算法

BUG分析

方案一

方案二

代码示例

陈华编程

关于我们

合作平台

相关网站

联系我们