前文介绍了文本向量化类 Gensim.Word2Vec 的用法,本文继续用 Word2Vec 写一个小案例,用《人民的名义》小说文本,来训练一个Word2Vec,分析小说中人物的姓名文本相似度。
当然,本文只是基于Word2Vec可视化文本特征,并不是做人物关系图谱,任务关系会在后面介绍。
代码示例
1、jieba分词并去停用词
import jieba # 加载停用词表 stopwords_str = open('./datas/stopwords.txt').read() stopwords = stopwords_str.split('\n') # jieba添加自定义词语,防止误拆 name_list = ['沙瑞金', '田国富', '高育良', '侯亮平', '钟小艾', '陈岩石', '欧阳菁', '易学习', '王大路', '蔡成功', '孙连城', '季昌明', '丁义珍', '郑西坡', '赵东来', '高小琴', '赵瑞龙', '林华华', '陆亦可', '刘新建', '刘庆祝', '赵德汉'] for name in name_list: jieba.add_word(name) # 分词并过滤停用词 text = open('./datas/in_the_name_of_people_all.txt').read() words = jieba.lcut(text) words_list = [word for word in words if word not in stopwords and len(word) >= 2]
2、训练Word2vec模型
from gensim.models import Word2Vec model = Word2Vec([words_list], vector_size=20, min_count=1) wv = model.wv vocabs = [] vectors = [] # 防止人物没有出现报错 for name in name_list: try: vocabs.append(name) vectors.append(wv[name]) except: pass
3、PCA降维并可视化
from sklearn.decomposition import PCA import matplotlib.pyplot as plt # PCA降维 pca = PCA(2) vec_dr = pca.fit_transform(vectors) # print(pca.explained_variance_ratio_) # 降维后只携带了原始特征的0.4的信息,可视化效果不佳 # 解决中文显示问题 plt.rcParams['font.sans-serif'] = ['SimHei', 'Arial Unicode MS'] plt.rcParams['axes.unicode_minus'] = False # 可视化 plt.scatter(vec_dr[:, 0], vec_dr[:, 1]) for w, (x,y) in zip(vocabs, vec_dr): plt.annotate(w, (x,y)) plt.show()
本文为 陈华 原创,欢迎转载,但请注明出处:http://ichenhua.cn/read/315