

机器学习—— TF-IDF文本特征提取评估权重 + Jieba 库进行分词(以《红楼梦》为例)
TF-IDF(Term Frequency-Inverse Document Frequency,词频 - 逆文档频率)是文本挖掘领域中一种常用技术,其核心作用是评估某个词语在特定文档中的重要程度。词频(TF):指一个词语在当前文档中出现的频率。逆文档频率(IDF):用于衡量该词语在整个文档集合中的普遍重要性(即该词是否在多数文档中都频繁出现)。通常来说,一个词语的 TF-IDF 值越高,就意味着它在当前文档中的重要性越高。jieba.load_userdict(r"./红楼梦/红楼梦词库.txt")
