导语:
本文主要介绍了关于Python中Tf-idf文本特征的提取的相关知识,包括文本提取,以及文本特征这些编程知识,希望对大家有参考作用。
说明
1、TF-IDF是如果这个词或词组在文章中出现的概率很高,而在其他文章中很少出现,那么就认为它具有很好的类别判别能力,适合分类。
2. 提取文本特征以评估单词对文档集合或语料库中文档的重要性。
实例
def tfidf_demo():
"""
用tfidf的方法进行文本特征提取
:return:
"""
# 1.将中文文本进行分词
data = ["一种还是一种今天很残酷,明天更残酷,后天很美好,但绝对大部分是死在明天晚上,所以每个人不要放弃今天。",
"我们看到的从很远星系来的光是在几百万年之前发出的,这样当我们看到宇宙时,我们是在看它的过去。",
"如果只用一种方式了解某样事物,你就不会真正了解它。了解事物真正含义的秘密取决于如何将其与我们所了解的事物相联系。"]
data_new = []
for sent in data:
data_new.append(cut_word(sent))
# print(data_new)
# 2.实例化一个转换器类
transfer = TfidfVectorizer(stop_words=["一种", '因为'])
# 3.调用fit_transform
data_final = transfer.fit_transform(data_new)
print("data_new:\n", data_final.toarray())
print("特征名字:\n", transfer.get_feature_names())
return None
本文教程操作环境:windows7系统、Python 3.9.1,DELL G3电脑。
本文为原创文章,版权归知行编程网所有,欢迎分享本文,转载请保留出处!
你可能也喜欢
- ♥ 223个Python小例子(1-60)01/04
- ♥ python报302错误怎么办10/02
- ♥ 使用 Python 的 Matplotlib 库进行数据可视化12/15
- ♥ 如何从python中读取sql09/20
- ♥ Python高级架构模式整理01/04
- ♥ Python如何生成xml文件11/02
内容反馈