由于我写的文档太啰嗦,所以整理了一个简化的入门指南。 看完之后就可以直接上手了。
安装pip jieba
简单分词
= jieba.cut("我爱中国北京大学")
:
打印(字)
输出
我
喜欢
中国
北京大学
该句子分为5个短语。
全模式分词 = jieba.cut("我爱中国北京大学", = True)
:
打印(字)
输出
我
喜欢
中国
北京
北京大学
大学
从完整模型中分离出来的单词覆盖范围更广。
提取关键词
从句子或段落中提取前 k 个关键词
。
= jieba..( "机器学习需要一定的数学基础,需要掌握很多基础数学知识,"
"如果你从头到尾开始学习,对于大多数人来说可能已经太晚了。我建议先学习最基本的数学知识。",
顶部K= 5,
=错误)
.()
输出
[‘数学’、‘学习’、‘数学知识’、‘基础知识’、‘从头到尾’]
删除停用词
停用词是指句子中无关紧要的词,如标点符号、指示代词等。这些词在分词前必须去除。 分词方法cut不支持直接过滤停用词,需要手动处理。提取关键词的方法支持停用词过滤
# 首先过滤停用词
解霸..()
= jieba..(, tokK)
文件格式为文本文件,每行一个字
官方地址:
当孙悟空没有姓氏、没有名字的时候,阎王怎么写生死书呢?
提高“技术技能”的 6 种方法
制作一个圣诞抽奖程序,原来这么简单
这些高效技能大多数人都不知道!