NLP自然语言处理结巴(Jieba)分词组件封装开源 - 精易论坛

简单介绍

结巴(Jieba)是一个轻量化的中文分词组件。采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合，对于未登录词，采用了基于汉字成词能力的HMM模型，使用了Viterbi算法。

传送门	简介
Jieba	Jieba中文分词Python原版本
CppJieba	CppJieba中文分词C++版本

支持四种分词模式

Jieba.Cut()方法接受两个参数

[文本型] sentence 待分词的字符串

[逻辑型] hmm 是否使用 HMM 模型处理未登录词
调试输出 (Jieba.Cut (“我来到北京清华大学，台中”, 假))

输出结果：我/来到/北京/清华大学/，/台/中

Jieba.CutAll()方法接受一个参数

[文本型] sentence 待分词的字符串

调试输出 (Jieba.CutAll (“我来到北京清华大学，台中”))

输出结果：我/来到/北京/清华/清华大学/华大/大学/，/台中

Jieba.CutHMM()方法接受一个参数

[文本型] sentence 待分词的字符串

调试输出 (Jieba.CutHMM (“我来到北京清华大学，台中”))

输出结果：我来/到/北京/清华大学/，/台中

Jieba.CutForSearch()方法接受两个参数

[文本型] sentence 待分词的字符串

[逻辑型] hmm 是否使用 HMM 模型处理未登录词
调试输出 (Jieba.CutForSearch (“我来到北京清华大学，台中”))

输出结果：我/来到/北京/清华/华大/大学/清华大学/，/台中

Jieba.CutSmall()方法接受两个参数

[文本型] sentence 待分词的字符串

[整数型] max_word_len 最大词长限制
调试输出 (Jieba.CutSmall (“我来到北京清华大学，台中”, 1))

输出结果：我/来/到/北/京/清/华/大/学/，/台/中

自定义词典示例请看dict/user.dict.utf8

没有使用自定义用户词典时的结果:

令狐冲/是/云/计算/行业/的/专家

使用自定义用户词典时的结果:

令狐冲/是/云计算/行业/的/专家

这两天在做本地的全文搜索引擎(搜搜文章，文件之类的)，在写倒排索引的时候需要用到分词功能就顺便发出来了。以我能跑就行的特点(懒)如果不出意外的话后续不会有什么更新了。

3月3日更新置1.0.2版本
·修复Create报错问题

·补充缺失字典文件