结巴(Jieba)是一个轻量化的中文分词组件。采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合,对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算法。
传送门 | 简介 |
---|---|
Jieba | Jieba中文分词Python原版本 |
CppJieba | CppJieba中文分词C++版本 |
支持四种分词模式
Jieba.Cut()
方法接受两个参数
[文本型] sentence
待分词的字符串
[逻辑型] hmm
是否使用 HMM 模型处理未登录词
调试输出 (Jieba.Cut (“我来到北京清华大学,台中”, 假))
输出结果:我/来到/北京/清华大学/,/台/中
Jieba.CutAll()
方法接受一个参数
[文本型] sentence
待分词的字符串
调试输出 (Jieba.CutAll (“我来到北京清华大学,台中”))
输出结果:我/来到/北京/清华/清华大学/华大/大学/,/台中
Jieba.CutHMM()
方法接受一个参数
[文本型] sentence
待分词的字符串
调试输出 (Jieba.CutHMM (“我来到北京清华大学,台中”))
输出结果:我来/到/北京/清华大学/,/台中
Jieba.CutForSearch()
方法接受两个参数
[文本型] sentence
待分词的字符串
[逻辑型] hmm
是否使用 HMM 模型处理未登录词
调试输出 (Jieba.CutForSearch (“我来到北京清华大学,台中”))
输出结果:我/来到/北京/清华/华大/大学/清华大学/,/台中
Jieba.CutSmall()
方法接受两个参数
[文本型] sentence
待分词的字符串
[整数型] max_word_len
最大词长限制
调试输出 (Jieba.CutSmall (“我来到北京清华大学,台中”, 1))
输出结果:我/来/到/北/京/清/华/大/学/,/台/中
自定义词典示例请看dict/user.dict.utf8
没有使用自定义用户词典时的结果:
令狐冲/是/云/计算/行业/的/专家
使用自定义用户词典时的结果:
令狐冲/是/云计算/行业/的/专家
这两天在做本地的全文搜索引擎(搜搜文章,文件之类的),在写倒排索引的时候需要用到分词功能就顺便发出来了。以我能跑就行的特点(懒)如果不出意外的话后续不会有什么更新了。
- 3月3日更新置1.0.2版本
·修复Create报错问题
·补充缺失字典文件
361322548 发表于 2025-3-1 10:13
BUG:m_hJieba = Jieba_Create (dict_path, hmm_path, user_dict_path) 运行到这崩溃
山顶小雪球 发表于 2025-3-1 12:53
按(Win键+X键)选择安装的应用,在里面查看有没有(Visual C++ 2022 Redistributable x86),如果没有就 ...
361322548 发表于 2025-3-2 09:36
我是安装了这个的Visual C++ 2022 Redistributable x86 的,运行到 Jieba_Create 就崩溃
361322548 发表于 2025-3-2 09:36
我是安装了这个的Visual C++ 2022 Redistributable x86 的,运行到 Jieba_Create 就崩溃
欢迎光临 精易论坛 (https://125.confly.eu.org/) | Powered by Discuz! X3.4 |