精易论坛

标题: NLP自然语言处理结巴(Jieba)分词组件封装开源 [打印本页]

作者: 山顶小雪球    时间: 2025-2-22 03:14
标题: NLP自然语言处理结巴(Jieba)分词组件封装开源
本帖最后由 山顶小雪球 于 2025-3-3 19:29 编辑

EJieba




简单介绍


结巴(Jieba)是一个轻量化的中文分词组件。采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合,对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算法。


相关项目



















传送门 简介
Jieba Jieba中文分词Python原版本
CppJieba CppJieba中文分词C++版本

特点


支持四种分词模式



主要功能



自定义用户词典


自定义词典示例请看dict/user.dict.utf8


没有使用自定义用户词典时的结果:


令狐冲/是/云/计算/行业/的/专家

使用自定义用户词典时的结果:


令狐冲/是/云计算/行业/的/专家

我的碎碎念


这两天在做本地的全文搜索引擎(搜搜文章,文件之类的),在写倒排索引的时候需要用到分词功能就顺便发出来了。以我能跑就行的特点(懒)如果不出意外的话后续不会有什么更新了。


更新日志





项目下载





作者: 陌迁尘    时间: 2025-2-22 03:53
感谢分享,很给力!~
作者: pshq123    时间: 2025-2-22 04:57
感谢分享
作者: a019872140    时间: 2025-2-22 05:24
6666666666666666
作者: ouyasq    时间: 2025-2-22 05:47
感谢分享,很给力!~
作者: yuan71058    时间: 2025-2-22 06:54
感谢大哥
作者: 深圳梦    时间: 2025-2-22 08:14
感谢分享,很给力!~
作者: 沐白    时间: 2025-2-22 08:21
新技能已get√
作者: qqmqqg    时间: 2025-2-22 08:28
6666666666666666666
作者: 白云飘飘    时间: 2025-2-22 08:28

感谢分享,很给力!~
作者: Fate    时间: 2025-2-22 08:36
感谢分享
作者: wuqingg    时间: 2025-2-22 08:37
感谢分享,很给力!~
作者: heize    时间: 2025-2-22 08:41
感谢分享,很给力!~
作者: 阿仁同学    时间: 2025-2-22 08:45
666                  
作者: 一指温柔    时间: 2025-2-22 08:52
#在这里快速回复#感谢楼主分享
作者: abpyu    时间: 2025-2-22 09:10
这个好这个好
作者: chis777780    时间: 2025-2-22 09:19
开源精神必须支持~
作者: Solo98k    时间: 2025-2-22 09:19
感谢分享
作者: mytiger    时间: 2025-2-22 09:27
感谢分享~~
作者: a019872140    时间: 2025-2-22 09:33
6666666666666666666666
作者: 天雨时晴    时间: 2025-2-22 09:53
感谢分享学习了
作者: 鱼雨遇玉羽    时间: 2025-2-22 09:54
感谢分享。必须支持一下
作者: mgfz    时间: 2025-2-22 10:08
感谢分享。
作者: 文西哥    时间: 2025-2-22 10:14
谢谢分享,很有帮助
作者: 神一样的人猫腻    时间: 2025-2-22 10:34
感谢分享
作者: 面具,    时间: 2025-2-22 10:43

作者: alanwoo    时间: 2025-2-22 10:58
感谢分享
作者: wmv520    时间: 2025-2-22 11:08
        开源精神必须支持~
作者: 难解    时间: 2025-2-22 11:36
开源精神必须支持~
作者: zhaohao1578    时间: 2025-2-22 11:47
NLP自然语言处理测试
作者: y110140    时间: 2025-2-22 11:52
#在这里快速回复#这两天在做本地的全文搜索引擎(搜搜文章,文件之类的),在写倒排索引的时候需要用到分词功能就顺便发出来了。以我能跑就行的特点(懒)如果不出意外的话后续不会有什么更新了。
作者: 咸鱼666    时间: 2025-2-22 13:13
        感谢分享,很给力!~
作者: 撩唇笔    时间: 2025-2-22 13:22
RE: NLP自然语言处理结巴(Jieba)分词组件封装开源 [修改]
作者: 算法艺术家    时间: 2025-2-22 14:42
学习一下
作者: 星情    时间: 2025-2-22 14:45
谢谢分职!
作者: zifeiyu    时间: 2025-2-22 15:28
6666666666666666666666666
作者: 迷糊老师    时间: 2025-2-22 15:34
不错           
作者: hbtudou    时间: 2025-2-22 15:58
感谢分享
作者: 小虎来了    时间: 2025-2-22 16:48
感谢分享啊
作者: 亿泽    时间: 2025-2-22 17:04
学习学习
作者: znhds    时间: 2025-2-22 18:03
谢谢分享
作者: 一尘不染    时间: 2025-2-22 19:04
感谢分享,很给力!~
作者: 国王软件    时间: 2025-2-22 19:11
支持一下
作者: 枫眼    时间: 2025-2-22 19:30
666666666666666666666
作者: 超级萌新    时间: 2025-2-22 20:05
学习了
作者: ttggnn    时间: 2025-2-22 20:29
感谢分享
作者: 华庭大哥    时间: 2025-2-22 21:12
        开源精神必须支持~
作者: 麦八    时间: 2025-2-23 00:11
开源精神必须支持~
作者: shuyaorick    时间: 2025-2-23 04:34
开源精神必须支持~
作者: chenyucheng    时间: 2025-2-23 16:02
第一幅图[ EJieba ]是什么?
作者: my26929    时间: 2025-2-23 17:53
111111111111111111111111111111
作者: aijianli    时间: 2025-2-23 18:33
开源精神必须支持~
作者: futiem    时间: 2025-2-23 20:05
NLP自然语言处理结巴
作者: jysoft2022    时间: 2025-2-23 20:54
谢谢分享
作者: 凌哥    时间: 2025-2-23 21:20
这个分词倒是也可以作为对比文章相似度的预处理
作者: 胖子葛格    时间: 2025-2-24 09:15
感谢大神分享~!
作者: please    时间: 2025-2-24 09:38
感谢分享,支持开源!!!
作者: leiwawa001    时间: 2025-2-24 09:59
谢谢分享,
作者: faith0    时间: 2025-2-24 10:33
        开源精神必须支持~
作者: KEN    时间: 2025-2-24 10:45
感谢开放出来共享
作者: 大小鱼    时间: 2025-2-24 12:15
感谢分享,很给力!~
作者: 最帅    时间: 2025-2-24 18:21
楼主辛苦了,谢谢楼主,感谢楼主分享,楼主好人一生平安!!!
作者: nihao6681    时间: 2025-2-24 19:51
感谢楼主分享
作者: kflizcst    时间: 2025-2-24 22:21
        感谢分享,很给力!~
作者: sunfly    时间: 2025-2-25 01:08
这个和之前论坛的结巴有什么区别吗?
作者: 784326742    时间: 2025-2-25 02:45
匹配速度如何
作者: 784326742    时间: 2025-2-25 02:46
哦豁  发现不可识别的[编译条件信息段],其数据已披跳过!
作者: yefeili1690    时间: 2025-2-25 08:24
        感谢分享,很给力!~
作者: 艺压当行人    时间: 2025-2-25 09:48
很有用
作者: guangye1    时间: 2025-2-25 12:51
结巴分词很厉害
作者: 帝释天2017    时间: 2025-2-25 12:52
看看怎么样
作者: Javatym    时间: 2025-2-25 14:20

感谢分享
作者: 弑神1990    时间: 2025-2-25 18:59
感谢分享
作者: wjmhao2004    时间: 2025-2-25 21:28
不错,看看
作者: 创拓    时间: 2025-2-26 01:58
666666666666666
作者: qzjc195    时间: 2025-2-26 02:29

感谢分享
作者: linzg3    时间: 2025-2-26 09:37
感谢楼主分享,支持开源
作者: 韦贝贝    时间: 2025-2-26 10:47
NLP自然语言处理结巴(Jieba)分词组件
作者: 渁煑渔    时间: 2025-2-26 15:16
不错,学习了
作者: wolfSpicy    时间: 2025-2-26 20:50
11111111111111111
作者: 偶尔有点帅    时间: 2025-2-27 11:04
这个很厉害啊
作者: cosset    时间: 2025-2-27 15:23
        感谢分享,很给力!~
作者: 不要踩我    时间: 2025-2-27 20:53
项目下载
作者: editabc    时间: 2025-2-27 21:27
支持了~~~~~~~~~~~~~~~~~~~
作者: xrwlzzq    时间: 2025-2-27 21:57
感谢分享,很给力!~

作者: ~夜雨    时间: 2025-2-27 22:52
        感谢分享,很给力!~
作者: quan168q888    时间: 2025-3-1 00:16
支持支持

作者: 361322548    时间: 2025-3-1 10:09
        正在学习这个,望交流
作者: 361322548    时间: 2025-3-1 10:13
BUG:m_hJieba = Jieba_Create (dict_path, hmm_path, user_dict_path) 运行到这崩溃
作者: 山顶小雪球    时间: 2025-3-1 12:53
361322548 发表于 2025-3-1 10:13
BUG:m_hJieba = Jieba_Create (dict_path, hmm_path, user_dict_path) 运行到这崩溃

按(Win键+X键)选择安装的应用,在里面查看有没有(Visual C++ 2022 Redistributable x86),如果没有就去下载安装一个Visual C++ Redistributable,选择2022 x86的版本
作者: 361322548    时间: 2025-3-2 09:36
山顶小雪球 发表于 2025-3-1 12:53
按(Win键+X键)选择安装的应用,在里面查看有没有(Visual C++ 2022 Redistributable x86),如果没有就 ...


我是安装了这个的Visual C++ 2022 Redistributable x86 的,运行到 Jieba_Create 就崩溃



作者: 山顶小雪球    时间: 2025-3-2 12:30
361322548 发表于 2025-3-2 09:36
我是安装了这个的Visual C++ 2022 Redistributable x86 的,运行到 Jieba_Create 就崩溃

DLL_API void* Jieba_Create(const char* dict_path, const char* hmm_path, const char* user_dict_path) {
        Jieba* handle = new Jieba(dict_path, hmm_path, user_dict_path);
        return static_cast<void*>(handle);
}

原型是这样的,就是直接调用头文件创建了一个实例,别的什么也没有。只能排查你那边的环境或者CppJieba本身了。
作者: myl1712    时间: 2025-3-3 09:10
NLP自然语言处理结巴(Jieba)分词组件封装开源
作者: 罗泠雨人    时间: 2025-3-3 10:54
感谢分享了~~~~~~~~~~
作者: lm88818    时间: 2025-3-3 15:46
        感谢分享,很给力!~
作者: asd531132421    时间: 2025-3-3 17:31
真不错。厉害,学习学习看看是怎么使用的
作者: 山顶小雪球    时间: 2025-3-3 19:31
361322548 发表于 2025-3-2 09:36
我是安装了这个的Visual C++ 2022 Redistributable x86 的,运行到 Jieba_Create 就崩溃

更新了一下,你重新下载试试这个,如果可以和我说一下
作者: quan168q888    时间: 2025-3-3 20:59
3月3日更新置1.0.2版本
作者: 茽鳡觉    时间: 2025-3-4 08:50
3月3日更新置1.0.2版本
作者: 该死dē蚊子    时间: 2025-3-6 09:38
感谢分享啊。。




欢迎光临 精易论坛 (https://125.confly.eu.org/) Powered by Discuz! X3.4