精易论坛

标题: 利用XPDF将pdf文件进行转换和文字提取 [打印本页]

作者: 朱悟能    时间: 2022-4-13 11:00
标题: 利用XPDF将pdf文件进行转换和文字提取
之前利用PDFtox.dll,这个东西做了一个pdf转换工具。https://125.confly.eu.org/forum.php?mod ... 14714105&extra=
这东西应该是国内的一家公司开发出来的,也不知道可有版权问题。

网上查这类pdf转换的东西,感觉应该是pandoc是最牛的,但太复杂没时间搞了。

之前也写了一个利用XPDF这个开源的东西,搞了一个转换工具,今天发出来给需要的朋友。

但还是不能直接转出office。只能提取html,图片,文字。但比PDFtox.dll效果要好点。

程序界面还是之前的,内容也没什么技术含量。调用了精易和一个皮肤模块。论坛里都有。xdpf打包有6M了,就放网盘了。







下载地址.txt (58 Bytes, 下载次数: 244)









作者: huxian    时间: 2022-4-13 12:05
不知道是不是本地的
作者: pjm123    时间: 2022-4-13 12:16
谢谢分享
作者: xjshuaishuai    时间: 2022-4-13 12:19
谢谢分享!
作者: wjswzj0    时间: 2022-4-13 14:09
谢谢分享
作者: 196222069    时间: 2022-4-13 14:34
谢谢分享
作者: abpyu    时间: 2022-4-13 15:27
谢谢大佬分享
作者: abpyu    时间: 2022-4-13 15:38
本帖最后由 abpyu 于 2022-4-13 15:47 编辑

源码没有带皮肤模块,删除皮肤语句后可以执行
但是加载pdf不能转换成word和Excel,同名文件夹内只有网页文件
电脑有安装完整版office 2016


企业VX截图_20220413153648.png (14.49 KB, 下载次数: 0)

企业VX截图_20220413153648.png

作者: wuqingg    时间: 2022-4-13 19:33
奉上大大的红包希望笑纳
作者: wuqingg    时间: 2022-4-13 19:34
支持开源~!感谢分享
作者: 汉族    时间: 2022-4-13 19:36
点赞一下啊
作者: 深圳梦    时间: 2022-4-13 20:39
支持开源~!感谢分享
作者: beepsanta    时间: 2022-4-14 02:49
支持开源~!感谢分享
作者: 1347379245    时间: 2022-4-14 10:51
感谢分享
作者: 吃干饭的锅    时间: 2022-4-14 14:07
支持一下
作者: xtavoxing    时间: 2022-4-14 14:25
不错.好看..
作者: 深圳梦    时间: 2022-4-14 20:40
支持开源~!感谢分享
作者: 朱悟能    时间: 2022-4-14 22:50
abpyu 发表于 2022-4-13 15:38
源码没有带皮肤模块,删除皮肤语句后可以执行
但是加载pdf不能转换成word和Excel,同名文件夹内只有网页文 ...

已经说明不能直接转出office。
作者: cyberhalley    时间: 2022-4-14 23:01
支持开源~!感谢分享
作者: pixel    时间: 2022-4-16 20:36
哈哈  不会用啊
作者: zhaode2888    时间: 2022-4-17 17:21
感谢分享:)支持开源
作者: 干啥啥不行    时间: 2022-4-21 11:57
大佬,HPDF能识别PDF页面是内容是彩色的还是黑白的吗?用哪个命令?
作者: 深圳梦    时间: 2022-4-22 21:09
支持开源~!感谢分享
作者: 深圳梦    时间: 2022-4-22 21:10
支持开源~!感谢分享
作者: 按键精灵    时间: 2022-4-22 22:27
还有这种库,看看
作者: 朱悟能    时间: 2022-4-23 10:28
干啥啥不行 发表于 2022-4-21 11:57
大佬,HPDF能识别PDF页面是内容是彩色的还是黑白的吗?用哪个命令?

http://libharu.sourceforge.net/document_handling.html
你看下他的说明,我也不太清楚。是这个额?HPDF_LoadRawImageFromMem
作者: 杨明煜    时间: 2022-4-28 11:32
学习学习............
作者: 牛牛向前冲    时间: 2022-4-28 16:44
666666666666666666666666666
作者: 孤帆远矣影    时间: 2022-5-8 10:31
支持开源
作者: ArleneG    时间: 2022-7-6 17:06
感谢
作者: luguidong2018    时间: 2022-7-18 19:10
看看是什么好东西
作者: ketong    时间: 2022-7-21 10:25
刚把python的pdf库研究明白,还没把易语言的搞定。
作者: anwei    时间: 2022-7-23 08:09

支持开源~!感谢分享
作者: 猪天神魔    时间: 2022-8-22 16:20
66666666666666666666666666
作者: 猪天神魔    时间: 2022-9-12 15:44
66666666666666666
作者: tianwuguo    时间: 2022-10-3 16:06
66666666666666
作者: dfgtrhgt    时间: 2023-9-30 22:15
这个为啥静态编译后就不能运行了啊
作者: chinamir    时间: 2023-10-10 16:40
模块在哪里下载
作者: Cbise    时间: 2023-12-14 00:20
666666666666666
作者: 309100    时间: 2023-12-14 16:49
支持开源6666
作者: 的示范法    时间: 2023-12-29 18:42
465464654654
作者: kic1234    时间: 2024-6-18 11:36
支持开源~!感谢分享
作者: dulang    时间: 2024-10-10 23:06
支持开源~!感谢分享~~~
作者: wangji520    时间: 2024-12-4 17:05
支持开源~!感谢分享
作者: zmj2006    时间: 2025-3-29 16:43
支持开源~!感谢分享
作者: csyangxu    时间: 2025-3-31 09:55
666666666666666666666666




欢迎光临 精易论坛 (https://125.confly.eu.org/) Powered by Discuz! X3.4