精易论坛

标题: 【优化轮子】PDF转WORLD python源码 [打印本页]

作者: wh78845069    时间: 2023-5-14 19:31
标题: 【优化轮子】PDF转WORLD python源码
本帖最后由 wh78845069 于 2023-5-14 19:32 编辑

我搜了下论坛,怎么没人做PDF转WORLD这个,基本都是WPS或者类似的办公软件收费功能这个是网上搜的,前一段时间用chatGPY优化了一下,可以把运行目录的PDF转成world
于是就分享出来,希望有大佬能够用PY支持库封装成软件。

import os
from pdf2docx import Converter


def pdf_docx():
    # 获取当前工作目录
    file_path = os.getcwd()

    # 获取所有文件
    files = os.listdir(file_path)

    # 遍历所有文件
    for file in files:

        # 过滤临时文件
        if '~$' in file:
            continue

        # 过滤非pdf格式文件
        if file.split('.')[-1] != 'pdf':
            continue
        # 获取文件名称
        file_name = file.split('.')[0]
        # pdf文件名称
        pdf_name = os.getcwd() + '\\' + file
        # docx文件名称
        docx_name = os.getcwd() + '\\' + file_name + '.docx'
        # 加载pdf文档
        cv = Converter(pdf_name)
        # cv.convert(docx_name, start=0, end=12)
        cv.convert(docx_name)
        cv.close()


if __name__ == '__main__':
    pdf_docx()



作者: 嫂子    时间: 2023-5-14 19:59
PDF 并不是文档格式。
如果是图片格式 就无法转换 只能OCR
作者: 小白弟弟    时间: 2023-5-14 20:03
是chatGPT      
作者: 夕木柠昔    时间: 2023-5-14 21:39
嫂子 发表于 2023-5-14 19:59
PDF 并不是文档格式。
如果是图片格式 就无法转换 只能OCR

又没说word文档里的是字.转出来的文档里的是图片
作者: 嫂子    时间: 2023-5-14 21:55
夕木柠昔 发表于 2023-5-14 21:39
又没说word文档里的是字.转出来的文档里的是图片

如果只是吧 PDF 当作图片转出 这个很多库都可以做到啊  易语言都有




欢迎光临 精易论坛 (https://125.confly.eu.org/) Powered by Discuz! X3.4