手把手|20行Python代码教你批量将PDF文件转为Word格式（包教包会）

在日常工作或学习中，经常会遇到这样的无奈：

在正阳等地区，都构建了全面的区域性战略布局，加强发展的系统性、市场前瞻性、产品创新能力，以专注、极致的服务理念，为客户提供成都网站设计、成都网站建设网站设计制作按需定制制作,公司网站建设,企业网站建设,成都品牌网站建设,成都全网营销,成都外贸网站建设公司,正阳网站建设费用合理。

“小任，你把这个PDF中的文件码出来发我”

倒霉，2M的PDF12点也完不了啊！

很多时候在学习时发现许多文档都是PDF格式，PDF格式却不利于学习使用，因此需要将PDF转换为Word文件，但或许你从网上下载了很多软件，但只能转换前五页（如WPS等），要不就是需要收费，那有没有免费的转换软件呢？

so，菜鸟分析给各位带来了一个免费简单快速的方法，手把手教你用Python批量处理PDF格式文件，获取自己想要的内容，存为word形式。

在实现PDF转Word功能之前，我们需要一个python的编写和运行环境，同时安装好相关的依赖包。对于python环境，我们推荐使用PyCharm。在本地电脑环境，anaconda提供了非常便利的安装和部署。

PDF转Word功能所需的依赖包如下：

PDFParser（文档分析器），PDFDocument（文档对象），PDFResourceManager（资源管理器），PDFPageInterpreter（解释器），PDFPageAggregator（聚合器），LAParams（参数分析器）

一、前期准备工作

说明：菜鸟分析是在Windows7下使用python***的3.6版本

1.安装pdfminer3k模块

安装anaconda后，直接可以通过pip安装

2.若安装不成功，可以试试下面方法

首先下载pdfminer3k：https://pypi.python.org/pypi/pdfminer3k；然后安装pdfminer

将下载好的pdfminer3k解压到D:或其他合适的盘符，通过win+r 打开运行窗口，输入cmd；

输入D:切换到D盘，cd pdfminer3k(pdf解压的文件夹)，输入setup.py install安装软件。

最终显示Finished，则代表成功

二、代码实操

导入相关包

 
 
 
  
  
  from pdfminer.pdfparser import PDFParser, PDFDocument  
  
  
  from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter  
  
  
  from pdfminer.layout import LAParams  
  
  
  from pdfminer.converter import PDFPageAggregator

整体思路为：构造文档对象，解析文档对象，提取所需内容

构造文档对象

构造解释器

2.导入需要解析的PDF文件

将所需解析的文件与执行代码放到同一个目录下，如图：

test.pdf内容

3.具体代码如下：

 
 
 
  
  
  from pdfminer.pdfparser import PDFParser, PDFDocument  
  
  
  from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter 
  
  
  from pdfminer.layout import LAParams  
  
  
  from pdfminer.converter import PDFPageAggregator  
  
  
  from pdfminer.pdfinterp import PDFTextExtractionNotAllowed  
  
  
   
  
  
  def parse():  
  
  
      #rb以二进制读模式打开本地pdf文件  
  
  
      fn = open('test.pdf','rb') 
  
  
      #创建一个pdf文档分析器  
  
  
      parser = PDFParser()  
  
  
      #创建一个PDF文档  
  
  
      doc = PDFDocument()  
  
  
      #连接分析器 与文档对象  
  
  
      parser.set_document()  
  
  
      doc.set_parser()  
  
  
   
  
  
      # 提供初始化密码doc.initialize("lianxipython")  
  
  
      # 如果没有密码 就创建一个空的字符串  
  
  
      doc.initialize("")  
  
  
      # 检测文档是否提供txt转换，不提供就忽略  
  
  
      if not doc.is_extractable:  
  
  
          raise PDFTextExtractionNotAllowed  
  
  
      else:  
  
  
          #创建PDf资源管理器  
  
  
          resource = PDFResourceManager()  
  
  
          #创建一个PDF参数分析器  
  
  
          laparams = LAParams()  
  
  
          #创建聚合器,用于读取文档的对象  
  
  
          device = PDFPageAggregator(resource,laparams=laparams)  
  
  
          #创建解释器，对文档编码，解释成Python能够识别的格式  
  
  
          interpreter = PDFPageInterpreter(resource,device)  
  
  
          # 循环遍历列表，每次处理一页的内容  
  
  
          # doc.get_pages() 获取page列表  
  
  
          for page in doc.get_pages():  
  
  
              #利用解释器的process_page()方法解析读取单独页数  
  
  
              interpreter.process_page(page)  
  
  
              #使用聚合器get_result()方法获取内容  
  
  
              layout = device.get_result()  
  
  
              #这里layout是一个LTPage对象,里面存放着这个page解析出的各种对象  
  
  
              for out in layout:  
  
  
                  #判断是否含有get_text()方法，获取我们想要的文字  
  
  
                  if hasattr(out,"get_text"):  
  
  
                      print(out.get_text())  
  
  
                      with open('test.txt','a') as f:  
  
  
                          f.write(out.get_text()+'\n')  
  
  
   
  
  
  if __name__ == '__main__':  
  
  
      parse()

最终得到的test.txt结果如下：

结束：对于Python批量PDF转Word的操作介绍就到此，本文仅仅作为一种运用库展示代码编写过程，具体技术还需要有兴趣的朋友，与我一起讨论专研，互相学习进步。

本文标题：手把手|20行Python代码教你批量将PDF文件转为Word格式（包教包会）
网页网址：http://www.shufengxianlan.com/qtweb/news13/409563.html

网站建设、网络推广公司-创新互联，是专注品牌与效果的网站制作，网络营销seo公司；服务项目有等

声明：本网站发布的内容（图片、视频和文字）以用户投稿、用户转载内容为主，如果涉及侵权请尽快告知，我们将会在第一时间删除。文章观点不代表本网站立场，如需处理请联系客服。电话：028-86922220；邮箱：631063699@qq.com。内容未经允许不得转载，或转载时需注明来源：创新互联

猜你还喜欢下面的内容