Python 操作 Word 转换 PDF

在工作中 Word 文档通常不是最终版本,在发给甲方或者其他同事时,我们还需要把Word文档转换为PDF格式文件。那为什么需要转换 PDF,直接发 Word 文档又有什么问题?

其实直接发 Word 文档问题还是挺大的,可以大致总结以下几点:

  1. 由于每个人使用的软件或版本都不统一,可能你使用的是微软的 Office2007,而他使用的是金山WPS,这样有可能你本地样式已经好好的 Word 文档,在别人电脑上就出现了乱码;
  2. PDF 可以直接预览,目前主流浏览器都已经支持;
  3. PDF 文件无法修改,保证了信息安全。

了解了转换 PDF 格式文件的作用之后,接下来这一小节中,将介绍 Python 第三方模块 pywin32 实现Word 文档转换为 PDF 格式文件。

1. pywin32 模块介绍

在 Windows 上如需使用 Python 编写脚本,很多时候都需要用到 Windows API,但 Python 是没有自带访问 Windows 系统 API 的标准库,所以这时可以使用第三方库 pywin32 来解决,pywin32 模块中直接包装了几乎所有的 Windows API,让开发者可以很方便的调用。

使用 python win32 库实现 Word 转换 PDF,实际上是调用 Word 底层 vba,利用 Word 导出方法完成 PDF 转换,文档地址

1.1 安装

pywin32 是 Python 的第三方库,使用前需要通过以下命令进行安装:

pip install pywin32

1.2 使用步骤

步骤1:导入 pywin32 下所需模块

from win32com.client import constants,gencache

步骤2:启动一个新的 Word 进程

word=gencache.EnsureDispatch('Word.Application')

步骤3:读取要转换的 Word 文档

doc=word.Documents.Open(wordPath,ReadOnly=1)

步骤4:转换 PDF 格式文件

doc.ExportAsFixedFormat(pdfPath,constants.wdExportFormatPDF)

ExportAsFixedFormat() 方法可以将文档保存为 PDF 或 XPS 格式,第一个参数指定新的 PDF 或 XPS 文件的路径和文件名,第二个参数是一个枚举值(取值包括:wdExportFormatPDF 和 wdExportFormatXPS)用于指定转换的格式,上述代码中要将文档转换为 PDF 在设置时设置为constants.wdExportFormatPDF。

2. Word 文档转换 PDF

接下来,通过 pywin32 模块分别实现单个 Word 文档的转换和多个Word 文档的转换。

2.1 单个文件转换

根据pywin32模块的使用步骤,封装转换方法 createpdf 方法,代码如下:

def createpdf(wordPath,pdfPath):
    word=gencache.EnsureDispatch('Word.Application')
    doc=word.Documents.Open(wordPath,ReadOnly=1)
    #转换方法
     doc.ExportAsFixedFormat(pdfPath,constants.wdExportFormatPDF)

代码解释:EnsureDispatch() 方法为启动一个新的 Word 进程,通过启动的 Word 进程读取传入指定的Word 文档,打开 Word 文档后,通过 ExportAsFixedFormat() 方法进行导出 PDF,第一个参数为指定的PDF 文件存储路径,第二个参数为指定导出文件的类型,除 PDF 外,还可以传入 XPS 格式。执行完成后,生成了 “info.pdf” 格式文件,效果如下图所示:

图片描述

2.2 多个文件转换

完成单个 Word 文档转换之后,日常工作中有时会涉及到批量 Word文 档的转换,这时可以在单个Word 文档转换代码的基础上进行完善,修改后代码如下:

from win32com.client import constants,gencache
import os

def createpdf(wordPath,pdfPath):
    word=gencache.EnsureDispatch('Word.Application')
    doc=word.Documents.Open(wordPath,ReadOnly=1)
    #转换方法
    doc.ExportAsFixedFormat(pdfPath,constants.wdExportFormatPDF)
  
#多个文件的转换
print(os.listdir('.')) #当前文件夹下的所有文件
wordfiles=[]
for file in os.listdir('.'):
    if file.endswith(('.doc','.docx')):
        wordfiles.append(file)

for file in wordfiles:
    filepath=os.path.abspath(file)
    index=filepath.rindex('.')
    # 拼接文件名及.pdf后缀
    pdfpath=filepath[:index]+'.pdf'
    createpdf(filepath,pdfpath) 

代码解释:通过 Python 中内置的os模块,读取指定目录获取所有的 Word 文档,保存在wordfiles中。通过for…in循环wordfiles,在循环中,首先根据abspath()方法得到文档的绝对路径,将文档名称拼接.pdf作为PDF文件的新名称。调用封装好的createpdf() 方法将文档路径和PDF文件路径传入,进行文件转换。执行完成后,在指定目录就批量生成 PDF 格式文件。

3. pywin32 模块拓展

前面提到pywin32 模块中直接包装了几乎所有的 Windows API,除了前面小节介绍的转换PDF外,还可以进行如下操作,一起来体验下吧!

3.1 弹出MessageBox消息框

使用pywin32实现系统消息框的弹出,代码如下:

import win32api
import win32con
win32api.MessageBox(0, "Hello Python", "消息框标题", win32con.MB_OK)

代码解释:MessageBox() 方法弹出消息框,第一个参数标识要创建的消息框的所有者窗口,第二个参数指向要显示的消息,第三个参数表示对话框标题,第四个参数指定一组位标志来确定对话框的内容和行为,取值范围如下:

  • MB_ABORTRETRYIGNORE:消息框包含三个按钮:中止,重试和忽略;
  • MB_OK:消息框包含一个按钮:OK。这是默认值;
  • MB_OKCANCEL:消息框包含两个按钮:确定和取消;
  • MB_RETRYCANCEL:消息框包含两个按钮:重试和取消;
  • MB_YESNO:消息框包含两个按钮:是和否;
  • MB_YESNOCANCEL:消息框包含三个按钮:是,否和取消。

执行完成后,弹出消息框效果如下图所示:

图片描述

3.2 模拟键盘操作

使用 pywin32 模拟按下键盘的回车键(Enter),代码如下:

import win32api,win32con
win32api.keybd_event(13,0,win32con.KEYEVENTF_EXTENDEDKEY)

代码解释:keybd_event() 方法为触发键盘事件,第一个参数为虚拟键码(13表示回车键),第二个参数为硬件扫描码,一般设置为0即可,第三个参数表示操作的标志位,如果值为KEYEVENTF_EXTENDEDKEY则该键被按下,值为KEYEVENTF_KEYUP则该按键被释放。

4. 小结

本节课程我们主要学习了 pywin32 模块的使用。本节课程的重点如下:

  • 了解pywin32模块作用及使用步骤;
  • 掌握 pywin32模块实现Word文档转换PDF格式文件的方法;

图片描述