已解决430363个问题，去搜搜看，总会有你想问的

如何从PDF文件中提取文本？

首页猿问如何从PDF文件中提取文本？

如何从PDF文件中提取文本？

Python

www说 2019-08-16 15:07:13

如何从PDF文件中提取文本？我正在尝试使用提取此 PDF文件中包含的文本Python。我正在使用PyPDF2模块，并具有以下脚本：import PyPDF2pdf_file = open('sample.pdf')read_pdf = PyPDF2.PdfFileReader(pdf_file)number_of_pages = read_pdf.getNumPages()page = read_pdf.getPage(0)page_content = page.extractText()print page_content当我运行代码时，我得到以下输出，该输出与PDF文档中包含的输出不同：!"#$%#$%&%$&'()*%+,-%./01'*23%4 5'%1$#26%3/%7/))/8%&)/26%8#3"%3"*%313/9#&) %如何在PDF文档中提取文本？

查看完整描述

3 回答

守着一只汪

TA贡献1872条经验获得超4个赞

正在寻找一个用于python 3.x和windows的简单解决方案。似乎没有textract的支持，这是不幸的，但如果你正在寻找一个简单的解决方案，用于windows / python 3 checkout tika包，真的很直接阅读pdf

from tika import parser

raw = parser.from_file('sample.pdf')print(raw['content'])

反对回复 2019-08-16

3 回答
0 关注
968 浏览

关注

添加回答

0/150

提交

取消

微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号

热搜

最近搜索清空

如何从PDF文件中提取文本？

如何从PDF文件中提取文本？

3 回答

添加回答