为了账号安全,请及时绑定邮箱和手机立即绑定

如何从PDF文件中提取文本?

如何从PDF文件中提取文本?

www说 2019-08-16 15:07:13
如何从PDF文件中提取文本?我正在尝试使用提取此 PDF文件中包含的文本Python。我正在使用PyPDF2模块,并具有以下脚本:import PyPDF2pdf_file = open('sample.pdf')read_pdf = PyPDF2.PdfFileReader(pdf_file)number_of_pages = read_pdf.getNumPages()page = read_pdf.getPage(0)page_content = page.extractText()print page_content当我运行代码时,我得到以下输出,该输出与PDF文档中包含的输出不同:!"#$%#$%&%$&'()*%+,-%./01'*23%4 5'%1$#26%3/%7/))/8%&)/26%8#3"%3"*%313/9#&) %如何在PDF文档中提取文本?
查看完整描述

3 回答

?
守着一只汪

TA贡献1872条经验 获得超3个赞

正在寻找一个用于python 3.x和windows的简单解决方案。似乎没有textract的支持,这是不幸的,但如果你正在寻找一个简单的解决方案,用于windows / python 3 checkout tika包,真的很直接阅读pdf

from tika import parser

raw = parser.from_file('sample.pdf')print(raw['content'])


查看完整回答
反对 回复 2019-08-16
  • 3 回答
  • 0 关注
  • 840 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信