-
课程总结3
查看全部 -
课程总结1
查看全部 -
课程总结2
查看全部 -
爬虫 协议
查看全部 -
# coding:utf-8
from pdfminer.pdfparser import PDFParser,PDFDocument
from pdfminer.pdfinterp import PDFResourceManager,PDFPageInterpreter
from pdfminer.pdfdevice import PDFDevice
from pdfminer.layout import LAParams
from pdfminer.converter import PDFPageAggregator
fp = open("1.pdf","rb") # 打开对象,使用二进制方式
parser = PDFParser(fp) # 创建对应的解释器,传入文件对象,可理解为解释文件
doc = PDFDocument() # 创建文档对象
parser.set_document(doc) # 两步方法将fp的解释器和doc文档关联起来
doc.set_parser(parser) # 两步方法将fp的解释器和doc文档关联起来
doc.initialize() # 关联了解释器的文档,进行初始化
resource = PDFResourceManager() # 创建pdf的资源管理器
laparams = LAParams() # 创建pdf的参数分析器
device = PDFPageAggregator(resource,laparams=laparams) # 使用聚合器将资源管理器和参数分析器聚合在一起
interpreter = PDFPageInterpreter(resource,device) # 创建页面解析器,将资源管理器和聚合其结合在一起
for page in doc.get_pages(): # 获取文档对象的每一页
interpreter.process_page(page) # 使用页面解析器解析每一页
layout = device.get_result() # 使用聚合其获取解析的结果
for out in layout: # 遍历获取的结果
print(out.get_text()) # 输出
查看全部 -
Python读取PDF文档3
查看全部 -
Python读取PDF文档2
查看全部 -
python读取PDF文档
查看全部 -
安装pdfminer3k 一般只安装了python3 安装使用语句 pip install pdfminer3k
查看全部 -
python乱码原因
查看全部 -
python乱码问题
查看全部 -
常见文档读取
查看全部 -
python操作mysql1
查看全部 -
python操作mysql
查看全部 -
from urllib.request import urlopen from bs4 import BeautifulSoup as bs import pymysql.cursors # 打开链接并读取,把结果用utf-8编码 resp = urlopen("http://www.umei.cc/bizhitupian/meinvbizhi/").read().decode("utf-8") # 使用html.parser解析器 soup = bs(resp,"html.parser") # 格式化输出 #print(soup.prettify()) #print(soup.img) # 获取img标签 #print(soup.find_all('img')) # 获取所有img标签信息 for link in soup.find_all('img'): # 从文档中找到所有img标签的链接 #print(link.get('src')) #print(link.get('title')) # 获取数据库连接 connection = pymysql.connect(host="localhost", user="root", password="root", db="python_mysql", charset="utf8mb4") try: #获取会话指针 with connection.cursor() as cursor: #创建sql语句 sql = "insert into `girl_image`(`title`, `urlhref`) values (%s, %s)" # 执行sql语句 cursor.execute(sql, (str(link.get('title')), link.get('src'))) #提交 connection.commit() finally: connection.close()
查看全部
举报