python遇见数据采集_学习笔记

首页免费课 python遇见数据采集笔记

python遇见数据采集

                
                秋名山车神
            全栈工程师

                    查看讲师更多课程 
                    秋名山车神讲师的其他课程
                
浏览器开发者工具使用技巧
初级·41719
免费课程
                                
                难度初级
            
                时长 2小时 5分
            
                学习人数
            
综合评分9.63
                            95人评价
                        查看评价
                                9.7
                                内容实用
                            
                                9.5
                                简洁易懂
                            
                                9.7
                                逻辑清晰

最热最新

霜花似雪 03:09

课程总结3

查看全部

0 采集收起来源：python数据采集-课程总结
2019-09-14
霜花似雪 01:47

课程总结1

查看全部

0 采集收起来源：python数据采集-课程总结
2019-09-14
霜花似雪 03:05

课程总结2

查看全部

0 采集收起来源：python数据采集-课程总结
2019-09-14
霜花似雪 00:50

爬虫协议

查看全部

0 采集收起来源：爬虫注意事项
2019-09-14
霜花似雪

# coding:utf-8
from pdfminer.pdfparser import PDFParser,PDFDocument
from pdfminer.pdfinterp import PDFResourceManager,PDFPageInterpreter
from pdfminer.pdfdevice import PDFDevice
from pdfminer.layout import LAParams
from pdfminer.converter import PDFPageAggregator

fp = open("1.pdf","rb") # 打开对象，使用二进制方式
parser = PDFParser(fp) # 创建对应的解释器，传入文件对象，可理解为解释文件
doc = PDFDocument() # 创建文档对象
parser.set_document(doc) # 两步方法将fp的解释器和doc文档关联起来
doc.set_parser(parser) # 两步方法将fp的解释器和doc文档关联起来
doc.initialize() # 关联了解释器的文档，进行初始化

resource = PDFResourceManager() # 创建pdf的资源管理器
laparams = LAParams() # 创建pdf的参数分析器
device = PDFPageAggregator(resource,laparams=laparams) # 使用聚合器将资源管理器和参数分析器聚合在一起
interpreter = PDFPageInterpreter(resource,device) # 创建页面解析器，将资源管理器和聚合其结合在一起

for page in doc.get_pages(): # 获取文档对象的每一页
interpreter.process_page(page) # 使用页面解析器解析每一页
layout = device.get_result() # 使用聚合其获取解析的结果
for out in layout: # 遍历获取的结果
print(out.get_text()) # 输出

查看全部

0 采集收起来源：python读取PDF文档(二)
2019-09-14
霜花似雪 03:15

Python读取PDF文档3

查看全部

0 采集收起来源：python读取PDF文档(一)
2019-09-14
霜花似雪 01:57

Python读取PDF文档2

查看全部

0 采集收起来源：python读取PDF文档(一)
2019-09-14
霜花似雪 01:03

python读取PDF文档

查看全部

0 采集收起来源：python读取PDF文档(一)
2019-09-14

霜花似雪 02:53

安装pdfminer3k

一般只安装了python3 安装使用语句
pip install pdfminer3k

查看全部

0 采集收起来源：pdfminer3k安装

2019-09-14

霜花似雪 09:36

python乱码原因

查看全部

0 采集收起来源：python读取TXT文档
2019-09-14
霜花似雪 03:29

python乱码问题

查看全部

0 采集收起来源：python读取TXT文档
2019-09-14
霜花似雪 00:42

常见文档读取

查看全部

0 采集收起来源：python读取TXT文档
2019-09-14
霜花似雪 01:09

python操作mysql1

查看全部

0 采集收起来源：查询MySQL数据
2019-09-14
霜花似雪 00:22

python操作mysql

查看全部

0 采集收起来源：查询MySQL数据
2019-09-14

霜花似雪

from urllib.request import urlopen
from bs4 import BeautifulSoup as bs
import pymysql.cursors

# 打开链接并读取，把结果用utf-8编码
resp = urlopen("http://www.umei.cc/bizhitupian/meinvbizhi/").read().decode("utf-8")
# 使用html.parser解析器
soup = bs(resp,"html.parser")
# 格式化输出
#print(soup.prettify())

#print(soup.img)  # 获取img标签
#print(soup.find_all('img'))  # 获取所有img标签信息


for link in soup.find_all('img'):   # 从文档中找到所有img标签的链接
    #print(link.get('src'))
    #print(link.get('title'))

    # 获取数据库连接
    connection = pymysql.connect(host="localhost", user="root", password="root", db="python_mysql", charset="utf8mb4")

    try:
           #获取会话指针
           with connection.cursor() as cursor:
               #创建sql语句
               sql = "insert into `girl_image`(`title`, `urlhref`) values (%s, %s)"
               # 执行sql语句
               cursor.execute(sql, (str(link.get('title')), link.get('src')))
               #提交
               connection.commit()
    finally:
           connection.close()

查看全部

0 采集收起来源：存储数据到MySQL

2019-09-14

首页上一页 1 2 3 4 5 6 7 下一页尾页

0/150

提交

取消

开始学习

课程须知: 熟悉Python语言的语法，掌握Python的正则表达式模块，懂得如何使用Python操作数据库

老师告诉你能学到什么？: 使用Python内置urllib模块和第三方BeautifulSoup模块进行数据采集和提取、MySQL数据库的操作、TXT和PDF文档的读取，以及robots协议和相关注意事项

微信扫码，参与3人拼团

热搜

最近搜索清空

python遇见数据采集