python遇见数据采集_学习笔记

首页免费课 python遇见数据采集笔记

python遇见数据采集

                
                秋名山车神
            全栈工程师

                    查看讲师更多课程 
                    秋名山车神讲师的其他课程
                
浏览器开发者工具使用技巧
初级·41719
免费课程
                                
                难度初级
            
                时长 2小时 5分
            
                学习人数
            
综合评分9.63
                            95人评价
                        查看评价
                                9.7
                                内容实用
                            
                                9.5
                                简洁易懂
                            
                                9.7
                                逻辑清晰

最热最新

霜花似雪 03:43

Python操作mysql步骤3

查看全部

0 采集收起来源：存储数据到MySQL
2019-09-14
霜花似雪 03:05

Python操作mysql使用步骤2

查看全部

0 采集收起来源：存储数据到MySQL
2019-09-14
霜花似雪 02:21

Python操作mysql使用步骤

查看全部

0 采集收起来源：存储数据到MySQL
2019-09-14
霜花似雪 00:14

存储数据到MySQL

查看全部

0 采集收起来源：存储数据到MySQL
2019-09-14
霜花似雪 03:07
beautiful soup
www.crummy.com/software/BeautifulSoup/#Download
1. 查找修改树形结构，提供一些工具，可以解析文档
2. 默认Unicode，utf-8
3. 支持lxml和html5lib解析器
文档地址：https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/#id4
查看全部

0 采集收起来源：BeautifulSoup简介
2019-09-14
霜花似雪 06:16

urllib使用post方式

查看全部

0 采集收起来源：urllib基本用法
2019-09-14
霜花似雪 05:31

urllib使用POST方式发送数据

查看全部

0 采集收起来源：urllib基本用法
2019-09-14
霜花似雪 02:37

模拟浏览器携带User-Agent头
req = request.Request(url)
req.add_header(key, value)
resp = request.urlopen(req)
print(resp.read().decode("utf-8"))

查看全部

0 采集收起来源：urllib基本用法
2019-09-14
霜花似雪 00:26

urllib库的使用步骤

查看全部

0 采集收起来源：urllib基本用法
2019-09-14
霜花似雪 00:16

urllib的用法

查看全部

0 采集收起来源：urllib基本用法
2019-09-14
霜花似雪 03:08

安装BeautifulSoup4

查看全部

0 采集收起来源：python开发环境搭建
2019-09-14
霜花似雪 02:20

检查是否安装成功

查看全部

0 采集收起来源：python开发环境搭建
2019-09-14
Being_yourself 04:42

检验python及其他是否安装成功

查看全部

0 采集收起来源：python开发环境搭建
2019-05-20
Being_yourself 03:28

安装完python后，再安装beautifulsoup4

查看全部

0 采集收起来源：python开发环境搭建
2019-05-20
慕容7012403

from url.requst import urlopen
from bs4 import BeautifulSoup
import re
#获取网页源代码
resp= urlopen("https://en.wikipedia.org/wiki/Main_Page").read().decode("utf-8")
#解析？网页
soup = BeautifulSoup(resp."html.parse")
#获取所有以/wiki/开头的链接
urls = soup.findAll('a',href=re.compeil("^/wiki/"))
#获取链接内容
for uls in urls:
if not re.search("/.(jpg|JPG)$"，url["href"])
print(url.get_text(),url["href"])

查看全部

0 采集收起来源：获取维基百科词条信息
2019-03-10

首页上一页 1 2 3 4 5 6 7 下一页尾页

0/150

提交

取消

开始学习

课程须知: 熟悉Python语言的语法，掌握Python的正则表达式模块，懂得如何使用Python操作数据库

老师告诉你能学到什么？: 使用Python内置urllib模块和第三方BeautifulSoup模块进行数据采集和提取、MySQL数据库的操作、TXT和PDF文档的读取，以及robots协议和相关注意事项

微信扫码，参与3人拼团

热搜

最近搜索清空

python遇见数据采集