为了账号安全,请及时绑定邮箱和手机立即绑定

python爬虫思路

标签:
Python

python2
爬虫:从网页上采取数据
爬虫模块:urllib,urllib2,re,bs4,requests,scrapy,xlml
1.urllib
2.request
3.bs4
4.正则re
5种数据类型
(1)数字Number
(2)字符串String
(3)列表List[]  中文在可迭代对象就是unicode对象
(4)元组Tuple()
(5)字典Set{}
爬虫思路:
1.静态  urlopen打开网页------获取源码read
2.requests(模块)  get/post请求----获取源码 text()方法 content()方法(建议)
3.bs4 能够解析HTML和XML
#-- coding:utf-8 --
from bs4 import BeautifulSoup
#1
#html="<div>2018.1.8 14:03</div>"
#soup=BeautifulSoup(html,'html.parser') #解析网页
#print soup.div
#2从文件中读取
html=''
soup=BeautifulSoup(open('index.html'),'html.parser')
print soup.prettify()
4.获取所需信息

点击查看更多内容
TA 点赞

若觉得本文不错,就分享一下吧!

评论

作者其他优质文章

正在加载中
  • 推荐
  • 评论
  • 收藏
  • 共同学习,写下你的评论
感谢您的支持,我会继续努力的~
扫码打赏,你说多少就多少
赞赏金额会直接到老师账户
支付方式
打开微信扫一扫,即可进行扫码打赏哦
今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与 放弃机会
意见反馈 帮助中心 APP下载
官方微信

举报

0/150
提交
取消