为了账号安全,请及时绑定邮箱和手机立即绑定

python遇见数据采集

难度初级
时长 2小时 5分
学习人数
综合评分9.63
95人评价 查看评价
9.7 内容实用
9.5 简洁易懂
9.7 逻辑清晰
  • Python3 读取 pdf 文件的库 pdfminer3k
    查看全部
  • urllib 请求 web 服务器 beautiful soul 解析返回的结果 re 进行正则处理
    查看全部
    0 采集 收起 来源:查询MySQL数据

    2016-09-05

  • from urllib.request import urlopen from bs4 import BeautifulSoup as bs import re resp = urlopen("https://en.wikipedia.org/wiki/Main_Page").read().decode("utf-8") soup = bs(resp,"html.parser") listUrls = soup.findAll("a", herf=re.compile("^/wiki/")) for url in listUrls: print(url["herf"])
    查看全部
  • 1. print(soup.find(id="link2").string) #获取link2标签的内容; 2. for link in soup.findAll("a"): print(link.string) #查找A标签下面所有的内容,利用For循环实现
    查看全部
    0 采集 收起 来源:BeautifulSoup使用

    2018-03-22

  • 爬虫
    查看全部
  • from urllib.request import urlopen # 引入urlopen 模块 from urllib.request import Request # 引入urlrequest 模块 from urllib import parse # 引入parse 模块 req = Request("http://www.thsrc.com.tw/tw/TimeTable/SearchResult") postDate = parse.urlencode([ ("StartStation", "2f940836-cedc-41ef-8e28-c2336ac8fe68"), ("EndStation", "977abb69-413a-4ccf-a109-0272c24fd490"), ("SearchDate", "2016/08/31"), ("SearchTime", "21:30"), ("SearchWay", "DepartureInMandarin") ]) req.add_header("Origin", "http://www.thsrc.com.tw") req.add_header("User-Agent", "Mozilla/5.0 (Windows NT 6.1; rv:48.0) Gecko/20100101 Firefox/48.0)") resp = urlopen(req,data=postDate.encode("utf-8")) print(resp.read().decode("utf-8"))
    查看全部
  • 输入代码的时候需要注意大小写、半角、全角符号都对结果有些影响。
    查看全部
  • from urllib.request import urlopen # 引入urlopen 模块 from urllib.request import Request # 引入urlrequest 模块 from urllib import parse # 引入parse 模块 req = Request("http://www.thsrc.com.tw/tw/TimeTable/SearchResult") postDate = parse.urlencode([ ("StartStation", "2f940836-cedc-41ef-8e28-c2336ac8fe68"), ("EndStation", "977abb69-413a-4ccf-a109-0272c24fd490"), ("SearchDate", "2016/08/31"), ("SearchTime", "21:30"), ("SearchWay", "DepartureInMandarin") ]) req.add_header("Origin", "http://www.thsrc.com.tw") req.add_header("User-Agent", "Mozilla/5.0 (Windows NT 6.1; rv:48.0) Gecko/20100101 Firefox/48.0)") resp = urlopen(req,data=postDate.encode("utf-8")) print(resp.read().decode("utf-8"))
    查看全部
  • Python1
    查看全部
    0 采集 收起 来源:BeautifulSoup使用

    2016-08-31

  • 代码块2
    查看全部
    0 采集 收起 来源:查询MySQL数据

    2016-08-30

  • 代码块
    查看全部
    0 采集 收起 来源:查询MySQL数据

    2016-08-30

  • 1. 安装文件的时候一定要把Path 路径添加进来,否则后面会出现较多错误; 2 BeautifulSoup的安装要退出 python 下才能装 ;
    查看全部
  • 乱码问题
    查看全部
  • #暂时跑不出来。。。回头再看看 # -*- coding:utf-8 -*- import urllib2 import urllib #(1)Request 建立连接 url = 'http://www.thsrc.com.tw/tw/TimeTable/SearchResult' headers = { 'Host':'www.thsrc.com.tw', 'Origin':'http://www.thsrc.com.tw', 'Connection': 'keep-alive', 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36' } req = urllib2.Request(url=url, headers=headers) # (2)数据传输 data = {'StartStation': '2f940836-cedc-41ef-8e28-c2336ac8fe68', 'EndStation': 'e6e26e66-7dc1-458f-b2f3-71ce65fdc95f', 'SearchData': '2016/08/31', 'SearchTime': '13:00', 'SearchWay': 'DepartureInMandarin', 'RestTime': '', 'EarlyOrLater': '' } post_data = urllib.urlencode(data) resp = urllib2.urlopen(req, data=post_data) print (resp.read().decode('utf-8'))
    查看全部
  • 查看全部

举报

0/150
提交
取消
课程须知
熟悉Python语言的语法,掌握Python的正则表达式模块,懂得如何使用Python操作数据库
老师告诉你能学到什么?
使用Python内置urllib模块和第三方BeautifulSoup模块进行数据采集和提取、MySQL数据库的操作、TXT和PDF文档的读取,以及robots协议和相关注意事项

微信扫码,参与3人拼团

意见反馈 帮助中心 APP下载
官方微信
友情提示:

您好,此课程属于迁移课程,您已购买该课程,无需重复购买,感谢您对慕课网的支持!