为了账号安全,请及时绑定邮箱和手机立即绑定

python遇见数据采集

难度初级
时长 2小时 5分
学习人数
综合评分9.63
95人评价 查看评价
9.7 内容实用
9.5 简洁易懂
9.7 逻辑清晰
  • import urllib2 import re from bs4 import BeautifulSoup import pymysql resp = urllib2.urlopen("http://baike.so.com/doc/1790119-1892991.html").read().decode("utf-8") soup = BeautifulSoup(resp, "html.parser") listUrls = soup.findAll("a", href = re.compile("^/doc/")) for url in listUrls: print url.get_text(), "http://baike.so.com"+url["href"] connection = pymysql.connect(host='localhost', user='root', password='', db='360mysql', charset='utf8') try: with connection.cursor() as cursor: for url in listUrls: sql = "insert into `urls`(`name`,`url`)values(%s,%s)" cursor.execute(sql,(url.get_text(),"http://baike.so.com"+url["href"])) connection.commit(); finally: connection.close();
    查看全部
  • #coding=utf-8 from urllib import request #-------------------------------------------------------------------------- #模拟浏览器登陆,加上头信息 # req = request.Request("http://www.baidu.com") # req.add_header("User-Agent","Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:48.0) Gecko/20100101 Firefox/48.0") # # resp = request.urlopen(req) # print(resp.read().decode('utf-8')) #-------------------------------------------------------------------------- #一开始这样也能实现读取,即不模拟浏览器,直接用urllib打开 # resp = request.urlopen("http://www.baidu.com") # print(resp.read().decode('utf-8')) #--------------------------------------------------------------------------
    查看全部
    3 采集 收起 来源:urllib基本用法

    2018-03-22

  • 运行pdf2txt.py ../samples/simple1.pdf点回车没反应,前面应该加一个python,也就是pdf2txt.py ../samples/simple1.pdf
    查看全部
  • post(异步加载的应用):表单的内容记一下和有两个请求头(来源和头)

    https://img2.mukewang.com/5c8511240001e3bd10100564.jpg

    查看全部
  • #!/usr/bin/env python  
    # encoding: utf-8
    
    from urllib.request import urlopen
    from pdfminer.pdfparser import PDFParser, PDFDocument
    from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
    from pdfminer.pdfdevice import PDFDevice
    
    from pdfminer.converter import PDFPageAggregator
    from pdfminer.layout import LTTextBoxHorizontal, LAParams
    
    
    
    #获取文档
    #fp = open("naacl06-shinyama.pdf", 'rb')
    fp = urlopen('https://www.tencent.com/zh-cn/articles/802741466496787.pdf')
    
    #创建解释器
    parser = PDFParser(fp)
    
    #PDF文档对象
    doc = PDFDocument()
    
    #连接解释器和文档对象
    parser.set_document(doc)
    doc.set_parser(parser)
    
    #初始化文档
    doc.initialize()
    
    #创建PDF资源管理器
    resource = PDFResourceManager()
    
    # 创建一个PDF参数分析器
    laparam = LAParams()
    
    # 创建聚合器
    device = PDFPageAggregator(resource, laparams=laparam)
    
    #创建PDF页面解析器
    interpreter = PDFPageInterpreter(resource, device)
    
    # 循环遍历列表,每次处理一页的内容
    # doc.get_pages() 获取page列表
    for page in doc.get_pages():
        #使用页面解释器来读取
        interpreter.process_page(page)
        #使用聚合器获得内容
        layout = device.get_result()
        for out in layout:
            if hasattr(out, 'get_text'):
                print(out.get_text())


    查看全部
  • #!/usr/bin/env python  
    # encoding: utf-8
    
    from urllib.request import urlopen
    
    req = urlopen("https://en.wikipedia.org/robots.txt")
    
    print(req.read().decode('utf-8'))


    查看全部
  • 导入模块

    1.读取网页信息

    2.对读取到的信息进行排版

    3.对排版过的数据进行二次获取操作。

    4.打印结果


    查看全部
  • 官方文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/
    查看全部
    1 采集 收起 来源:BeautifulSoup简介

    2017-09-16

  • import urllib.parse import urllib.request from bs4 import BeautifulSoup import sys import io __author__ = 'yearEamab' sys.stdout=io.TextIOWrapper(sys.stdout.buffer,encoding='gb18030') headers={ 'Origin':'https://www.thsrc.com.tw', 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36' } data=urllib.parse.urlencode({ 'StartStation':'2f940836-cedc-41ef-8e28-c2336ac8fe68', 'EndStation':'e6e26e66-7dc1-458f-b2f3-71ce65fdc95f', 'SearchDate':'2017/08/10', 'SearchTime':'15:00', 'SearchWay':'DepartureInMandarin' }) data_by=bytes(data,encoding='utf-8') request=urllib.request.Request('https://www.thsrc.com.tw/tw/TimeTable/SearchResult',data=data_by,headers=headers) response=urllib.request.urlopen(request) html_cont=response.read() soup=BeautifulSoup(html_cont,'html.parser',from_encoding='utf-8') #<section class="result_table"> print(soup.find('section',class_='result_table').find('ul'))
    查看全部
  • 过滤一些不需要的内容 if not re.search("里面写你不需要的内容",string)
    查看全部
  • python 1,怎么模拟登录网页 2,怎么下载网页内容 3,怎么在下载好的内容中,找到自己想要的 4,然后怎么储存 5,还有一些细节,比如,下载的都是一个文档,而不是图片。比如找到图片所在位置,然后提取地址,下载。
    查看全部
  • 发送post请求,需给urlopen()传入两个参数,第一个是包含url地址的(Request方法生成的)请求对象req,第二个是通过encode()方法生成的data表单信息。
    查看全部
    1 采集 收起 来源:urllib基本用法

    2016-12-13

  • from urllib.request import urlopen from bs4 import BeautifulSoup as bs import re resp = urlopen("https://en.wikipedia.org/wiki/Main_Page").read().decode("utf-8") soup = bs(resp,"html.parser") listUrls = soup.findAll("a", herf=re.compile("^/wiki/")) for url in listUrls: print(url["herf"])
    查看全部
  • 1. 安装文件的时候一定要把Path 路径添加进来,否则后面会出现较多错误; 2 BeautifulSoup的安装要退出 python 下才能装 ;
    查看全部
  • 读取PDF文档

    查看全部
首页上一页1234567下一页尾页

举报

0/150
提交
取消
课程须知
熟悉Python语言的语法,掌握Python的正则表达式模块,懂得如何使用Python操作数据库
老师告诉你能学到什么?
使用Python内置urllib模块和第三方BeautifulSoup模块进行数据采集和提取、MySQL数据库的操作、TXT和PDF文档的读取,以及robots协议和相关注意事项

微信扫码,参与3人拼团

意见反馈 帮助中心 APP下载
官方微信
友情提示:

您好,此课程属于迁移课程,您已购买该课程,无需重复购买,感谢您对慕课网的支持!