为了账号安全,请及时绑定邮箱和手机立即绑定

python遇见数据采集

难度初级
时长 2小时 5分
学习人数
综合评分9.63
95人评价 查看评价
9.7 内容实用
9.5 简洁易懂
9.7 逻辑清晰
  • #!/usr/bin/env python  
    # encoding: utf-8
    
    from urllib.request import urlopen
    
    req = urlopen("https://en.wikipedia.org/robots.txt")
    
    print(req.read().decode('utf-8'))


    查看全部
  • #!/usr/bin/env python  
    # encoding: utf-8
    
    import pymysql
    
    connection = pymysql.connect(host='localhost',
                                user='root',
                                password='',
                                db='wiki',
                                charset='utf8')
    try:
        with connection.cursor() as cursor:
            sql = "select `urlname`, `urlhref` from `urls` where `id` is not null"
            count = cursor.execute(sql)
            print(count)
    
            #result = cursor.fetchall()
            #print(result)
    
            result = cursor.fetchmany(size=5)
            print(result)
    
    
    
    finally:
        connection.close()


    查看全部
    0 采集 收起 来源:查询MySQL数据

    2018-04-11

  • #!/usr/bin/env python  
    # encoding: utf-8
    
    #引入开发包
    from urllib.request import urlopen
    from bs4 import BeautifulSoup
    import re
    import pymysql
    
    
    resp = urlopen("https://en.wikipedia.org/wiki/Main_Page").read().decode("utf-8")
    soup = BeautifulSoup(resp, "html.parser")
    
    listUrls = soup.find_all("a", href=re.compile("^/wiki/"))
    
    #print(listUrls)
    connection = pymysql.connect(host='localhost',
                                user='root',
                                password='',
                                db='wiki',
                                charset='utf8')
    print(connection)
    try:
        with connection.cursor() as cursor:
            for url in listUrls:
                if not re.search("\.(jpg|jpeg)$", url['href']):
                    sql = "insert into `urls`(`urlname`,`urlhref`)values(%s, %s)"
                    #print(sql)
                    #print(url.get_text())
                    cursor.execute(sql, (url.get_text(), "https://en.wikipedia.org" + url["href"]))
                    connection.commit()
    finally:
        connection.close();


    查看全部
  • urllib

    查看全部
    0 采集 收起 来源:urllib基本用法

    2018-04-07

  • python3 乱码解决

    查看全部
  • mark

    查看全部
  • 导入模块

    1.读取网页信息

    2.对读取到的信息进行排版

    3.对排版过的数据进行二次获取操作。

    4.打印结果


    查看全部
  • 读取在线PDF
    查看全部
  • 获取维基百科词条
    查看全部
  • 值得一看,爬取数据
    查看全部
  • 用urllib发送post请求;访问有的网站需要添加 origins、user agent 来表明自己不是爬虫 否则会报错
    查看全部
  • urllib模拟真实浏览器操作
    查看全部
    0 采集 收起 来源:urllib基本用法

    2018-02-22

  • 检测python是否安装成功命令
    查看全部
  • 使用decode("utf-8")可以防止乱码
    查看全部
  • https://en.wikipedia.org/robots.txt
    查看全部

举报

0/150
提交
取消
课程须知
熟悉Python语言的语法,掌握Python的正则表达式模块,懂得如何使用Python操作数据库
老师告诉你能学到什么?
使用Python内置urllib模块和第三方BeautifulSoup模块进行数据采集和提取、MySQL数据库的操作、TXT和PDF文档的读取,以及robots协议和相关注意事项

微信扫码,参与3人拼团

意见反馈 帮助中心 APP下载
官方微信
友情提示:

您好,此课程属于迁移课程,您已购买该课程,无需重复购买,感谢您对慕课网的支持!