为了账号安全,请及时绑定邮箱和手机立即绑定

python遇见数据采集

难度初级
时长 2小时 5分
学习人数
综合评分9.63
95人评价 查看评价
9.7 内容实用
9.5 简洁易懂
9.7 逻辑清晰
  • 安装pdfminer3k
    
    一般只安装了python3 安装使用语句
    pip install pdfminer3k
    
    若python同时安装了几个版本(python2.7 and python3.6)
    pip3 install pdfminer3k
    或者
    py -3 -m pip install pdfminer3k


    查看全部
    0 采集 收起 来源:pdfminer3k安装

    2018-04-11

  • #!/usr/bin/env python  
    # encoding: utf-8
    
    import pymysql
    
    connection = pymysql.connect(host='localhost',
                                user='root',
                                password='',
                                db='wiki',
                                charset='utf8')
    try:
        with connection.cursor() as cursor:
            sql = "select `urlname`, `urlhref` from `urls` where `id` is not null"
            count = cursor.execute(sql)
            print(count)
    
            #result = cursor.fetchall()
            #print(result)
    
            result = cursor.fetchmany(size=5)
            print(result)
    
    
    
    finally:
        connection.close()


    查看全部
    0 采集 收起 来源:查询MySQL数据

    2018-04-11

  • #!/usr/bin/env python  
    # encoding: utf-8
    
    #引入开发包
    from urllib.request import urlopen
    from bs4 import BeautifulSoup
    import re
    import pymysql
    
    
    resp = urlopen("https://en.wikipedia.org/wiki/Main_Page").read().decode("utf-8")
    soup = BeautifulSoup(resp, "html.parser")
    
    listUrls = soup.find_all("a", href=re.compile("^/wiki/"))
    
    #print(listUrls)
    connection = pymysql.connect(host='localhost',
                                user='root',
                                password='',
                                db='wiki',
                                charset='utf8')
    print(connection)
    try:
        with connection.cursor() as cursor:
            for url in listUrls:
                if not re.search("\.(jpg|jpeg)$", url['href']):
                    sql = "insert into `urls`(`urlname`,`urlhref`)values(%s, %s)"
                    #print(sql)
                    #print(url.get_text())
                    cursor.execute(sql, (url.get_text(), "https://en.wikipedia.org" + url["href"]))
                    connection.commit()
    finally:
        connection.close();


    查看全部
  • urllib

    查看全部
    0 采集 收起 来源:urllib基本用法

    2018-04-07

  • python3 乱码解决

    查看全部
  • mark

    查看全部
  • 读取在线PDF
    查看全部
  • 获取维基百科词条
    查看全部
  • 检测python是否安装成功命令
    查看全部
  • 使用decode("utf-8")可以防止乱码
    查看全部
  • https://en.wikipedia.org/robots.txt
    查看全部
  • 使用pymysql
    查看全部
  • pymysql安装
    查看全部
  • 使用POST步骤
    查看全部
    0 采集 收起 来源:urllib基本用法

    2018-01-26

  • 使用POST请求
    查看全部
    0 采集 收起 来源:urllib基本用法

    2018-01-26

举报

0/150
提交
取消
课程须知
熟悉Python语言的语法,掌握Python的正则表达式模块,懂得如何使用Python操作数据库
老师告诉你能学到什么?
使用Python内置urllib模块和第三方BeautifulSoup模块进行数据采集和提取、MySQL数据库的操作、TXT和PDF文档的读取,以及robots协议和相关注意事项

微信扫码,参与3人拼团

意见反馈 帮助中心 APP下载
官方微信
友情提示:

您好,此课程属于迁移课程,您已购买该课程,无需重复购买,感谢您对慕课网的支持!