为了账号安全,请及时绑定邮箱和手机立即绑定

python遇见数据采集

难度初级
时长 2小时 5分
学习人数
综合评分9.63
95人评价 查看评价
9.7 内容实用
9.5 简洁易懂
9.7 逻辑清晰
  • 课程总结3

    查看全部
  • 课程总结1

    查看全部
  • 课程总结2

    查看全部
  • 爬虫 协议

    查看全部
    0 采集 收起 来源:爬虫注意事项

    2019-09-14

  • # coding:utf-8

    from pdfminer.pdfparser import PDFParser,PDFDocument

    from pdfminer.pdfinterp import PDFResourceManager,PDFPageInterpreter

    from pdfminer.pdfdevice import PDFDevice

    from pdfminer.layout import LAParams

    from pdfminer.converter import PDFPageAggregator


    fp = open("1.pdf","rb") # 打开对象,使用二进制方式

    parser = PDFParser(fp) # 创建对应的解释器,传入文件对象,可理解为解释文件

    doc = PDFDocument() # 创建文档对象

    parser.set_document(doc) # 两步方法将fp的解释器和doc文档关联起来

    doc.set_parser(parser) # 两步方法将fp的解释器和doc文档关联起来

    doc.initialize() # 关联了解释器的文档,进行初始化


    resource = PDFResourceManager() # 创建pdf的资源管理器

    laparams = LAParams() # 创建pdf的参数分析器

    device = PDFPageAggregator(resource,laparams=laparams) # 使用聚合器将资源管理器和参数分析器聚合在一起

    interpreter = PDFPageInterpreter(resource,device) # 创建页面解析器,将资源管理器和聚合其结合在一起


    for page in doc.get_pages(): # 获取文档对象的每一页

        interpreter.process_page(page) # 使用页面解析器解析每一页

        layout = device.get_result() # 使用聚合其获取解析的结果

        for out in layout: # 遍历获取的结果

            print(out.get_text()) # 输出


    查看全部
  • Python读取PDF文档3

    查看全部
  • Python读取PDF文档2

    查看全部
  • python读取PDF文档

    查看全部
  • 安装pdfminer3k
    
    一般只安装了python3 安装使用语句
    pip install pdfminer3k


    查看全部
    0 采集 收起 来源:pdfminer3k安装

    2019-09-14

  • python乱码原因

    查看全部
  • python乱码问题

    查看全部
  • 常见文档读取

    查看全部
  • python操作mysql1

    查看全部
    0 采集 收起 来源:查询MySQL数据

    2019-09-14

  • python操作mysql

    查看全部
    0 采集 收起 来源:查询MySQL数据

    2019-09-14

  • from urllib.request import urlopen
    from bs4 import BeautifulSoup as bs
    import pymysql.cursors
    
    # 打开链接并读取,把结果用utf-8编码
    resp = urlopen("http://www.umei.cc/bizhitupian/meinvbizhi/").read().decode("utf-8")
    # 使用html.parser解析器
    soup = bs(resp,"html.parser")
    # 格式化输出
    #print(soup.prettify())
    
    #print(soup.img)  # 获取img标签
    #print(soup.find_all('img'))  # 获取所有img标签信息
    
    
    for link in soup.find_all('img'):   # 从文档中找到所有img标签的链接
        #print(link.get('src'))
        #print(link.get('title'))
    
        # 获取数据库连接
        connection = pymysql.connect(host="localhost", user="root", password="root", db="python_mysql", charset="utf8mb4")
    
        try:
               #获取会话指针
               with connection.cursor() as cursor:
                   #创建sql语句
                   sql = "insert into `girl_image`(`title`, `urlhref`) values (%s, %s)"
                   # 执行sql语句
                   cursor.execute(sql, (str(link.get('title')), link.get('src')))
                   #提交
                   connection.commit()
        finally:
               connection.close()


    查看全部

举报

0/150
提交
取消
课程须知
熟悉Python语言的语法,掌握Python的正则表达式模块,懂得如何使用Python操作数据库
老师告诉你能学到什么?
使用Python内置urllib模块和第三方BeautifulSoup模块进行数据采集和提取、MySQL数据库的操作、TXT和PDF文档的读取,以及robots协议和相关注意事项

微信扫码,参与3人拼团

意见反馈 帮助中心 APP下载
官方微信
友情提示:

您好,此课程属于迁移课程,您已购买该课程,无需重复购买,感谢您对慕课网的支持!