python遇见数据采集_学习笔记

首页免费课 python遇见数据采集笔记

python遇见数据采集

                
                秋名山车神
            全栈工程师

                    查看讲师更多课程 
                    秋名山车神讲师的其他课程
                
浏览器开发者工具使用技巧
初级·41718
免费课程
                                
                难度初级
            
                时长 2小时 5分
            
                学习人数
            
综合评分9.63
                            95人评价
                        查看评价
                                9.7
                                内容实用
                            
                                9.5
                                简洁易懂
                            
                                9.7
                                逻辑清晰

最热最新

人在梦游中 05:56

查看全部

0 采集收起来源：urllib基本用法
2018-05-09
人在梦游中 05:16

使用POST请求

查看全部

0 采集收起来源：urllib基本用法
2018-05-09
人在梦游中 03:59

模拟真实浏览器

查看全部

0 采集收起来源：urllib基本用法
2018-05-09
人在梦游中 00:29

urllib使用方法

查看全部

0 采集收起来源：urllib基本用法
2018-05-09
人在梦游中 03:23

安装BeautifulSoup4

查看全部

0 采集收起来源：python开发环境搭建
2018-05-09

Knight9527

form urllib import request

res = request.urlopen('

print(res.read().decode("utf-8"))

查看全部

0 采集收起来源：urllib基本用法

2018-04-18

iphp 00:39

查看全部

0 采集收起来源：python读取PDF文档(二)
2018-04-11

iphp

安装pdfminer3k

一般只安装了python3 安装使用语句
pip install pdfminer3k

若python同时安装了几个版本（python2.7 and python3.6）
pip3 install pdfminer3k
或者
py -3 -m pip install pdfminer3k

查看全部

0 采集收起来源：pdfminer3k安装

2018-04-11

iphp

#!/usr/bin/env python  
# encoding: utf-8

import pymysql

connection = pymysql.connect(host='localhost',
                            user='root',
                            password='',
                            db='wiki',
                            charset='utf8')
try:
    with connection.cursor() as cursor:
        sql = "select `urlname`, `urlhref` from `urls` where `id` is not null"
        count = cursor.execute(sql)
        print(count)

        #result = cursor.fetchall()
        #print(result)

        result = cursor.fetchmany(size=5)
        print(result)



finally:
    connection.close()

查看全部

0 采集收起来源：查询MySQL数据

2018-04-11

iphp

#!/usr/bin/env python  
# encoding: utf-8

#引入开发包
from urllib.request import urlopen
from bs4 import BeautifulSoup
import re
import pymysql


resp = urlopen("https://en.wikipedia.org/wiki/Main_Page").read().decode("utf-8")
soup = BeautifulSoup(resp, "html.parser")

listUrls = soup.find_all("a", href=re.compile("^/wiki/"))

#print(listUrls)
connection = pymysql.connect(host='localhost',
                            user='root',
                            password='',
                            db='wiki',
                            charset='utf8')
print(connection)
try:
    with connection.cursor() as cursor:
        for url in listUrls:
            if not re.search("\.(jpg|jpeg)$", url['href']):
                sql = "insert into `urls`(`urlname`,`urlhref`)values(%s, %s)"
                #print(sql)
                #print(url.get_text())
                cursor.execute(sql, (url.get_text(), "https://en.wikipedia.org" + url["href"]))
                connection.commit()
finally:
    connection.close();

查看全部

0 采集收起来源：存储数据到MySQL

2018-04-11

SiriSu 00:45

urllib

查看全部

0 采集收起来源：urllib基本用法
2018-04-07
茶默sh 09:45

python3 乱码解决

查看全部

0 采集收起来源：python读取TXT文档
2018-03-30
茶默sh 08:57

mark

查看全部

0 采集收起来源：python读取TXT文档
2018-03-30
慕粉3824845 12:46

读取在线PDF

查看全部

0 采集收起来源：python读取PDF文档(二)
2018-03-19
慕粉3824845 12:28

获取维基百科词条

查看全部

0 采集收起来源：获取维基百科词条信息
2018-03-15

首页上一页 4 5 6 7 8 9 10 下一页尾页

0/150

提交

取消

开始学习

课程须知: 熟悉Python语言的语法，掌握Python的正则表达式模块，懂得如何使用Python操作数据库

老师告诉你能学到什么？: 使用Python内置urllib模块和第三方BeautifulSoup模块进行数据采集和提取、MySQL数据库的操作、TXT和PDF文档的读取，以及robots协议和相关注意事项

微信扫码，参与3人拼团

热搜

最近搜索清空

python遇见数据采集