首页手记 Python简单的"今日头条&...

Python简单的"今日头条"爬虫

标签：

Java Python

Hello, 感觉好久没有写简书了,最近一直在忙支付和新需求,忙里偷闲学了一下 python 的简单使用,然后尝试的爬了一下"今日头条",效果还不错,下面简单介绍下我的第一个爬虫.不足之处请多多指教.

1.首先要捕获到目标的链接请求地址以及相应的参数

我是通过 chrome 自带工具,找到相应的 Request Url 和 parameters

获取目标 url 和parameter.png

2.获取到相应的链接地址和参数之后,然后我们接下来要用 python 请求数据

首先导入数据请求库

import urllib.request as ur

通过观察发现,在请求参数中只有 offset 和 keyword 是变化的,所以我们创建一个数据请求方法将参数传入

def get_page_index(offset,keyword):
    data = {        'offset': offset,        'format': 'json',        'keyword': keyword,        'autoload': 'true',        'count': '20',        'cur_tab': '1'
    }    try:
        url = 'http://www.toutiao.com/search_content/?offset=0&format=json&keyword=%E4%B8%89%E9%87%8C%E5%B1%AF%E8%A1%97%E6%8B%8D&autoload=true&count=20&cur_tab=1' + urlaa.urlencode(data)
        reponse = ur.urlopen(url)
        text = reponse.read()
        text = text.decode('utf-8')        return text    except BaseException as e:
        print(e)

3.请求数据结束后需要解析返回的相应数据,得到相应数据之后我们需要对数据进行解析,然后得到我们有用的图片链接地址

解析数据方法代码如下:

def parse_page_index(html):
    data = json.loads(html)    if data and 'data' in data.keys():        for item in data['data']:            yield item['article_url']

首先将返回的数据解析为 json 数据,然后再通过看 json 串的结构来找到相应数据.

json 数据结构图.png

首先找到 data 字段,然后遍历其中的数组,获取到每个元素的article_url字段,观察发现article_url此字段为详情链接,然后我们需要进入详情界面分别获取到各文章相应的图片.

4.解析新闻详情界面数据

在解析详情界面时,我们需要用到 BeautifulSoup ,首先导入
from bs4 import BeautifulSoup
之后建立获取详情数据方法

def parse_page_detail(html, url):
    soup = BeautifulSoup(html, 'html.parser')
    title = soup.select('title')[0].get_text()    #正则表达式对象
    images_pattern = re.compile(r'var gallery = (.*?);', re.S)
    result = re.search(images_pattern, html)    if result:
        data = json.loads(result.group(1))        if data and 'sub_images' in data.keys():
            sub_images = data['sub_images']
            images = [item.get('url') for item in sub_images]            return {                'title': title,                'url': url,                'images': images
            }

通过传入的链接地址,用BeautifulSoup库抓取网页数据,然后通过 select 方法获取到其标题为 title 的字段数据,之后将其转化为 json 串,然后找到相应新闻的标题,新闻链接和图片的链接地址数组.

以上为数据的抓取过程,之后部分为数据的存储

数据的存储我用到了两种方式:
1.MySQL
2.存取到本地

先来看存储到数据库

存取到数据库首先要创建数据库,导入pymysql
import pymysql
之后链接到远程数据库

连接远程数据库.png

链接成功后我们先创建表格然后插入�相应的数据

def create_table_db():
    sql = "create table if not exists tank_python_one(id INT primary key not null auto_increment ,title   VARCHAR(100),url VARCHAR (100),images VARCHAR (1000))"
    cursor.execute(sql)def save_info_sql(info, num):
    sql = "insert into tank_python_one(title, url, images) VALUES(%s, %s, %s)"
    images_str = ','.join(str(i) for i in info['images'])
    data = (info['title'], info['url'], images_str)
    cursor.execute(sql, data)
    connect.commit()    # print('成功插入', cursor.rowcount, '条数据')
    save_file(info['title'], info['images'], num)

到这里就可以将爬取下来的数据存储到相应的数据库表中了.

接下来看存储到本地

存储到本地用到了 urllib 库的urlretrieve方法,将图片的路径和创建文件的名称传入即可实现将网络图片下载到本地,十分简便

def save_file(filename, images, num):
    # 保存到本地
    temp = 0
    for url in images:
        pathname = '/Users/MyMac/Desktop/图片/%sx%sy%s.jpg' % (filename, num, temp)
        ur.urlretrieve(url, pathname)
        temp += 1
        # print(pathname + '保存成功')

完整代码请看 github链接 https://github.com/spj393988297/python_toutiao.git
好啦,这样我的第一个 python 爬虫就完成啦,中间安装各种库也出现了一些的问题,但终于一一克服了,程序有许多的不完美之处,希望各位大神指点一二,毕竟刚学没经验.希望我们在求知的路上勇往直前.
Tank 无畏艰难险阻!

作者：Tank丶Farmer
链接：https://www.jianshu.com/p/d6a053f5eacb

点击查看更多内容

为 TA 点赞

若觉得本文不错，就分享一下吧！

评论

评论

共同学习，写下你的评论

评论加载中...

展开查看更多评论

作者其他优质文章

正在加载中

四季花海

手记
篇

粉丝

43

获赞与收藏

162

关注作者，订阅最新文章

阅读免费教程

Java并发工具

23个小节 20270 327

Java 并发原理入门教程

26个小节 41184 593

Java 入门教程

50个小节 358900 3304

推荐

评论

收藏

共同学习，写下你的评论



感谢您的支持，我会继续努力的～

扫码打赏，你说多少就多少

赞赏金额会直接到老师账户

支付方式

打开微信扫一扫，即可进行扫码打赏哦

今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与放弃机会

点击
抽奖

慕课手记新用户专享福利

恭喜你，你的运气太好了，居然抽中了 100个积分！

恭喜你，抽中了价值元的专栏！

太棒了，直接落到你账户里！

积分商城里的罗技鼠标、机械键盘、
Kindle 阅读器、小米平衡车
Apple iPad （10.2英寸）、大额优惠券
在等着你去兑换了噢

作者：

免费赠送

兑换码：1111222211 复制

优惠券可用于购买实战课、体系课
无门槛使用

先去看看，有什么好东西马上兑换我爱学习，选课去


热搜

最近搜索清空

Python简单的&quot;今日头条&quot;爬虫