首页专题 Python爬虫

Python爬虫

很多同学在进行编程学习时缺乏系统学习的资料。本页面基于Python爬虫内容，从基础理论到综合实战，通过实用的知识类文章，标准的编程教程，丰富的视频课程，为您在Python爬虫相关知识领域提供全面立体的资料补充。同时还包含 package、package文件、padding 的知识内容，欢迎查阅！

Python爬虫相关知识

Python爬虫入门的一课
今天，我来讲解一下Python爬虫我讲的Python爬虫用的模块：urllibBeautifulSoup今天，我先讲urllib。urllib是下载源码用的。BeautifulSoup是解析数据的。打个比方，我们要买一个鱼。urllib是把鱼给买下来。BeautifulSoup负责解析鱼（将鱼刺和鱼肉分开等）因此，BeautifulSoup是最重要的首先下载urllib：pip install urllib。然后，打开IDLE，编写您的第一个爬虫程序：import urllib.request #导入块 url="" #url地址，这里是慕课网 yuanma=urllib.request.urlopen(url).read().decode('utf-8') ''' urllib.request.urlopen(url).read()是必须的，请大家背下来，decode是编码，这里是utf-8 &#
精通Python爬虫-02-初遇
精通Python爬虫-02-初遇声明：本系列文章原创于慕课网，作者秋名山车神，任何人不得以任何形式在不经作者允许的情况下，进行任何形式的印刷以及销售，转载需注明出处及此声明。本系列文章更新至少每周一更，将涉及Python爬虫基础，Requests，Scrapy等主流爬虫技术。同时会介绍图片验证码，语音验证码的识别以及我自己设计的一个高并发可扩展易维护的集群爬虫架构。对文章有任何问题请在下面留言，我会不定期的回复大家。人非圣贤，如果文章有错别字请大家自行区分或指正出来，我将不定
Python爬虫实战-使用Scrapy框架爬取土巴兔(一)
Scrapy is an application framework for crawling web sites and extracting structured data which can be used for a wide range of useful applications, like data mining, information processing or historical archival.上面这段话取自官方文档。翻译过来就是：Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。Scrapy可以说是目前Python爬虫框架中最成熟最稳定的框架之一，所以我们使用Scrapy框架来做爬虫开发可以说是好钢用在刀刃上。该系列其它文章：Python爬虫实战-使用Scrapy框架爬取土巴兔(二)Python爬虫实战-使用Scrapy框架爬取土巴兔(三)Python爬虫实战-使用Scrapy框架爬取土巴兔(四)
Python爬虫之诗歌接龙
介绍本文将展示如何利用Python爬虫来实现诗歌接龙。该项目的思路如下：利用爬虫爬取诗歌，制作诗歌语料库；将诗歌分句，形成字典：键（key）为该句首字的拼音，值（value）为该拼音对应的诗句，并将字典保存为pickle文件；读取pickle文件，编写程序，以exe文件形式运行该程序。该项目实现的诗歌接龙，规则为下一句的首字与上一句的尾字的拼音（包括声调）一致。下面将分步讲述该项目的实现过程。诗歌语料库首先，我们利用Python爬虫来爬取诗歌，制作语料库。爬取的网址为：https://www.gushiwen.org，页面如下：爬取的诗歌由于本文主要为试了展示该项目的思路，因此，只爬取了该页面中的唐诗三百首、古诗三百、宋词三百、宋词精选，一共大约1100多首诗歌。为了加速爬虫，采用并发实现爬虫，并保存到poem.txt文件。完整的Python程序如下：import reimport requestsfrom bs4 import Beauti