Python开发简单爬虫_技术问答

首页免费课 Python开发简单爬虫问答

Python开发简单爬虫

全部评论问答未解决精华

玩砸了，出错了~

最赞回答 / 仓颉小米

找到了解决办法，链接：http://bookshadow.com/weblog/2015/04/22/sae-python-weibo-sdk-certificate-verify-failed/Python 升级到 2.7.9 之后引入了一个新特性，当使用urllib.urlopen打开一个 https 链接时，会验证一次 SSL 证书。而当目标网站使用的是自签名的证书时就会抛出本人遇到的错误。已验证链接中第一种方案有效：<...code...>

1 回答 2471 浏览 7-1 Python爬虫实例-分析目标

2017-11-29

参数page_url怎么传给soup

最新回答 / kunkakola

soup的参数html.cont就是下载器下载到的当前page_url的内容，所以查找当前页的内容时就不再需要page_url了，只用来组成新的url

1 回答 485 浏览 7-5 HTML解析器html_parser

2017-11-29

爬取天天基金网上500只基金的历史净值的难度多大？

+ 我来回答回答最高可+2积分

0 回答 2609 浏览

2017-11-29

爬取到第一条，第二条failed，注释try、和except，提示参数错误，求大神们帮忙

最新回答 / 仓颉小米

亲，你把spider_main中，def __init__(self)这部分语句传一下看看呗？

1 回答 878 浏览

2017-11-23

该网站变成了https需要如何爬虫呢

最赞回答 / 阿扎哲健甫

正则表达式那块改成re.compile(r"/item/(.*)")可以先学一下正则表达式上面表示的意思说是含/item并以任何形式为后缀的数据如果百度百科继续改动url的话需要再做改进！

2 回答 7157 浏览 7-7 开始运行爬虫和爬取结果展示

2017-11-22

打印网页内容中文乱码

最新回答 / 慕哥1363483

没有转utf-8吧

1 回答 1292 浏览 5-3 Python爬虫urlib2实例代码演示

2017-11-20

输出的结果是百度百科Python词条下的链接吗？

最新回答 / qq_安分守己_0

是的啊

1 回答 904 浏览 7-7 开始运行爬虫和爬取结果展示

2017-11-20

运行的问题

最新回答 / 花露水和暖壶

这个目录位置是什么意思？能详细一点嘛？

2 回答 907 浏览 7-7 开始运行爬虫和爬取结果展示

2017-11-17

关于urllib.request.urlopen的编码问题

最新回答 / 仓颉小米

<...code...>这样试试？

2 回答 4753 浏览 7-7 开始运行爬虫和爬取结果展示

2017-11-17

创建python包

+ 我来回答回答最高可+2积分

0 回答 872 浏览

2017-11-14

你们在import url_manager这里没有出现过问题吗

最新回答 / qq_一口一个小朋友_0

可能是你url_manager文件名有问题。没看清楚图

2 回答 1142 浏览 7-2 调度程序

2017-11-08

HtmlOutputer' object has no attribute 'datas'

最新回答 / qq_一口一个小朋友_0

你把HtmlOutput部分代码贴一下。看下哪里错了

2 回答 838 浏览 7-7 开始运行爬虫和爬取结果展示

2017-11-07

我在这里按ctrl 1引入对象为什么提示出错

+ 我来回答回答最高可+2积分

3 回答 1051 浏览 7-2 调度程序

2017-11-07

没有生成html文件

最新回答 / qq_一口一个小朋友_0

极有可能是你output里面内容写错了，没报错成功爬取出地址的话仔细检查下代码

2 回答 1135 浏览 7-7 开始运行爬虫和爬取结果展示

2017-11-06

用BeautifulSoup(re.text, lxml)，关于beautifulsoup 与 lxml 的问题

最新回答 / 慕九州1555680

看起来像是lxml没装好，重装一下试试：pip3 install lxml

1 回答 6721 浏览 6-4 BeautifulSoup实例测试

2017-11-04

首页上一页 29 30 31 32 33 34 35 下一页尾页

该课程已下架

课程须知: 本课程是Python语言开发的高级课程 1、Python编程语法； 2、HTML语言基础知识； 3、正则表达式基础知识；

老师告诉你能学到什么？: 1、爬虫技术的含义和存在价值 2、爬虫技术架构 3、组成爬虫的关键模块：URL管理器、HTML下载器和HTML解析器 4、实战抓取百度百科1000个词条页面数据的抓取策略设定、实战代码编写、爬虫实例运行 5、一套极简的可扩展爬虫代码，修改本代码，你就能抓取任何互联网网页！

微信扫码，参与3人拼团

热搜

最近搜索清空

Python开发简单爬虫