Python开发简单爬虫_技术问答

首页免费课 Python开发简单爬虫问答

Python开发简单爬虫

全部评论问答未解决精华

nameerror:name 'html_doc' is not defined

已采纳回答 / 追电

需要先定义<...code...>

1 回答 7068 浏览 6-4 BeautifulSoup实例测试

2016-02-29

为什么只有一行

+ 我来回答回答最高可+2积分

6 回答 823 浏览 8-1 课程总结

2016-02-28

老师，我收集的数据为什么append到set()是空的呢

已采纳回答 / 慕仙4923546

set数据结构是没有append()方法的，你的收集的数据放到dict结构中更好

1 回答 929 浏览 8-1 课程总结

2016-02-27

为什么第三种方法出来时乱码

最新回答 / 神经旷野舞者

<...图片...>看图说话

2 回答 769 浏览 5-3 Python爬虫urlib2实例代码演示

2016-02-27

用的是pathon2,代码也和视频完全一样，为什么运行出来会这样？

已采纳回答 / Yaffy

#coding:utf-8import urllib2import cookieliburl = "http://www.baidu.com"print '第一种方法'response1 = urllib2.urlopen(url)print response1.getcode()print len(response1.read)第一种方法做后获取长度时response1.read 你少个括号应该是response1.read()

1 回答 1301 浏览 5-3 Python爬虫urlib2实例代码演示

2016-02-24

写好了所有的程序运行遇到bug，不知道怎么改

最新回答 / 昔杨今雨

我找到我的原因了在manager里面有字母打错了造成错误你去查查你的代码是不是有哪儿地方字母打的不对

5 回答 6204 浏览 7-2 调度程序

2016-02-24

程序运行异常，但是不知道怎么回事？

最新回答 / Roc_J

这个问题已经解决

4 回答 821 浏览 7-2 调度程序

2016-02-24

输出问题不是1000个

最新回答 / Roc_J

并且输出第一次就失败，root_url打开就是失败的，为什么，我是pytho3.5

1 回答 580 浏览 7-2 调度程序

2016-02-24

能不能用python写一个通用的网络爬虫，而不是针对指定某个页面

最新回答 / stonesray

不好做吧，毕竟就算是指定页面，当页面更新后还需要更新代码，通用的爬虫适配是个大问题，除非针对某类网站格式相同的页面......我感觉是这个样的哈~

1 回答 1283 浏览 7-6 HTML输出器

2016-02-21

请问为什么我按照老师的代码运行后,只能爬取1条url?

最新回答 / 洛央下

没有运行完吧，没有报错？我报错的时候只有一条URL，执行完才能打印出来

1 回答 461 浏览

2016-02-19

爬虫代码执行错误

最赞回答 / PhoebeChen

参考许多人的问题可以通过把try和except的部分注解掉然后执行的时候会出现TypeError: unbound method parse() must be called with HtmlParser instance as first argument (got str...错误里面提到HtmlParser出错原因应该是你没把 HtmlParser 给实例化检查调度程序spider_main.py中的class SpiderMain里的def __init__(self):发现 self.pars...

2 回答 1085 浏览 8-1 课程总结

2016-02-19

按照老师讲的写的，这是什么错误？

已采纳回答 / avalon3515

你的UrlManager类里并未定义new_urls属性

5 回答 2160 浏览 7-7 开始运行爬虫和爬取结果展示

2016-02-18

TypeError错误，求大神指教啊

+ 我来回答回答最高可+2积分

0 回答 550 浏览

2016-02-18

使用utf-8还是乱码

已采纳回答 / avalon3515

我使用的是python3，根据实际调试发现此处不需要用encode('utf-8')，但是fout = open('output.html', 'w', encoding='utf-8')要把encoding参数加上，因为在windows下默认编码是gbk，忽略次参数会产生错误。

1 回答 2527 浏览 7-7 开始运行爬虫和爬取结果展示

2016-02-17

downloader失败

已采纳回答 / blacksea3

有可能中间这一块哪里代码打错了而不是self.urls.has_new_url()==0导致退出循环，python的百科里面是有别的链接的，你可以试着把try-except去掉，让错误直接显示出来中间这一块指的是：<...code...>根据错误位置设置print 相应的变量查看错误原因。

1 回答 975 浏览 7-7 开始运行爬虫和爬取结果展示

2016-02-16

首页上一页 84 85 86 87 88 89 90 下一页尾页

该课程已下架

课程须知: 本课程是Python语言开发的高级课程 1、Python编程语法； 2、HTML语言基础知识； 3、正则表达式基础知识；

老师告诉你能学到什么？: 1、爬虫技术的含义和存在价值 2、爬虫技术架构 3、组成爬虫的关键模块：URL管理器、HTML下载器和HTML解析器 4、实战抓取百度百科1000个词条页面数据的抓取策略设定、实战代码编写、爬虫实例运行 5、一套极简的可扩展爬虫代码，修改本代码，你就能抓取任何互联网网页！

微信扫码，参与3人拼团

热搜

最近搜索清空

Python开发简单爬虫