本人看完课程后,自己写了一个爬虫代码,贴出手记给大家,希望能有所帮助。如果有不清楚的可以询问,解释一下:
1.步骤1-3都是针对单个页面时写的代码,标注‘扩展’二字的步骤都是从单个课程扩展到多课程时候添加的代码。编写顺序也是先由单课程页面爬取再到多课程的爬取。每一个函数的作用也都进行了尽可能的注释
2.mytext()这个函数的作用同于text(),只不过消除了子元素的文本(因为text()函数默认会把子元素的文本包括进来)
3.课程人数因为html文件中并不包含,所以无法获取。这个BUG我找了好久才发现,坑爹啊
地址:http://www.imooc.com/article/12625
1.步骤1-3都是针对单个页面时写的代码,标注‘扩展’二字的步骤都是从单个课程扩展到多课程时候添加的代码。编写顺序也是先由单课程页面爬取再到多课程的爬取。每一个函数的作用也都进行了尽可能的注释
2.mytext()这个函数的作用同于text(),只不过消除了子元素的文本(因为text()函数默认会把子元素的文本包括进来)
3.课程人数因为html文件中并不包含,所以无法获取。这个BUG我找了好久才发现,坑爹啊
地址:http://www.imooc.com/article/12625
2016-08-28
慕课网改版了,哭。。。。爬了我好久,改了好久。。。呜呜
{ title: '进击Node.js基础(一)',
number: 9.6,
videos:
[ { chapterTitle: '第1章 前言', videos: [Object] },
{ chapterTitle: '第2章 安装 Nodejs', videos: [Object] }, ] }
{ title: '进击Node.js基础(一)',
number: 9.6,
videos:
[ { chapterTitle: '第1章 前言', videos: [Object] },
{ chapterTitle: '第2章 安装 Nodejs', videos: [Object] }, ] }
2016-08-24