讲师回答 / Peter
后面加/user/login是因为这个地址是登录的地址,我们发送登录请求是发送到这个地址的。POST数据只能通过读取网页中附带的JS代码得到,因为已经超出本课程的范围,所以没有展开。
2014-08-09
讲师回答 / Peter
一次只能下载一个文件,但是可以通过代码的方式下载一整个目录,带上发送下载指令还是一个文件一个文件下的。比如,我们知道有一个目录,里面有N个文件,那么用PHP可以写一个循环把这N个文件下载下来。
2014-08-09
讲师回答 / Peter
您指的是哪些数据呢?只要下载下来的网页看到了必须登录才能看到的数据,那么可以肯定登录下载都是正确的。如果有一些数据没有下载到,可以看看是什么数据。实质上我们下载的是html的代码,但是如果有一些数据是通过JS动态载入的,那么curl对于这些动态载入的资源是无法下载到的。
2014-08-09
已采纳回答 / Peter
爬虫的的目的就在于可以通过一定的方式把目标网站里面的数据都抓取下来,然后想怎么用都行。
对于一个网站来说,很多数据是有数据权限控制的,也就是需要登录或者甚至授权的方式才能够访问到这些敏感数据。因此,从外部(也就是我们的爬虫程序)来说,最直接的方式就是模拟已经有权限的用户去登录系统,然后访问这些敏感数。
我们常说,人的安全是最难控制的,家贼难防这个道理也是一样的。我们的爬虫就假装是一个正常的用户去访问网站,然后顺便把所有感兴趣的数据都抓取下来。这就是爬虫的核心思想。
当然,也可以没有账号密码,你把自己修炼称...
2014-07-22