首页手记 python爬虫实战,多线程爬取京东jd...

python爬虫实战,多线程爬取京东jd html页面：无需登录的网站的爬虫实战

标签：

Python

【前言】

# 本脚本用来爬取jd的页面：http://list.jd.com/list.html?cat=737,794,870到

# ......http://list.jd.com/list.html?cat=737,794,870&page=11&JL=6_0_0的所有html的内容和图片。

# 本脚本仅用于技术交流，请勿用于其他用途

# by River

# qq : 179621252

# Date : 2014-12-02 19:00:00

【需求说明】

以京东为示例，爬取页面的，获取页面中得数据：记录到data.txt；获取页面中得图片，保存下来。

1、list的url如下

wKiom1R9qcGjW4ydAAUwhFmjbVY394.jpg

2、商品详情页的url如下：

wKiom1R9qcKhTQB0AAQxjWPKh8M863.jpg

【技术说明】

使用了python的以下库

import os#检查文件是否存在等

from HTMLParser import HTMLParser#用于解析html的库，有坑：如果2.6的python，可能悲剧

import httplib,re#发起http请求

import sys,json,datetime,bisect#使用了二分快速查找

from urlparse import urlparse#解析url，分析出url的各部分功能

from threading import Thread#使用多线程

import socket #设置httplib超时时间

【代码逻辑说明】

1、run（获取最终要的结果）

2、parseListpageurl：返回list的总共的页面数量

3、judgelist：判断该list是否已经爬取完毕了，第一个list中的所有url、最后list的所有url都爬取完毕了，那么久说明list的所有page爬取完毕了（实际上是一种弱校验）

4、getfinalurl_content：如果list没爬取完毕，每个list爬取，解析list中得每个html（判断html是否爬取过），获得内容和img

【坑说明】

1、需要设置超时时间，和重试，否则爬取一个url卡住的时候，整个线程都悲剧了。

2、有编码的坑，如果页面是gb2312的编码，需要转换为utf-8的编码：httprestmp.decode('gbk').encode('utf-8')

3、parser.feed的内容，如果存在一些特殊字符，可能需要替换，否则解析出来会莫名不对

4、图片保存，根据url获取前面两个数字，保存。以免一个目录下保存了过多的图片。

【执行结果】

1、console输出

wKioL1R9qmeDvbp2AAS6czYnLeg145.jpg

2、data.txt存储解析出来的内容

wKiom1R9qfDgXGOMABHwYS5m2Q4335.jpg

3、judegurl.txt（保存已经爬取过的url）

wKioL1R9qobA66CkAANmtvr74ds624.jpg

4、图片（下载的图片）

wKiom1R9qgbBmto9AAHx96gX0Ow043.jpg

【代码详情】

# -*- coding: utf-8 -*-

__author__ = 'River'

# 本脚本用来爬取jd的页面：http://list.jd.com/list.html?cat=737,794,870到

# ......http://list.jd.com/list.html?cat=737,794,870&page=11&JL=6_0_0的所有html的内容和图片。

# 本脚本仅用于技术交流，请勿用于其他用途

# by River

# qq : 179621252

# Date : 2014-12-02 19:00:00

import os#创建文件

from HTMLParser import HTMLParser#用于解析html的库，有坑：如果2.6的python，可能悲剧

import httplib,re#发起http请求

import sys,json,datetime,bisect#使用了二分快速查找

from urlparse import urlparse#解析url，分析出url的各部分功能

from threading import Thread#使用多线程

import socket #设置httplib超时时间

#定义一个ListPageParser，用于解析ListPage，如http://list.jd.com/list.html?cat=737,794,870

#htmlparser的使用简介

#定义intt方法：需要使用到得属性

#定义handle_starttag，处理你想分析的tag的具体操作

#定义handle_data，遇到你定义的情况，获取相应标签的data

#定义你获取最终返回的各种数据

class ListPageParser(HTMLParser):

def __init__(self):

self.handledtags=['a']

self.processing=None

self.flag=''

self.link=''

self.setlinks=set()##该list页面中包含的每个商品的url，定义为set，主要是为了使用其特性：去重

self.pageNo=1

self.alldata=[]

self.lasturl=""#指的最后一页的url如<a href="http://list.jd.com/list.html?cat=737%2C794%2C798&page=10&JL=6_0_0">10</a>

HTMLParser.__init__(self)

def handle_starttag(self, tag, attrs):

pattern = re.compile(r'^[0-9]{2,}')

pattern2=re.compile(r'^http:\/\/item.jd.com\/\d{1,10}.html$')#取出link

pattern3=re.compile(r'^http:\/\/list.jd.com\/list.html\?cat=\d{0,9}%2C\d{0,9}%2C\d{0,9}&page=*')#取出link

#attrs是属性的list，每个属性（包含key，value）又是一个元组

#<a target="_blank" href="http://item.jd.com/1258277.html" onclick="log("search","list",window.location.href,798,5,1258277,2,1,1,2,A)">创维酷开(coocaa) K50J 50英寸八核智能wifi网络安卓平板液晶电视(黑色)</a>

#已上为例子：判断了该list的长度为3（其他的a标签就被过滤了）

if tag in self.handledtags and len(attrs)==3 :#非常关键的是，找出你想的url和不想要的url的区别

#print "debug:attrs",attrs

self.flag=''

self.data=''

self.processing=tag

for target,href in attrs:#非常关键的是，找出你想的url和不想要的url的区别

if pattern2.match(href):#再加一层判断，如果匹配上pattern2，说明是我们想要的url

self.setlinks.add(href)

else:

pass

#怎样获取list中最后一页的url？分析吧：<a href="http://list.jd.com/list.html?cat=737%2C794%2C798&page=10&JL=6_0_0">10</a>

#1、长度为1

#2，href是由规则的：cat=737%2C794%2C798&page=10&JL=6_0_0，所以，以下代码就出来了

if tag in self.handledtags and len(attrs)==1 :

self.flag=''

self.data=''

self.processing=tag

for href,url in attrs:#非常关键的是，找出你想的url和不想要的url的区别

#print 'debug:attrs',attrs

if pattern3.match(url):

#print 'debug:url',url

self.lasturl=url

else:

pass

def handle_data(self, data):

if self.processing:#去掉空格

pass#其实这里我们根本没使用获取到得data，就pass把

else:

pass

def handle_endtag(self, tag):

if tag==self.processing:

self.processing=None

def getlinks(self):

return self.setlinks

def getlasturl(self):

return self.lasturl

#定义一个FinallPageParser，用于解析最终的html页面，如http://item.jd.com/1258277.html

#FinallPageParser的定义过程参考上个parser，关键是怎样分析页面，最终写出代码，并且验证，这里就不详细说了

class FinallPageParser(HTMLParser):

def __init__(self):

self.handledtags=['div','h1','strong','a','del','div','img','li','span','tbody','tr','th','td','i']

self.processing=None

self.title=''

self.jdprice=''

self.refprice=''

self.partimgs_show=set()#展示图片

self.partimgs=set()#详情图片

self.partdetail={}#商品详情，参数等

self.specification=[]#规格参数

self.typeOrsize=set()#尺码和类型

self.div=''

self.flag={}

self.flag['refprice']=''

self.flag['title']=''

self.flag['jdprice']=''

self.flag['typeOrsize']=''

self.flag['partimgs']=''

self.flag['partdetail']=''

self.flag['specification']=''

self.flag['typeOrsize']=''

self.link=''

self.partslinks={}

HTMLParser.__init__(self)

def handle_starttag(self, tag, attrs):

self.titleflag=''

self.flag['refprice']=''

self.flag['title']=''

self.flag['jdprice']=''

self.flag['typeOrsize']=''

self.flag['partimgs']=''

self.flag['partdetail']=''

self.flag['specification']=''

self.flag['typeOrsize']=''

if tag in self.handledtags:

self.data=''

self.processing=tag

if tag=='div':

for key,value in attrs:

self.div=value# 取出div的name，判断是否是所需要的图片等元素

if tag=='i':

self.flag['typeOrsize']='match'

if tag=='a' and len(attrs)==2:

tmpflag=""

for key,value in attrs:

if key=='href' and re.search(r'^http:\/\/item.jd.com\/[0-9]{1,10}.html$',value):

tmpflag="first"

if key=='title' and value!="":

tmpflag=tmpflag+"second"

if tmpflag== "firstsecond":

self.flag['typeOrsize']='match'

if tag=='h1':

self.flag['title']='match'

if tag=='strong' and len(attrs)==2:

for tmpclass,id in attrs:

if id=='jd-price':

self.flag['jdprice']='match'

if tag=='del':

self.flag['refprice']='match'

if tag=='li':

self.flag['partdetail']='match'

if tag=='th' or tag=='tr' or tag=='td' :#++++++++############################################879498.html td中有br的只取到第一个,需要把 喜欢为“”

self.flag['specification']='match'

if tag=='img' :

imgtmp_flag=''

imgtmp=''

for key,value in attrs:

if re.search(r'^http://img.*jpg|^http://img.*gif|^http://img.*png',str(value)) and (key=='src' or key=='data-lazyload'):

imgtmp=value

if key== 'width':############可能还有logo

if re.search(r'^\d{1,9}$',value):

if int(value)<=160:

imgtmp_flag='no'

break

if self.div=="spec-items" and imgtmp!='':

imgtmp=re.compile("/n5/").sub("/n1/",imgtmp)

self.partimgs_show.add(imgtmp)

elif imgtmp_flag!='no' and imgtmp!='':

self.partimgs.add(imgtmp)#

def handle_data(self, data):

if self.processing:

self.data+=data

if self.flag['title']=='match':#获取成功

self.title=data

if self.flag['jdprice']=='match':

self.jdprice=data.strip()

if self.flag['typeOrsize']=='match':

self.typeOrsize.add(data.strip())

if self.flag['refprice']=='match':

self.refprice=data.strip()

if self.flag['partdetail']=='match' and re.search(r'：',data):#获取成功

keytmp=data.split("：")[0].strip()

valuetmp=data.split("：")[1].strip()

self.partdetail[keytmp]=valuetmp

if self.flag['specification']=='match' and data.strip() != '' and data.strip()!='主体':

self.specification.append(data.strip())

else:

pass

def handle_endtag(self, tag):

if tag==self.processing:

self.processing=None

def getdata(self):

return {'title':self.title,'partimgs_show':self.partimgs_show,'jdprice':self.jdprice,'refprice':self.refprice,'partimgs':self.partimgs,'partdetail':self.partdetail,'specification':self.specification,'typeOrsize':self.typeOrsize}

#定义方法httpread，用于发起http的get请求，返回http的获取内容

#这也是代码抽象的结果，如若不抽象这块代码出来，后续你回发现很多重复的写这块代码

def httpread(host,url,headers):

httprestmp=''

try:

conn = httplib.HTTPConnection(host)

conn.request('GET',url,None,headers)

httpres = conn.getresponse()

httprestmp=httpres.read()

except Exception,e:

conn = httplib.HTTPConnection(host)

conn.request('GET',url,None,headers)

httpres = conn.getresponse()

httprestmp=httpres.read()

print e

finally:

if conn:

conn.close()

return httprestmp

#定义方法sendhttp，调用httpread，获取结果并替换编码（gbk换为utf-8），并保存到文件中（以免下次再去下载页面，这样就节省了时间）

def sendhttp(url,host,savefile):

#定义http头部，很多网站对于你不携带User-Agent及Referer等情况，是不允许你爬取。

#具体的http的头部有些啥信息，你可以看chrome，右键审查元素，点击network，点击其中一个链接，查看request header

headers = {"Host":host,

"Origin":"http://www.jd.com/",

"Referer":"http://www.jd.com/",

"Content-type": "application/x-www-form-urlencoded; charset=UTF-8",

"Accept": "text/html;q=0.9,image/webp,*/*;q=0.8",

"User-Agent":"Mozilla/3.0 AppleWebKit/537.36 (KHTML,Gecko) Chrome/3.0.w4.",

"Cookie":"__utmz=qwer2434.1403499.1.1.utmcsr=www.jd.com|utmccn=(refrral)|utmcmd=rferral|utmcct=/order/getnfo.action; _pst=xx89; pin=x9; unick=jaa; cshi3.com=D6045EA24A6FB9; _tp=sdyuew8r9e7r9oxr3245%3D%3D; user-key=1754; cn=0; ipLocation=%u7F0C; ipLoc97; areaId=1; mt_ext2%3a%27d; aview=6770.106|68|5479.665|675.735|6767.100|6757.13730|6ee.9ty711|1649.10440; atw=65.15.325.24353.-4|188.3424.-10|22; __j34|72.2234; __jdc=2343423; __jdve|-; __jdu=3434"

}

httprestmp=''

try: