课程
                    
                        /后端开发
                        
                            /Python
                        
                        /Python开发简单爬虫

代码出现问题

import requests,time,random
from lxml import etree
from multiprocessing import Pool
from threading import Thread
from urllib import request
user_agent = [
       "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)",
       "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; AcooBrowser; .NET CLR 1.1.4322; .NET CLR 2.0.50727)",
       "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0; Acoo Browser; SLCC1; .NET CLR 2.0.50727; Media Center PC 5.0; .NET CLR 3.0.04506)",
       "Mozilla/4.0 (compatible; MSIE 7.0; AOL 9.5; AOLBuild 4337.35; Windows NT 5.1; .NET CLR 1.1.4322; .NET CLR 2.0.50727)",
       "Mozilla/5.0 (Windows; U; MSIE 9.0; Windows NT 9.0; en-US)",
       "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; Trident/5.0; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 2.0.50727; Media Center PC 6.0)",
]
headers={"User-Agent": random.choice(user_agent)}
filk=r'C:\Users\25063\Desktop\音乐'
class jiuku(Thread):
    url='http://www.9ku.com/x1/music/by_new.php?act=t_m_hits&page='
    def __init__(self,star_page,end_page):
        super(jiuku,self).__init__()
        self.star_page=star_page
        self.end_page=end_page
        self.music_list=[]
    def get_one_html(self,page):
        '''获取一个页面的html'''
        now_url=self.url+str(page)
        print(now_url)
        r=requests.get(now_url,headers=headers)
        return r.text
    def get_many_url(self,html):
        '''根据html解析得到音乐的url'''
        xml=etree.HTML(html)
        music_url=xml.xpath('//ol/li/a/@href')
        for urls in music_url:
            url='http://www.9ku.com'+urls
            self.music_list.append(url)
        return self.music_list
    def down_one_music(self,url):
        r=requests.get(url,headers=headers)
        xml=etree.HTML(r.text)
        title=xml.xpath('//div[@class="playingTit"]/h1/text()')[0]
        singer=xml.xpath('//div[@class="playingTit"]/h2/a/text()')[0]
        music=title+'-'+singer
        music_id=url.split('/')[-1].split('.')[0]#获取音乐的id
        print('正在下载:{}'.format(music))
        music_url='http://mp3.9ku.com/m4a/{}.m4a'.format(music_id)
        request.urlretrieve(music_url,filk+music+'.mp3')
    def run(self):
        for page in range(self.star_page,self.end_page):
            time.sleep(1)
            html=self.get_one_html(page)
            music_list=self.get_many_url(html)
            pool=Pool()
            '''使用多进程进行下载，但是出错'''
            pool.map(self.down_one_music,[url for url in music_list])
            # for i in music_list:
            #     self.down_one_music(i)
def main():
    number = int(input('请输入要爬取的页数:'))
    if number <= 4:
        a = [i for i in range(0, number+1)]
        a1_min = min(a)
        a1_max = max(a)
        down = jiuku(a1_min, a1_max)
        down.start()
    else:
        a = [i for i in range(0, number)]
        d = number / 4  # 得到的数是一个浮点数
        e = int(d)  # 这一步是对浮点数变为整数，程序会将整数后面的小数全部清理这是的e就会小于d
        if d > e:  # 判断如果e小于b则就需要将每个小列表中的数量为e+1
            step = e + 1
            b = [a[i:i + step] for i in range(0, len(a), step)]
        else:
            step = e
            b = [a[i:i + step] for i in range(0, len(a), step)]
        a1_max = max(b[0])
        a1_min = min(b[0])
        a2_max = max(b[1])
        a2_min = min(b[1])
        a3_max = max(b[2])
        a3_min = min(b[2])
        a4_max = max(b[3])
        a4_min = min(b[3])
        down = jiuku(a1_min, a1_max)
        down.start()
        down1 = jiuku(a2_min, a2_max)
        down1.start()
        down2 = jiuku(a3_min, a3_max)
        down2.start()
        down3 = jiuku(a4_min, a4_max)
        down3.start()
if __name__ == '__main__':
    main()
# def main():
#     a=int(input('da:'))
#     d=int(input('agd:'))
#     down=jiuku(a,d)
#     down.run()
# if __name__ == '__main__':
#     main()

上面的代码我是打算使用多进程家多线程进行下载但是出错为什么?

慕容1479236

2019-08-19

源自：Python开发简单爬虫 5-2

关注问题我要回答

1151

操作

收起

4 回答

谷杨
2019-11-02

1、线程如果使用Thread，在子线程中再用进程池Pool 就会报错，原理不太清楚，可能需要老师来回答了，换用Process 就没问题了；

2、这个音乐的页面应该是从page=1开始的，所以我稍微改了一下入参。你可以看一下。

0 回复有任何疑惑可以回复我~

谷杨
2019-11-02

import requests, time, random
from lxml import etree
from multiprocessing import Pool
from multiprocessing import Process
from urllib import request
from urllib import error

user_agent = [
    "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)",
    "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; AcooBrowser; .NET CLR 1.1.4322; .NET CLR 2.0.50727)",
    "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0; Acoo Browser; SLCC1; .NET CLR 2.0.50727; Media Center PC 5.0; .NET CLR 3.0.04506)",
    "Mozilla/4.0 (compatible; MSIE 7.0; AOL 9.5; AOLBuild 4337.35; Windows NT 5.1; .NET CLR 1.1.4322; .NET CLR 2.0.50727)",
    "Mozilla/5.0 (Windows; U; MSIE 9.0; Windows NT 9.0; en-US)",
    "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; Trident/5.0; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 2.0.50727; Media Center PC 6.0)",
]
headers = {"User-Agent": random.choice(user_agent)}
filk = r'D:\Users\zgl\Music\\'


class Jiuku(Process):
    url = 'http://www.9ku.com/x1/music/by_new.php?act=t_m_hits&page='

    def __init__(self, threadID, star_page, end_page):
        super().__init__()
        self.threadID = threadID
        self.star_page = star_page
        self.end_page = end_page
        self.music_list = []

    def get_one_html(self, page):
        """获取一个页面的html"""
        now_url = self.url + str(page)
        print("线程：{},页面链接：{}".format(self.threadID, now_url))
        r = requests.get(now_url, headers=headers)
        return r.text

    def get_many_url(self, html):
        """根据html解析得到音乐的url"""
        try:
            xml = etree.HTML(html)
            music_url = xml.xpath('//ol/li/a/@href')
            for urls in music_url:
                url = 'http://www.9ku.com' + urls
                self.music_list.append(url)
        except AttributeError:
            print("当前页面无音乐链接")
        return self.music_list

    def run(self):
        # print("线程：{},开始页:{},结束页：{}".format(self.threadID, self.star_page, self.end_page))
        for page in range(self.star_page, self.end_page + 1):
            time.sleep(1)
            # print("当前页数：{}".format(page))
            html = self.get_one_html(page)
            self.get_many_url(html)
            pool = Pool(10)
            pool.map(down_one_music, self.music_list, 10)
            # print("线程：{},音乐链接列表：{}".format(self.threadID, self.music_list))
            # for i in self.music_list:
            #    print("音乐链接：{}".format(i))
            #    down_one_music(i)
            self.music_list.clear()


def down_one_music(url):
    if url:
        # print("音乐链接：{}".format(url))
        try:
            r = requests.get(url, headers=headers)
            xml = etree.HTML(r.text)
            title = xml.xpath('//div[@class="playingTit"]/h1/text()')[0]
            singer = xml.xpath('//div[@class="playingTit"]/h2/a/text()')[0]
            music = title + '-' + singer
            music_id = url.split('/')[-1].split('.')[0]  # 获取音乐的id
            print('正在下载:{}'.format(music))
            music_url = 'http://mp3.9ku.com/m4a/{}.m4a'.format(music_id)
            request.urlretrieve(music_url, filk + music + '.mp3')
        except error.HTTPError:
            print("{}已下线".format(music))


def main():
    number = int(input('请输入要爬取的页数:'))
    if number <= 4:
        a = [i for i in range(1, number + 1)]
        a_min = min(a)
        a_max = max(a)
        down = Jiuku("Thread-1", a_min, a_max)
        down.start()
    else:
        a = [i for i in range(1, number + 1)]
        d = number / 4  # 得到的数是一个浮点数
        e = int(d)  # 这一步是对浮点数变为整数，程序会将整数后面的小数全部清理这是的e就会小于d
        if d > e:  # 判断如果e小于b则就需要将每个小列表中的数量为e+1
            step = e + 1
            b = [a[i:i + step] for i in range(0, len(a), step)]
        else:
            step = e
            b = [a[i:i + step] for i in range(0, len(a), step)]

        for index in range(len(b)):
            a_max = max(b[index])
            a_min = min(b[index])
            down = Jiuku("Thread-" + str(index), a_min, a_max)
            down.start()


if __name__ == '__main__':
    main()

0 回复有任何疑惑可以回复我~

谷杨
2019-11-02

import requests, time, random
from lxml import etree
from multiprocessing import Pool
from multiprocessing import Process
from urllib import request
from urllib import error

user_agent = [
    "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)",
    "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; AcooBrowser; .NET CLR 1.1.4322; .NET CLR 2.0.50727)",
    "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0; Acoo Browser; SLCC1; .NET CLR 2.0.50727; Media Center PC 5.0; .NET CLR 3.0.04506)",
    "Mozilla/4.0 (compatible; MSIE 7.0; AOL 9.5; AOLBuild 4337.35; Windows NT 5.1; .NET CLR 1.1.4322; .NET CLR 2.0.50727)",
    "Mozilla/5.0 (Windows; U; MSIE 9.0; Windows NT 9.0; en-US)",
    "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; Trident/5.0; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 2.0.50727; Media Center PC 6.0)",
]
headers = {"User-Agent": random.choice(user_agent)}
filk = r'D:\Users\zgl\Music\\'


class Jiuku(Process):
    url = 'http://www.9ku.com/x1/music/by_new.php?act=t_m_hits&page='

    def __init__(self, threadID, star_page, end_page):
        super().__init__()
        self.threadID = threadID
        self.star_page = star_page
        self.end_page = end_page
        self.music_list = []

    def get_one_html(self, page):
        """获取一个页面的html"""
        now_url = self.url + str(page)
        print("线程：{},页面链接：{}".format(self.threadID, now_url))
        r = requests.get(now_url, headers=headers)
        return r.text

    def get_many_url(self, html):
        """根据html解析得到音乐的url"""
        try:
            xml = etree.HTML(html)
            music_url = xml.xpath('//ol/li/a/@href')
            for urls in music_url:
                url = 'http://www.9ku.com' + urls
                self.music_list.append(url)
        except AttributeError:
            print("当前页面无音乐链接")
        return self.music_list

    def run(self):
        # print("线程：{},开始页:{},结束页：{}".format(self.threadID, self.star_page, self.end_page))
        for page in range(self.star_page, self.end_page + 1):
            time.sleep(1)
            # print("当前页数：{}".format(page))
            html = self.get_one_html(page)
            self.get_many_url(html)
            pool = Pool(10)
            pool.map(down_one_music, self.music_list, 10)
            # print("线程：{},音乐链接列表：{}".format(self.threadID, self.music_list))
            # for i in self.music_list:
            #    print("音乐链接：{}".format(i))
            #    down_one_music(i)
            self.music_list.clear()


def down_one_music(url):
    if url:
        # print("音乐链接：{}".format(url))
        try:
            r = requests.get(url, headers=headers)
            xml = etree.HTML(r.text)
            title = xml.xpath('//div[@class="playingTit"]/h1/text()')[0]
            singer = xml.xpath('//div[@class="playingTit"]/h2/a/text()')[0]
            music = title + '-' + singer
            music_id = url.split('/')[-1].split('.')[0]  # 获取音乐的id
            print('正在下载:{}'.format(music))
            music_url = 'http://mp3.9ku.com/m4a/{}.m4a'.format(music_id)
            request.urlretrieve(music_url, filk + music + '.mp3')
        except error.HTTPError:
            print("{}已下线".format(music))


def main():
    number = int(input('请输入要爬取的页数:'))
    if number <= 4:
        a = [i for i in range(1, number + 1)]
        a_min = min(a)
        a_max = max(a)
        down = Jiuku("Thread-1", a_min, a_max)
        down.start()
    else:
        a = [i for i in range(1, number + 1)]
        d = number / 4  # 得到的数是一个浮点数
        e = int(d)  # 这一步是对浮点数变为整数，程序会将整数后面的小数全部清理这是的e就会小于d
        if d > e:  # 判断如果e小于b则就需要将每个小列表中的数量为e+1
            step = e + 1
            b = [a[i:i + step] for i in range(0, len(a), step)]
        else:
            step = e
            b = [a[i:i + step] for i in range(0, len(a), step)]

        for index in range(len(b)):
            a_max = max(b[index])
            a_min = min(b[index])
            down = Jiuku("Thread-" + str(index), a_min, a_max)
            down.start()


if __name__ == '__main__':
    main()

回复居然不能编辑，上面的格式不知道怎么回事，重新上传一下代码

0 回复有任何疑惑可以回复我~

谷杨
2019-11-02

import requests, time, random
from lxml import etree
from multiprocessing import Pool
from multiprocessing import Process
from urllib import request
from urllib import error

user_agent = [
    "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)",
    "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; AcooBrowser; .NET CLR 1.1.4322; .NET CLR 2.0.50727)",
    "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0; Acoo Browser; SLCC1; .NET CLR 2.0.50727; Media Center PC 5.0; .NET CLR 3.0.04506)",
    "Mozilla/4.0 (compatible; MSIE 7.0; AOL 9.5; AOLBuild 4337.35; Windows NT 5.1; .NET CLR 1.1.4322; .NET CLR 2.0.50727)",
    "Mozilla/5.0 (Windows; U; MSIE 9.0; Windows NT 9.0; en-US)",
    "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; Trident/5.0; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 2.0.50727; Media Center PC 6.0)",
]
headers = {"User-Agent": random.choice(user_agent)}
filk = r'D:\Users\zgl\Music\\'


class Jiuku(Process):
    url = 'http://www.9ku.com/x1/music/by_new.php?act=t_m_hits&page='

    def __init__(self, threadID, star_page, end_page):
        super().__init__()
        self.threadID = threadID
        self.star_page = star_page
        self.end_page = end_page
        self.music_list = []

    def get_one_html(self, page):
        """获取一个页面的html"""
        now_url = self.url + str(page)
        print("线程：{},页面链接：{}".format(self.threadID, now_url))
        r = requests.get(now_url, headers=headers)
        return r.text

    def get_many_url(self, html):
        """根据html解析得到音乐的url"""
        try:
            xml = etree.HTML(html)
            music_url = xml.xpath('//ol/li/a/@href')
            for urls in music_url:
                url = 'http://www.9ku.com' + urls
                self.music_list.append(url)
        except AttributeError:
            print("当前页面无音乐链接")
        return self.music_list

    def run(self):
        # print("线程：{},开始页:{},结束页：{}".format(self.threadID, self.star_page, self.end_page))
        for page in range(self.star_page, self.end_page + 1):
            time.sleep(1)
            # print("当前页数：{}".format(page))
            html = self.get_one_html(page)
            self.get_many_url(html)
            pool = Pool(10)
            pool.map(down_one_music, self.music_list, 10)
            # print("线程：{},音乐链接列表：{}".format(self.threadID, self.music_list))
            # for i in self.music_list:
            #    print("音乐链接：{}".format(i))
            #    down_one_music(i)
            self.music_list.clear()


def down_one_music(url):
    if url:
        # print("音乐链接：{}".format(url))
        try:
            r = requests.get(url, headers=headers)
            xml = etree.HTML(r.text)
            title = xml.xpath('//div[@class="playingTit"]/h1/text()')[0]
            singer = xml.xpath('//div[@class="playingTit"]/h2/a/text()')[0]
            music = title + '-' + singer
            music_id = url.split('/')[-1].split('.')[0]  # 获取音乐的id
            print('正在下载:{}'.format(music))
            music_url = 'http://mp3.9ku.com/m4a/{}.m4a'.format(music_id)
            request.urlretrieve(music_url, filk + music + '.mp3')
        except error.HTTPError:
            print("{}已下线".format(music))


def main():
    number = int(input('请输入要爬取的页数:'))
    if number <= 4:
        a = [i for i in range(1, number + 1)]
        a_min = min(a)
        a_max = max(a)
        down = Jiuku("Thread-1", a_min, a_max)
        down.start()
    else:
        a = [i for i in range(1, number + 1)]
        d = number / 4  # 得到的数是一个浮点数
        e = int(d)  # 这一步是对浮点数变为整数，程序会将整数后面的小数全部清理这是的e就会小于d
        if d > e:  # 判断如果e小于b则就需要将每个小列表中的数量为e+1
            step = e + 1
            b = [a[i:i + step] for i in range(0, len(a), step)]
        else:
            step = e
            b = [a[i:i + step] for i in range(0, len(a), step)]

        for index in range(len(b)):
            a_max = max(b[index])
            a_min = min(b[index])
            down = Jiuku("Thread-" + str(index), a_min, a_max)
            down.start()


if __name__ == '__main__':
    main()

我将你的程序根据我的理解优化了一下，目前运行正常。可以参考一下。

0 回复有任何疑惑可以回复我~

举报

0/150

提交

取消

Python开发简单爬虫

参与学习 227742 人
解答问题 1218 个

本教程带您解开python爬虫这门神奇技术的面纱

代码出现问题

我要回答关注问题

意见反馈帮助中心 APP下载