有办法让输出的url还是显示中文吗
比如这样子的,http://baike.baidu.com/item/%E9%A6%99%E6%B8%AF%E5%A4%A7%E5%AD%A6/233635
实际上是,https://baike.baidu.com/item/香港大学/23363
5
比如这样子的,http://baike.baidu.com/item/%E9%A6%99%E6%B8%AF%E5%A4%A7%E5%AD%A6/233635
实际上是,https://baike.baidu.com/item/香港大学/23363
5
 
                            2018-12-09
def _get_new_urls(self, page_url, soup):
    new_urls = set()
    #<a target="_blank" href="/item/%E9%98%BF%E5%A7%86%E6%96%AF%E7%89%B9%E4%B8%B9/2259975" data-lemmaid="2259975">阿姆斯特丹</a>
    #https: // baike.baidu.com / item / 阿姆斯特丹 / 2259975
    links = soup.find_all('a',href=re.compile(r"/item/(.+?)"))
    for link in links:
        new_url = '/item/'+link.get_text()
        new_full_url = urlparse.urljoin(page_url,new_url)
        new_urls.add(new_full_url)
    return new_urls举报