为了账号安全,请及时绑定邮箱和手机立即绑定

为什么爬虫抓去的某些页面的中文字符会变成���,又解决方法吗?

/ 猿问

为什么爬虫抓去的某些页面的中文字符会变成���,又解决方法吗?

浮云间 2018-10-08 20:10:52

如题,求指导原因和解决方法。

查看完整描述

2 回答

?
MYYA

一般python的console只能识别GBK的中文,unicode与utf-8都不可以。

LZ先查一下爬的网页的编码格式,然后用decode转码成unicode格式的,再用encode转码成GBK,就能正确输出了。

html = '<p>***<p>'    #比如说这是爬取下来的网页,编码格式为utf-8
html.decode( 'utf-8' ).encode( 'GBK' )
print html


查看完整回答
反对 回复 2018-10-14
?
万千封印

一般是编码不对,看清是utf8还是gb2312

查看完整回答
反对 回复 2018-10-14

添加回答

回复

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信