为了账号安全,请及时绑定邮箱和手机立即绑定

为什么爬虫抓去的某些页面的中文字符会变成���,又解决方法吗?

为什么爬虫抓去的某些页面的中文字符会变成���,又解决方法吗?

浮云间 2018-10-08 20:10:52
如题,求指导原因和解决方法。
查看完整描述

2 回答

?
MYYA

TA贡献1868条经验 获得超4个赞

一般python的console只能识别GBK的中文,unicode与utf-8都不可以。

LZ先查一下爬的网页的编码格式,然后用decode转码成unicode格式的,再用encode转码成GBK,就能正确输出了。

html = '<p>***<p>'    #比如说这是爬取下来的网页,编码格式为utf-8
html.decode( 'utf-8' ).encode( 'GBK' )
print html


查看完整回答
反对 回复 2018-10-14
?
万千封印

TA贡献1891条经验 获得超3个赞

一般是编码不对,看清是utf8还是gb2312

查看完整回答
反对 回复 2018-10-14
  • 2 回答
  • 0 关注
  • 1610 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信