为了账号安全,请及时绑定邮箱和手机立即绑定

编码问题,现在是unicode,没法用xpath

请问老师及各位朋友,我现在抓取的网页,源代码是unicode,直接使用response.xpath是不能正确匹配的。

但是如果,我将response.text转码为utf-8后赋值给一个str变量,str是不能使用xpath的。

但是同时response.text又不能修改(即转码后给自身赋值)。

这种情况有什么好的办法嘛

http://img1.sycdn.imooc.com//5e38201c00017a4d06460370.jpg

正在回答

1 回答

已解决,使用lxml的etree配合转码可以解决。

目前转码后发现,爬去的返回信息是JS和data,网页是动态生成的,这个怎么爬取呢

目标网页:

https://b2b.baidu.com/cc?q=%E4%BC%BA%E6%9C%8D%E9%A9%B1%E5%8A%A8%E5%99%A8&from=b2b_factory&srcid=5359&from_ver=v2&from_elem=title

0 回复 有任何疑惑可以回复我~

举报

0/150
提交
取消

编码问题,现在是unicode,没法用xpath

我要回答 关注问题
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号