为了账号安全,请及时绑定邮箱和手机立即绑定

编码问题,现在是unicode,没法用xpath

请问老师及各位朋友,我现在抓取的网页,源代码是unicode,直接使用response.xpath是不能正确匹配的。

但是如果,我将response.text转码为utf-8后赋值给一个str变量,str是不能使用xpath的。

但是同时response.text又不能修改(即转码后给自身赋值)。

这种情况有什么好的办法嘛

http://img1.sycdn.imooc.com//5e38201c00017a4d06460370.jpg

正在回答

1 回答

已解决,使用lxml的etree配合转码可以解决。

目前转码后发现,爬去的返回信息是JS和data,网页是动态生成的,这个怎么爬取呢

目标网页:

https://b2b.baidu.com/cc?q=%E4%BC%BA%E6%9C%8D%E9%A9%B1%E5%8A%A8%E5%99%A8&from=b2b_factory&srcid=5359&from_ver=v2&from_elem=title

0 回复 有任何疑惑可以回复我~

举报

0/150
提交
取消

编码问题,现在是unicode,没法用xpath

我要回答 关注问题
意见反馈 帮助中心 APP下载
官方微信