为了账号安全,请及时绑定邮箱和手机立即绑定

我正在写一个爬虫,怎么通过网页内容误别出是否为中文网页?

我正在写一个爬虫,怎么通过网页内容误别出是否为中文网页?

DIEA 2018-10-01 21:15:55
因定制内容较多,暂时无发现现有爬虫框架满足要求,所以需要自己写(用redis做队列)。我的问题是在爬虫得到一个网页之后,怎么识别出这个网页是否为中文网页?
查看完整描述

2 回答

?
胡子哥哥

TA贡献1825条经验 获得超6个赞

用 Google Chrome 的识别算法吧,支持 HTML,有 Python 绑定

查看完整回答
反对 回复 2018-10-14
  • 2 回答
  • 0 关注
  • 829 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信