为了账号安全,请及时绑定邮箱和手机立即绑定

HTML抓取选项?

HTML抓取选项?

慕码人2483693 2019-06-23 15:02:04
HTML抓取选项?我在考虑尝试美汤,一个用于HTML抓取的Python包。还有其他HTML抓取包我应该看看吗?Python不是必需的,我也对其他语言感兴趣。到目前为止的故事:Python美汤lxmlHTQL刮痕机械化红宝石诺科吉里杏子机械化ScrAPI斯克鲁比!袋熊瓦蒂尔.netHTML敏捷包瓦廷Perlwww:机械化刮网机爪哇标签汤HtmlUnit网络收获jARVEST汤汁Jericho HTML解析器JavaScript请求拜拜阿尔托节骑兵幻影PHP古特htmlSQLPHP简单HTML DOM解析器PHP卷曲抓取斯卡莱特他们中的大多数刮板机
查看完整描述

3 回答

?
动漫人物

TA贡献1815条经验 获得超10个赞

红宝石世界相当于美丽的汤是为什么_幸运_刚性的杏子.


查看完整回答
反对 回复 2019-06-23
?
开心每一天1111

TA贡献1836条经验 获得超13个赞

BeautifulSoup是HTML抓取的好方法。我以前的工作让我干了很多苦差事,我希望在我开始工作的时候,我就知道“美丽汤”的事了。它就像DOM,有很多有用的选项,而且更多的是pythonic。如果你想尝试Ruby,他们会移植BeautifulSoup,称之为RubyfulSoup,但它已经有一段时间没有更新了。

其他有用的工具是HTMLParser或sgmllib.SGMLParser,它们是标准Python库的一部分。每次您输入/退出标记并遇到html文本时,都会调用方法来完成这些工作。如果你熟悉的话他们就像Expat。如果要解析非常大的文件,并且创建DOM树需要花费很长时间,那么这些库尤其有用。

正则表达式并不是非常必要的。BeautifulSoup处理正则表达式,因此如果您需要它们的功能,您可以在那里使用它。我说去吧,除非你需要速度和更小的内存足迹。如果您在Python上找到了更好的HTML解析器,请告诉我。


查看完整回答
反对 回复 2019-06-23
  • 3 回答
  • 0 关注
  • 617 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信