HTML抓取选项？_慕课猿问

HTML抓取选项？

HTML抓取选项？我在考虑尝试美汤，一个用于HTML抓取的Python包。还有其他HTML抓取包我应该看看吗？Python不是必需的，我也对其他语言感兴趣。到目前为止的故事：Python美汤lxmlHTQL刮痕机械化红宝石诺科吉里杏子机械化ScrAPI斯克鲁比！袋熊瓦蒂尔.netHTML敏捷包瓦廷Perlwww：机械化刮网机爪哇标签汤HtmlUnit网络收获jARVEST汤汁Jericho HTML解析器JavaScript请求拜拜阿尔托节骑兵幻影PHP古特htmlSQLPHP简单HTML DOM解析器PHP卷曲抓取斯卡莱特他们中的大多数刮板机

查看完整描述

3 回答

动漫人物

TA贡献1815条经验获得超10个赞

红宝石世界相当于美丽的汤是为什么_幸运_刚性的杏子.

反对回复 2019-06-23

开心每一天1111

TA贡献1836条经验获得超13个赞

BeautifulSoup是HTML抓取的好方法。我以前的工作让我干了很多苦差事，我希望在我开始工作的时候，我就知道“美丽汤”的事了。它就像DOM，有很多有用的选项，而且更多的是pythonic。如果你想尝试Ruby，他们会移植BeautifulSoup，称之为RubyfulSoup，但它已经有一段时间没有更新了。

其他有用的工具是HTMLParser或sgmllib.SGMLParser，它们是标准Python库的一部分。每次您输入/退出标记并遇到html文本时，都会调用方法来完成这些工作。如果你熟悉的话他们就像Expat。如果要解析非常大的文件，并且创建DOM树需要花费很长时间，那么这些库尤其有用。

正则表达式并不是非常必要的。BeautifulSoup处理正则表达式，因此如果您需要它们的功能，您可以在那里使用它。我说去吧，除非你需要速度和更小的内存足迹。如果您在Python上找到了更好的HTML解析器，请告诉我。

反对回复 2019-06-23

HTML抓取选项？

HTML抓取选项？

3 回答

相关问题推荐

添加回答

热搜

最近搜索清空

HTML抓取选项？

HTML抓取选项？

3 回答

相关问题推荐

添加回答