为了账号安全,请及时绑定邮箱和手机立即绑定

哪个HTML解析器是最好的?

哪个HTML解析器是最好的?

德玛西亚99 2019-06-25 16:54:42
哪个HTML解析器是最好的?我编码了很多解析器。到目前为止,我一直在使用HtmlUnit无头浏览器进行解析和浏览器自动化。现在,我想把这两个任务分开。由于我80%的工作只涉及解析,所以我想使用一个简单的HTML解析器,因为在HtmlUnit中,首先加载一个页面,然后得到源代码,然后解析它,这需要很长时间。我想知道哪个HTML解析器是最好的。如果它接近HtmlUnit解析器,解析器会更好。编辑:在最好的情况下,我至少需要以下特性:速度通过其“id”或“name”或“tag type”轻松定位任何HtmlElement。如果它不清理脏的HTML代码,对我来说就没问题了。我不需要清理任何HTML源代码。我只需要一种最简单的方法来跨HtmlElement并从中获取数据。
查看完整描述

3 回答

?
HUH函数

TA贡献1836条经验 获得超4个赞

到目前为止我看到的最好的是HtmlCleaner:

HtmlCleaner是用Java编写的开源HTML解析器.在Web上发现的HTML通常是脏的,格式不正确,不适合进一步处理.对于任何严重消耗这类文件,首先必须清理混乱,并把顺序标签,属性和普通文本。对于给定的HTML文档,HtmlCleaner重新排序单个元素并生成格式良好的XML。默认情况下,它遵循大多数Web浏览器用于创建文档对象模型的类似规则。但是,用户可以为标签过滤和平衡提供自定义标记和规则集。

使用HtmlCleaner,您可以使用XPath定位任何元素。

有关其他html解析器,请参见这个问题.


查看完整回答
反对 回复 2019-06-25
  • 3 回答
  • 0 关注
  • 953 浏览

添加回答

举报

0/150
提交
取消
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号