已解决430363个问题，去搜搜看，总会有你想问的

哪个HTML解析器是最好的？

首页猿问哪个HTML解析器是最好的？

哪个HTML解析器是最好的？

Java Html/CSS

德玛西亚99 2019-06-25 16:54:42

哪个HTML解析器是最好的？我编码了很多解析器。到目前为止，我一直在使用HtmlUnit无头浏览器进行解析和浏览器自动化。现在，我想把这两个任务分开。由于我80%的工作只涉及解析，所以我想使用一个简单的HTML解析器，因为在HtmlUnit中，首先加载一个页面，然后得到源代码，然后解析它，这需要很长时间。我想知道哪个HTML解析器是最好的。如果它接近HtmlUnit解析器，解析器会更好。编辑：在最好的情况下，我至少需要以下特性：速度通过其“id”或“name”或“tag type”轻松定位任何HtmlElement。如果它不清理脏的HTML代码，对我来说就没问题了。我不需要清理任何HTML源代码。我只需要一种最简单的方法来跨HtmlElement并从中获取数据。

查看完整描述

3 回答

HUH函数

TA贡献1836条经验获得超4个赞

到目前为止我看到的最好的是HtmlCleaner:

HtmlCleaner是用Java编写的开源HTML解析器.在Web上发现的HTML通常是脏的，格式不正确，不适合进一步处理.对于任何严重消耗这类文件，首先必须清理混乱，并把顺序标签，属性和普通文本。对于给定的HTML文档，HtmlCleaner重新排序单个元素并生成格式良好的XML。默认情况下，它遵循大多数Web浏览器用于创建文档对象模型的类似规则。但是，用户可以为标签过滤和平衡提供自定义标记和规则集。

使用HtmlCleaner，您可以使用XPath定位任何元素。

有关其他html解析器，请参见这个问题.

反对回复 2019-06-25

3 回答
0 关注
986 浏览

关注

哪个HTML解析器是最好的？

哪个HTML解析器是最好的？

3 回答

相关问题推荐

添加回答

热搜

最近搜索清空

哪个HTML解析器是最好的？

哪个HTML解析器是最好的？

3 回答

相关问题推荐

添加回答