用 Python 抓取 HTML

抱歉，如果这是重复，但我一直在查看很多关于此的 StackOverflow 问题，但找不到类似的情况。我可能在这里吠错了树，但我是编程新手，所以即使有人可以让我走上正确的道路，它也会有很大帮助。我正在尝试从一个网站上抓取数据，该网站只能使用 python 3.7 和 Beautiful Soup 4 从我们的网络内部访问。我的第一个问题是，这是为新手程序员做的最佳实践方法还是我应该寻找变成像 javascript 而不是 python 之类的东西？我的第二个问题是网站的根 html 文件具有以下 html 标签 xmlns="http://www.w3.org/1999/xhtml"。BeautifulSoup4 是否适用于 xhtml？我承认我对 Web 开发一无所知，因此即使有人可以给我一些关键字或提示来开始研究以使我走上更高效的道路，我也将不胜感激。现在我最大的问题是我不知道我不知道什么，所有 python 网页抓取示例都可以在更简单的 .html 页面上工作，而网页树由多个 html/css/jpg 和 gif 文件组成。谢谢，-戴恩

查看完整描述

用 Python 抓取 HTML

用 Python 抓取 HTML

1 回答

添加回答

热搜

最近搜索清空

用 Python 抓取 HTML

用 Python 抓取 HTML

1 回答

添加回答