为了账号安全,请及时绑定邮箱和手机立即绑定

提取 HTML 并在 Python 中搜索

提取 HTML 并在 Python 中搜索

一只名叫tom的猫 2023-06-20 17:37:43
我仍然是 python 的初学者,我正在试验。我正在寻找一种方法来请求一个 url 并获取网页的数据,这样该页面就不需要打开了。获得数据后,我需要在数据中搜索标签,例如,如果它在请求的主页某处有“hello”。这是一个例子:import urllib.requestfp = urllib.request.urlopen("http://www.python.org")mybytes = fp.read()mystr = mybytes.decode("utf8")fp.close()x = mystr.find('testing word tag');print(x)请耐心等待,因为我还是个菜鸟,找不到我要找的例子。^ 在这里找到了这段代码,但它似乎无法找到一个字符串。任何人都知道最好的方法吗?感谢你们 :)
查看完整描述

2 回答

?
慕尼黑8549860

TA贡献1818条经验 获得超11个赞

以下是这类工作最常用的库:

$ pip install requests bs4

在您最喜欢的 IDE 中:

import requests

from bs4 import BeautifulSoup


r = requests.get("http://www.python.org")

soup = BeautifulSoup(r.content, "html.parser")


sometag = soup.find("sometag")

print(sometag)


查看完整回答
反对 回复 2023-06-20
?
aluckdog

TA贡献1847条经验 获得超7个赞

尝试这个。


import requests

url = "https://stackoverflow.com/questions/63577634/extract-html-and-search-in-python"


res = requests.get(url)

print(res.text)


查看完整回答
反对 回复 2023-06-20
?
精慕HU

TA贡献1845条经验 获得超8个赞

另一种方法。


from simplified_scrapy import SimplifiedDoc,req

html = req.get('https://www.python.org')

doc = SimplifiedDoc(html)

title = doc.getElement('title').text

print (title)

title = doc.getElementByText('Welcome to', tag='title').text

print (title)

结果:


Welcome to Python.org

Welcome to Python.org

查看完整回答
反对 回复 2023-06-20
  • 2 回答
  • 0 关注
  • 104 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信