为了账号安全,请及时绑定邮箱和手机立即绑定

如何从 Bing/Google 新闻提要中解析和获取干净的图像源?

如何从 Bing/Google 新闻提要中解析和获取干净的图像源?

江户川乱折腾 2022-04-24 18:47:47
我创建了一个程序,它将抓取 Bing Newsfeed 并分析内容并将标题、摘要和新闻链接通过电子邮件发送给我。到目前为止,我已经能够使用 BeautifulSoup 正确地获得所有这些。我还想通过包含显示在必应新闻源页面中的新闻图像来改进我的程序。我无法获取图像源链接,因为来源似乎不同。from bs4 import BeautifulSoupimport requestssource = requests.get(https://www.bing.com/news?q=Technology&cf=intr&FORM=NWRFSH).textsoup = BeautifulSoup(source, "html.parser")for image in soup.find_all("div", class_="image right"):    print(image.img)如果我运行上面的代码,它会打印出一些对我来说没有多大意义的奇怪的东西。这是一个例子:<img class="rms_img" height="132" id="emb249968768" src="/th?id=ON.B139539B9DC398104440D89FAFB6F0C2&amp;pid=News&amp;w=234&amp;h=132&amp;c=14&amp;rs=2&amp;qlt=90" width="234"/>所有其他的img标签也是这样。如您所见,此处的 data-src 并不适合获取我在发送电子邮件时可以使用的图像链接。任何人都可以查看该网站(从我的代码中)并检查一下,看看我可能做错了什么,或者在发送电子邮件时如何以干净且可用的方式获取所有图像链接?非常感谢。
查看完整描述

1 回答

?
手掌心

TA贡献1942条经验 获得超3个赞

img 标签的 src 属性是完全可以的,这正是你在大多数网站上都能找到的。它是具有绝对路径(以正斜杠开头的路径)的相对 url(没有“方案”或“域名”部分),因此它是客户端(在这种情况下是您的代码)重建完整绝对路径的责任url 使用与初始请求相同的方案和域名以及来自 img 标签的路径 - 在您的示例中,最终结果应该类似于“ https://www.bing.com/th?id= ON.B139539B9DC398104440D89FAFB6F0C2&pid=News&w=234&h=132&c=14&rs=2&qlt=90 "(确实指向图像)。

注意:不要尝试自己将 url 解析为组件,只需使用 stdlib 的urllib.parse模块即可。


查看完整回答
反对 回复 2022-04-24
  • 1 回答
  • 0 关注
  • 169 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号