为了账号安全,请及时绑定邮箱和手机立即绑定

从 BeautifulSoup 中的文本文件中检索抓取网址

从 BeautifulSoup 中的文本文件中检索抓取网址

HUWWW 2023-02-15 17:16:56
我有以下脚本,我想从文本文件而不是数组中检索 URL。我是 Python 的新手,一直被卡住!from bs4 import BeautifulSoupimport requestsurls = ['URL1',        'URL2',        'URL3']for u in urls:   response = requests.get(u)   data = response.text   soup = BeautifulSoup(data,'lxml')
查看完整描述

1 回答

?
富国沪深

TA贡献1790条经验 获得超9个赞

你能更清楚你想要什么吗?


这是一个可能的答案,可能是也可能不是您想要的:


from bs4 import BeautifulSoup

import requests

with open('yourfilename.txt', 'r') as url_file:

   for line in url_file:

      u = line.strip()

      response = requests.get(u)

      data = response.text

      soup = BeautifulSoup(data,'lxml')

文件是用open()函数打开的;第二个参数是'r'指定我们以只读模式打开它。对 的调用open()被封装在一个with块中,因此一旦您不再需要打开文件,文件就会自动关闭。该strip()函数删除每行开头和结尾的尾随空格(空格、制表符、换行符),立即'  https://stackoverflow.com   '.strip()变为'https://stackoverflow.com'.


查看完整回答
反对 回复 2023-02-15
  • 1 回答
  • 0 关注
  • 134 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号