为了账号安全,请及时绑定邮箱和手机立即绑定

PYTHON 基本文本浏览器/爬虫。如何删除空行但在段落之间至少保留一个空行

PYTHON 基本文本浏览器/爬虫。如何删除空行但在段落之间至少保留一个空行

狐的传说 2024-01-16 15:30:48
我创建了一个基本的文本浏览器/抓取器,可以满足我的需要。然而,当收到来自站点的文本时,会有大量额外的空行。有没有一种方法可以删除多余的空白行,但在段落之间至少保留一个空白行?这是我的代码......import urllib.requestfrom urllib.request import urlopenfrom bs4 import BeautifulSoupurl = input('Enter a URL starting with https or http: ')host = urlwebUrl = urllib.request.urlopen(host)print('result code: ' + str(webUrl.getcode()))data = webUrl.read()soup = BeautifulSoup(data, features="html.parser")for script in soup(["script", "style"]):    script.extract()text = soup.get_text()print (text)input('Scroll Up or Press ENTER to Exit')
查看完整描述

1 回答

?
翻过高山走不出你

TA贡献1875条经验 获得超3个赞

用于re.sub用单个换行符替换多个换行符,换行符之间和之前有可选的空格:

import re
text = re.sub(r"\s*\n", "\n", text)


查看完整回答
反对 回复 2024-01-16
  • 1 回答
  • 0 关注
  • 41 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信