为了账号安全,请及时绑定邮箱和手机立即绑定

如何从html页面中提取没有标记标签的文本内容?

如何从html页面中提取没有标记标签的文本内容?

千万里不及你 2021-12-21 17:30:38
我只想从 html 页面中提取不包括标记的文本。我怎样才能在 python(最好)或 java 脚本中实现这一点?对于以下代码:<div id = #one> OneDivision <div id = #two>TwoDivision</div> <span>SpanElement</span></div>我的输出应该是: OneDivision TwoDivision SpanElement
查看完整描述

3 回答

?
HUWWW

TA贡献1874条经验 获得超12个赞

超级简单!在 Javascript 中,使用textContent. 看下面的代码


console.log(document.getElementById("one").textContent);

<div id = "one">

 OneDivision

 <div id = "two">TwoDivision</div>

 <span>SpanElement</span>

</div>


查看完整回答
反对 回复 2021-12-21
?
宝慕林4294392

TA贡献2021条经验 获得超8个赞

from bs4 import BeautifulSoup

html = '<div id = #one>OneDivision<div id = #two>TwoDivision</div><span>SpanElement</span></div>'

soup = BeautifulSoup(html,"lxml")

print(soup.get_text(separator=' '))

输出


'OneDivision TwoDivision SpanElement'


查看完整回答
反对 回复 2021-12-21
?
一只甜甜圈

TA贡献1836条经验 获得超5个赞

html_doc = BeautifulSoup(html, 'lxml').body


if html_doc is None:

    return None


for tag in html_doc.select('script'):

    tag.decompose()

for tag in html_doc.select('style'):

    tag.decompose()


text = html_doc.get_text(separator='\n')


查看完整回答
反对 回复 2021-12-21
  • 3 回答
  • 0 关注
  • 541 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号