已解决430363个问题，去搜搜看，总会有你想问的

如何从html页面中提取没有标记标签的文本内容？

首页猿问如何从html页面中提取没有标记标...

如何从html页面中提取没有标记标签的文本内容？

Python

千万里不及你 2021-12-21 17:30:38

我只想从 html 页面中提取不包括标记的文本。我怎样才能在 python（最好）或 java 脚本中实现这一点？对于以下代码：<div id = #one> OneDivision <div id = #two>TwoDivision</div> <span>SpanElement</span></div>我的输出应该是： OneDivision TwoDivision SpanElement

查看完整描述

3 回答

HUWWW

TA贡献1874条经验获得超12个赞

超级简单！在 Javascript 中，使用textContent. 看下面的代码

console.log(document.getElementById("one").textContent);

OneDivision

<div id = "two">TwoDivision</div>

<span>SpanElement</span>

</div>

反对回复 2021-12-21

宝慕林4294392

TA贡献2021条经验获得超8个赞

from bs4 import BeautifulSoup

html = '<div id = #one>OneDivision<div id = #two>TwoDivision</div><span>SpanElement</span></div>'

soup = BeautifulSoup(html,"lxml")

print(soup.get_text(separator=' '))

输出

'OneDivision TwoDivision SpanElement'

反对回复 2021-12-21

一只甜甜圈

TA贡献1836条经验获得超5个赞

html_doc = BeautifulSoup(html, 'lxml').body

if html_doc is None:

return None

for tag in html_doc.select('script'):

tag.decompose()

for tag in html_doc.select('style'):

tag.decompose()

text = html_doc.get_text(separator='\n')

反对回复 2021-12-21

3 回答
0 关注
571 浏览

关注

添加回答

0/150

提交

取消

微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号

热搜

最近搜索清空

如何从html页面中提取没有标记标签的文本内容？

如何从html页面中提取没有标记标签的文本内容？

3 回答

添加回答