为了账号安全,请及时绑定邮箱和手机立即绑定

怎么过滤掉网页中的脚本块

/ 猿问

怎么过滤掉网页中的脚本块

慕雪9262066 2018-11-14 18:09:58

<P>最近做一个下载网页的程序,下载后想要把网页中的无用内容都过滤掉。</P><P>想找一个过滤javascript脚本块的正则表达式。</P><P>让我崩溃的是,在网上找了三天,竟找不到一个能用的。</P><P>比如这个:"&lt;script[\s\S]+&lt;/script *&gt;"</P><P>它会把"&lt;script"和"&lt;/script&gt;"中所有都替换掉。<BR>如果页头部分有个脚本块,然后页面底部也有一个脚本块,它就把这之间所有内容给匹配了。这显然是不正确的。<BR></P><P>期待高人...</P>

查看完整描述

2 回答

?
茅侃侃

<script.+?</script *> 我测试了一下,测试代码如下: string t = System.Text.RegularExpressions.Regex.Replace( "<script aaa><--ass--></script>bbb<script aaa>ass</script>", @"<script.+?</script *>", ""); 结果是bbb,即script 以外的部分,应该是你所希望的结果 如果用 <script[\s\S]+</script *> 结果是"" 用<script[^<]+</script *> 结果是: <script aaa><--ass--></script>bbb


查看完整回答
反对 回复 2018-11-18
?
元芳怎么了

http://www.cnblogs.com/skyblue/archive/2007/03/14/674554.html 看看这个,好多人都研究过了,成果直接拿来用还是不错的,感谢原作者


查看完整回答
反对 回复 2018-11-18

添加回答

回复

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信