- 论坛徽章:
- 1
|
原帖由 bobkey 于 2006-4-30 13:52 发表
呵呵,如果是一个文件,我根本费不着这么大的劲去提取字符,只要打开html直接复制就可以了
现在是成千上万个文件需要批量自动处理,所以……
楼主真的是很挑剔!^_^
试问取得的内容有哪一个不是高危的漏洞呢?既然都是高危,加不加“[高]”字样有何区别呢?实在要加的话:
sed 's/$/[高]/'
这样很难么?
其实楼主的特征描述(指字体颜色)并未抓住核心的东西。楼上zongyaotang兄弟的顾虑是有道理的,网站的排版稍一改变,我们的代码可能就会失效了。
但愿下面这段perl能让楼主满意:
- perl -0e '$_=<>;
- @a=grep /\[高\]/, split(/<br>/i);
- @b=map {
- ($x=$_) =~ s/.*>([^<>]*MS\d+-\d+[^<>]*(?:<[^<>]*>)*\[高\]).*/\1/s;
- $x =~ s/<[^<>]*>//g; $x =~ s/^( )+//g;$x =~ s/ / /g;
- $x;} @a;
- print map $_."\n", @b;'
复制代码
[ 本帖最后由 woodie 于 2006-4-30 17:46 编辑 ] |
|