awk或者sed对不规则行怎么提取字符？ - Chinaunix

<tr class=bg_odd valign=top><TD> 80</td><TD> TCP  TCP  TCP  TCP  TCP  TCP </tD><TD>  www </td><td><a href=#img_109001 onclick=javascript:expandIt('109001');> <img src=../images/low.gif border=0> 远端WWW服务提供了对WebDAV的支持[低]</a> <a href=#img_109004 onclick=javascript:expandIt('109004');> <img src=../images/low.gif border=0> 远程主机安装了IIS5 .printer ISAPI扩展[低]</a> <a href=#img_109019 onclick=javascript:expandIt('109019');> <img src=../images/low.gif border=0> 远程IIS主机安装了.HTR ISAPI扩展[低]</a> <a href=#img_109100 onclick=javascript:expandIt('109100');> <img src=../images/low.gif border=0> IIS错误判断HTTP请求来自本机[低]</a> <a href=#img_109101 onclick=javascript:expandIt('109101');> <img src=../images/high.gif border=0> IIS 5.0/WebDAV远程缓冲区溢出(MS03-007)[高]</a> <a href=#img_109110 onclick=javascript:expandIt('109110');> <img src=../images/low.gif border=0> 远程IIS主机安装了.IDA或.IDQ ISAPI扩展[低]</a> </td><td> open </td></tr>

复制代码

远端WWW服务提供了对WebDAV的支持[低]远程主机安装了IIS5 .printer ISAPI扩展[低]远程IIS主机安装了.HTR ISAPI扩展[低]IIS错误判断HTTP请求来自本机[低]IIS 5.0/WebDAV远程缓冲区溢出(MS03-007)[高]远程IIS主机安装了.IDA或.IDQ ISAPI扩展[低]
135Microsoft MSDTC COM+远程代码执行漏洞(MS05-051/KB902400)[高]DCE/RPC服务枚举漏洞[低]微软DCOM接口缓冲区溢出漏洞(MS03-026/MS03-039)[高]Messenger服务远程堆溢出漏洞(MS03-043/KB828035)[高]
1025Microsoft Windows MSDTC内存破坏漏洞(MS05-051/KB902400)[高]
1029Microsoft Task Scheduler远程任意代码执行漏洞(精确扫描MS04-022/KB841873)[高]

grep -Po '(?<=3232>)[^<>]*MS\d+-\d+[^<>]*'

复制代码

perl -0e '$_=<>;
@a=grep /\[高\]/, split(/ /i);
@b=map {
($x=$_) =~ s/.*>([^<>]*MS\d+-\d+[^<>]*(?:<[^<>]*>)*\[高\]).*/\1/s;
$x =~ s/<[^<>]*>//g; $x =~ s/^( )+//g;$x =~ s/ / /g;
$x;} @a;
print map $_."\n", @b;'

复制代码

原帖由 bobkey 于 2006-5-8 10:00 发表
回复楼上，首先感谢你的帮助，
1.但要取的字符除了[高]，还有[中][低]，可以看第一页我上传的html文件。
2.颜色确实是唯一字符
3.排版确实是统一的，是用机器生成的。

在5.1期间我经过测试，用如下语句良好 ...

原帖由 bobkey 于 2006-4-29 18:16 发表

这个任务我必须完成，所以把附件传上来了，我现在要达到这个要求：
1。第一次的高风险数全部列出来
2。如果进行了第二此扫描则要和第一次进行对比，分析哪些是新漏洞

大家看下附件吧，看怎么把高风险的内容 ...