免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
123
最近访问板块 发新帖
楼主: bobkey
打印 上一主题 下一主题

awk或者sed对不规则行怎么提取字符? [复制链接]

论坛徽章:
0
21 [报告]
发表于 2006-04-30 13:52 |只看该作者
原帖由 woodie 于 2006-4-30 12:09 发表

既然知道一定是“[高]”,楼主要的话就手工加好了。


呵呵,如果是一个文件,我根本费不着这么大的劲去提取字符,只要打开html直接复制就可以了

现在是成千上万个文件需要批量自动处理,所以……

论坛徽章:
1
2015年迎新春徽章
日期:2015-03-04 09:56:11
22 [报告]
发表于 2006-04-30 15:41 |只看该作者

回复 21楼 bobkey 的帖子

要看这里的批量文件是否由程序生成的,否则这里讨论的做法不一定能完全正确地处理。

论坛徽章:
0
23 [报告]
发表于 2006-04-30 17:24 |只看该作者
原帖由 zongyaotang 于 2006-4-30 15:41 发表
要看这里的批量文件是否由程序生成的,否则这里讨论的做法不一定能完全正确地处理。


确实是程序生成的,所以它们格式肯定统一。

论坛徽章:
1
荣誉会员
日期:2011-11-23 16:44:17
24 [报告]
发表于 2006-04-30 17:26 |只看该作者
原帖由 bobkey 于 2006-4-30 13:52 发表


呵呵,如果是一个文件,我根本费不着这么大的劲去提取字符,只要打开html直接复制就可以了

现在是成千上万个文件需要批量自动处理,所以……

楼主真的是很挑剔!^_^
试问取得的内容有哪一个不是高危的漏洞呢?既然都是高危,加不加“[高]”字样有何区别呢?实在要加的话:
sed 's/$/[高]/'
这样很难么?


其实楼主的特征描述(指字体颜色)并未抓住核心的东西。楼上zongyaotang兄弟的顾虑是有道理的,网站的排版稍一改变,我们的代码可能就会失效了。
但愿下面这段perl能让楼主满意:
  1. perl -0e '$_=<>;
  2.   @a=grep /\[高\]/, split(/<br>/i);
  3.   @b=map {
  4.     ($x=$_) =~ s/.*>([^<>]*MS\d+-\d+[^<>]*(?:<[^<>]*>)*\[高\]).*/\1/s;
  5.     $x =~ s/<[^<>]*>//g; $x =~ s/^(&nbsp;)+//g;$x =~ s/&nbsp;/ /g;
  6.     $x;} @a;
  7.   print map $_."\n", @b;'
复制代码

[ 本帖最后由 woodie 于 2006-4-30 17:46 编辑 ]

论坛徽章:
0
25 [报告]
发表于 2006-05-08 10:00 |只看该作者
回复楼上,首先感谢你的帮助,
1.但要取的字符除了[高],还有[中][低],可以看第一页我上传的html文件。
2.颜色确实是唯一字符
3.排版确实是统一的,是用机器生成的。

在5.1期间我经过测试,用如下语句良好完成我需要的功能。
grep "BC3232" aaa.html|sed -e 's/BC3232>/\n/g' |cut -d '<' -f1|sed -e '/^$/d'

论坛徽章:
1
荣誉会员
日期:2011-11-23 16:44:17
26 [报告]
发表于 2006-05-22 22:09 |只看该作者
原帖由 bobkey 于 2006-5-8 10:00 发表
回复楼上,首先感谢你的帮助,
1.但要取的字符除了[高],还有[中][低],可以看第一页我上传的html文件。
2.颜色确实是唯一字符
3.排版确实是统一的,是用机器生成的。

在5.1期间我经过测试,用如下语句良好 ...

1.取的不全是[高]吗?那么下面的话难道不是你自己贴上来的吗?
原帖由 bobkey 于 2006-4-29 18:16 发表

这个任务我必须完成,所以把附件传上来了,我现在要达到这个要求:
1。第一次的高风险数全部列出来
2。如果进行了第二此扫描则要和第一次进行对比,分析哪些是新漏洞

大家看下附件吧,看怎么把高风险的内容 ...


2.现在是。
3.页面是机器/程序生成的,但页面的模板则未必,人家随时可能改变模板中的排版而不会事先通知您老人家。^_^

至于你选择哪段代码,那是您的权力,我不干涉。

[ 本帖最后由 woodie 于 2006-5-22 22:11 编辑 ]
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP