回复 21楼 bobkey 的帖子

要看这里的批量文件是否由程序生成的，否则这里讨论的做法不一定能完全正确地处理。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

bobkey

白手起家

论坛徽章:: 0

23楼 [报告]

发表于 2006-04-30 17:24 |只看该作者

原帖由 zongyaotang 于 2006-4-30 15:41 发表
要看这里的批量文件是否由程序生成的，否则这里讨论的做法不一定能完全正确地处理。

确实是程序生成的，所以它们格式肯定统一。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

woodie

小富即安

论坛徽章:: 1

24楼 [报告]

发表于 2006-04-30 17:26 |只看该作者

原帖由 bobkey 于 2006-4-30 13:52 发表

呵呵，如果是一个文件，我根本费不着这么大的劲去提取字符，只要打开html直接复制就可以了

现在是成千上万个文件需要批量自动处理，所以……

楼主真的是很挑剔！^_^
试问取得的内容有哪一个不是高危的漏洞呢？既然都是高危，加不加“[高]”字样有何区别呢？实在要加的话：
sed 's/$/[高]/'
这样很难么？

其实楼主的特征描述(指字体颜色)并未抓住核心的东西。楼上zongyaotang兄弟的顾虑是有道理的，网站的排版稍一改变，我们的代码可能就会失效了。
但愿下面这段perl能让楼主满意：

perl -0e '$_=<>;
@a=grep /\[高\]/, split(/<br>/i);
@b=map {
($x=$_) =~ s/.*>([^<>]*MS\d+-\d+[^<>]*(?:<[^<>]*>)*\[高\]).*/\1/s;
$x =~ s/<[^<>]*>//g; $x =~ s/^( )+//g;$x =~ s/ / /g;
$x;} @a;
print map $_."\n", @b;'

复制代码

[ 本帖最后由 woodie 于 2006-4-30 17:46 编辑 ]

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

bobkey

白手起家

论坛徽章:: 0

25楼 [报告]

发表于 2006-05-08 10:00 |只看该作者

回复楼上，首先感谢你的帮助，
1.但要取的字符除了[高]，还有[中][低]，可以看第一页我上传的html文件。
2.颜色确实是唯一字符
3.排版确实是统一的，是用机器生成的。

在5.1期间我经过测试，用如下语句良好完成我需要的功能。
grep "BC3232" aaa.html|sed -e 's/BC3232>/\n/g' |cut -d '<' -f1|sed -e '/^$/d'