12 / 2 页

论坛徽章:: 5

11楼 [报告]

发表于 2011-03-23 18:06 |只看该作者

回复 10# unixzhong

awk -f grepC.awk urfile

复制代码

grepC.awk

{
if (/B/) {
if (!f) {
if (p) {
if ( mN && NR - lpN > 3) print "--";
print p;
p = "";
}
f = !f;
}
mN = NR;
print;
lpN = NR;
} else if (f) {
if (NR-mN > 3) {
f = !f;
if (gsub(/\n/,"\n",p) > 1) sub(/[^\n]*\n/,"",p);
p = p?p"\n"$0:$0;
} else {
print;
lpN = NR;
}
} else {
if (gsub(/\n/,"\n",p) > 1) sub(/[^\n]*\n/,"",p);
p = p?p"\n"$0:$0;
}
}

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

yinyuemi

大富大贵

论坛徽章:: 2

12楼 [报告]

发表于 2011-03-24 01:53 |只看该作者

本帖最后由 yinyuemi 于 2011-03-26 01:23 编辑

回复 blackold

黑哥：

我的代码已经可以处理重叠的情况了，就是想看看有没有其他思路，当然我希望 ...
unixzhong 发表于 2011-03-23 15:39

awk '{a[++p]=$0}
/B/{p>f+3;print "-----"
f=p;
for(i=p-3;i<=p;i++)
if((!(i in b))&&a[i]){print a[i];b[i]}
}
NR==f+3&&f{
for(k=NR-2;k<=NR;k++)
if((!(k in b))&&a[k]){print a[k];b[k]}
}'

复制代码

这个应该会快点

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

blackold

大富大贵

论坛徽章:: 5

13楼 [报告]

发表于 2011-03-24 10:07 |只看该作者

刚才做了测试，grep快很多，有时间可以看看grep的源码。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

yinyuemi

大富大贵

论坛徽章:: 2

14楼 [报告]

发表于 2011-03-24 10:14 |只看该作者

刚才做了测试，grep快很多，有时间可以看看grep的源码。
blackold 发表于 2011-03-24 10:07

恩，我也测试了，
seq 1000000 |awk 'END{print}'
和
seq 1000000 | grep -A3 -B3 -w 5000
用的时间几乎一样

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

unixzhong

白手起家

论坛徽章:: 0

15楼 [报告]

发表于 2011-03-25 18:19 |只看该作者

本帖最后由 unixzhong 于 2011-03-25 18:48 编辑

回复 11# blackold

快速扫描了下黑哥代码，发现的确没有用 a[NR]=$0
心里肯定了，有不那么耗费内存的方式。
（  我一楼代码里面  那种方式吃太多内存 ----------------数组保存所有行）

再看了下黑哥代码，自己功力太浅，看的有点头晕，因为没有了解黑哥的思路。

就暂时不敢回贴了。

后来就放一边了，看其他awk代码去了，嘿嘿，从 tail -n 2 的awk实现例子里，得到了一点启发。

于是有了下面的  我的新实现了（只需要一个小数组临时保存当前行和它的前3行即可  ）

经过验证，才敢贴上来

man find | awk -f mygrep_atime_nodebug.awk  > mygrep_output

man find |  grep -A3 -B3  atime  > grep_output

diff mygrep_output  grep_output 没输出：）