- 论坛徽章:
- 0
|
本帖最后由 草肃威 于 2010-06-12 17:26 编辑
有一个文本文件,大约是4亿行,每行都是
aaaaaaaaaa
bbbbbbbbbb
这样的10个字符,
但是其中有很少的不是10个字符的行(比如7个或者8个字符),想用脚本把这些行挑出来,
请问脚本应该怎么写?
最好速度快点的方法
先贴一个
wc -l stable.list
373366832 stable.list
time awk 'length($0)!=10' file> file.bad
real 4m5.810s
user 3m59.703s
sys 0m3.890s
=========================
time egrep -v "^.{10}$" stable.list > list.bad
real 7m0.360s
user 6m52.589s
sys 0m2.646s
=========================
time perl -lne 'print if length != 10' stable.list > list.bad
real 1m59.953s
user 1m54.059s
sys 0m3.633s |
|