免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 16638 | 回复: 53
打印 上一主题 下一主题

4亿行数据,挑出长度不合要求的行 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2010-06-12 16:17 |只看该作者 |倒序浏览
本帖最后由 草肃威 于 2010-06-12 17:26 编辑

有一个文本文件,大约是4亿行,每行都是
aaaaaaaaaa
bbbbbbbbbb
这样的10个字符,
但是其中有很少的不是10个字符的行(比如7个或者8个字符),想用脚本把这些行挑出来,
请问脚本应该怎么写?
最好速度快点的方法


先贴一个

wc -l stable.list
373366832 stable.list

time  awk 'length($0)!=10' file> file.bad

real    4m5.810s
user    3m59.703s
sys     0m3.890s
=========================
time egrep -v "^.{10}$" stable.list > list.bad

real    7m0.360s
user    6m52.589s
sys     0m2.646s
=========================
time perl -lne 'print if length != 10' stable.list > list.bad

real    1m59.953s
user    1m54.059s
sys     0m3.633s

论坛徽章:
0
2 [报告]
发表于 2010-06-12 16:22 |只看该作者
  1. awk 'length($0) != 10' file
复制代码
如果每行的数据不包括空格的话  

不知道效率如何

论坛徽章:
7
荣誉版主
日期:2011-11-23 16:44:17子鼠
日期:2014-07-24 15:38:07狮子座
日期:2014-07-24 11:00:54巨蟹座
日期:2014-07-21 19:03:10双子座
日期:2014-05-22 12:00:09卯兔
日期:2014-05-08 19:43:17卯兔
日期:2014-08-22 13:39:09
3 [报告]
发表于 2010-06-12 16:24 |只看该作者
sed '/........../d'

论坛徽章:
0
4 [报告]
发表于 2010-06-12 16:24 |只看该作者
awk -F '' 'NF!=10' file >newfile
awk 'length($0)!=10' file >newfile

比较下看看

论坛徽章:
0
5 [报告]
发表于 2010-06-12 16:25 |只看该作者
egrep -v "^.{10}$" file
这个也不知道效率怎么样。。

论坛徽章:
0
6 [报告]
发表于 2010-06-12 16:37 |只看该作者
回复 1# 草肃威


     一定要把运算时间贴出来啊哈哈~最好有会PERL的人来弄一个

论坛徽章:
0
7 [报告]
发表于 2010-06-12 16:37 |只看该作者
我都试试吧,等会儿给个结果

论坛徽章:
16
IT运维版块每日发帖之星
日期:2015-08-24 06:20:00综合交流区版块每日发帖之星
日期:2015-10-14 06:20:00IT运维版块每日发帖之星
日期:2015-10-25 06:20:00IT运维版块每日发帖之星
日期:2015-11-06 06:20:00IT运维版块每日发帖之星
日期:2015-12-10 06:20:00平安夜徽章
日期:2015-12-26 00:06:302016猴年福章徽章
日期:2016-02-18 15:30:34IT运维版块每日发帖之星
日期:2016-04-15 06:20:00IT运维版块每日发帖之星
日期:2016-05-21 06:20:00综合交流区版块每日发帖之星
日期:2016-08-16 06:20:002015七夕节徽章
日期:2015-08-21 11:06:17IT运维版块每日发帖之星
日期:2015-08-14 06:20:00
8 [报告]
发表于 2010-06-12 16:39 |只看该作者
楼主time测试一下结果让我们看看吧。

awk -F "" 'NF!=10' file

论坛徽章:
0
9 [报告]
发表于 2010-06-12 16:54 |只看该作者
本帖最后由 草肃威 于 2010-06-12 17:25 编辑

先贴一个

wc -l stable.list
373366832 stable.list

time  awk 'length($0)!=10' file> file.bad

real    4m5.810s
user    3m59.703s
sys     0m3.890s
=========================
time egrep -v "^.{10}$" stable.list > list.bad

real    7m0.360s
user    6m52.589s
sys     0m2.646s
=========================
time perl -lne 'print if length != 10' stable.list > list.bad

real    1m59.953s
user    1m54.059s
sys     0m3.633s

论坛徽章:
0
10 [报告]
发表于 2010-06-12 16:56 |只看该作者
怎么写运行的时间呢?有环境变量吗?
例如set -o vi这样的?
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP