免费注册 查看新帖 |

Chinaunix

广告
  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: 草肃威
打印 上一主题 下一主题

4亿行数据,挑出长度不合要求的行 [复制链接]

论坛徽章:
23
15-16赛季CBA联赛之吉林
日期:2017-12-21 16:39:27白羊座
日期:2014-10-27 11:14:37申猴
日期:2014-10-23 08:36:23金牛座
日期:2014-09-30 08:26:49午马
日期:2014-09-29 09:40:16射手座
日期:2014-11-25 08:56:112015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:49:0315-16赛季CBA联赛之山东
日期:2017-12-21 16:39:1915-16赛季CBA联赛之广东
日期:2016-01-19 13:33:372015亚冠之山东鲁能
日期:2015-10-13 09:39:062015亚冠之西悉尼流浪者
日期:2015-09-21 08:27:57
31 [报告]
发表于 2010-06-13 10:16 |只看该作者
只是查找没有编辑的问题应该是grep最快

论坛徽章:
16
IT运维版块每日发帖之星
日期:2015-08-24 06:20:00综合交流区版块每日发帖之星
日期:2015-10-14 06:20:00IT运维版块每日发帖之星
日期:2015-10-25 06:20:00IT运维版块每日发帖之星
日期:2015-11-06 06:20:00IT运维版块每日发帖之星
日期:2015-12-10 06:20:00平安夜徽章
日期:2015-12-26 00:06:302016猴年福章徽章
日期:2016-02-18 15:30:34IT运维版块每日发帖之星
日期:2016-04-15 06:20:00IT运维版块每日发帖之星
日期:2016-05-21 06:20:00综合交流区版块每日发帖之星
日期:2016-08-16 06:20:002015七夕节徽章
日期:2015-08-21 11:06:17IT运维版块每日发帖之星
日期:2015-08-14 06:20:00
32 [报告]
发表于 2010-06-13 10:23 |只看该作者
hehe,有意思啊。

论坛徽章:
7
荣誉版主
日期:2011-11-23 16:44:17子鼠
日期:2014-07-24 15:38:07狮子座
日期:2014-07-24 11:00:54巨蟹座
日期:2014-07-21 19:03:10双子座
日期:2014-05-22 12:00:09卯兔
日期:2014-05-08 19:43:17卯兔
日期:2014-08-22 13:39:09
33 [报告]
发表于 2010-06-13 13:03 |只看该作者
大文件的测试会受到磁盘cache的影响,一般情况后运行的占一些便宜。

论坛徽章:
0
34 [报告]
发表于 2010-06-13 13:09 |只看该作者
聪明啊!

论坛徽章:
0
35 [报告]
发表于 2010-06-13 13:37 |只看该作者
gawk 'length($0)<10 {print NR,$0}' file

论坛徽章:
0
36 [报告]
发表于 2010-06-13 14:16 |只看该作者
回复 1# 草肃威


    如果使用C语言 ssccanf 会不会更快些?

论坛徽章:
0
37 [报告]
发表于 2010-06-13 14:26 |只看该作者
大文件的测试会受到磁盘cache的影响,一般情况后运行的占一些便宜。
r2007 发表于 2010-06-13 13:03



   

  这位仁兄提醒的对, 4亿行的数据量, 15,000转/7,500转的响应时间绝对是有差距的. 包括CPU指标.

  当然,您要是在超级计算机上跑, 效率会更佳.

  新手不才, 还请指教.

论坛徽章:
0
38 [报告]
发表于 2010-06-13 15:57 |只看该作者
回复 36# juyi


    这个显然会快很多很多.

论坛徽章:
0
39 [报告]
发表于 2010-06-17 13:58 |只看该作者
有一个文本文件,大约是4亿行,每行都是
aaaaaaaaaa
bbbbbbbbbb
这样的10个字符,
但是其中有很少的不是10 ...
草肃威 发表于 2010-06-12 16:17



    grep '[a-z]\{10\}' file

论坛徽章:
0
40 [报告]
发表于 2010-06-17 20:52 |只看该作者
回复 33# r2007


    那每测一次运行一下
  1. #sysctl -w vm.drop_caches=3
复制代码

    这个就不会受到前面的影响了。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP