免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 3685 | 回复: 15
打印 上一主题 下一主题

大文件,如何找出不连续数值,谢谢 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2008-06-02 17:02 |只看该作者 |倒序浏览
比如一个文件有以下数据:
48725
48726
48727
48728
48730
48731
48732
48733
48734

可以看出这个序列值中少了 48729 这个数据,如果一个文件中的数据有几千条甚至几万条,请问有什么简洁且比较有效率的办法把缺少的序列值找出来。
谢谢!!!!

论坛徽章:
5
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:50:282015年亚洲杯之朝鲜
日期:2015-03-13 22:47:33IT运维版块每日发帖之星
日期:2016-01-09 06:20:00IT运维版块每周发帖之星
日期:2016-03-07 16:27:44
2 [报告]
发表于 2008-06-02 17:24 |只看该作者
try:
  1.   awk '{a[NR]=$0; if( NR != 1 && a[NR] != a[NR-1]+1) for (b=a[NR-1]+1;b<a[NR];b++) print b}' urfile
复制代码

[ 本帖最后由 blackold 于 2008-6-2 17:35 编辑 ]

论坛徽章:
0
3 [报告]
发表于 2008-06-02 17:40 |只看该作者

回复 #2 blackold 的帖子

谢谢 blackold    (黑哥) !!!!

论坛徽章:
0
4 [报告]
发表于 2008-06-02 17:44 |只看该作者
n=0表示你的检查范围最小值是0,即从0开始检查其是否丢失
  1. awk -vn=0 '{for(i=n;i<$1;i++)print i; n=$1+1}' data
复制代码

[ 本帖最后由 seeLnd 于 2008-6-2 17:56 编辑 ]

论坛徽章:
5
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:50:282015年亚洲杯之朝鲜
日期:2015-03-13 22:47:33IT运维版块每日发帖之星
日期:2016-01-09 06:20:00IT运维版块每周发帖之星
日期:2016-03-07 16:27:44
5 [报告]
发表于 2008-06-02 17:51 |只看该作者

回复 #4 seeLnd 的帖子

Great job!

论坛徽章:
5
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:50:282015年亚洲杯之朝鲜
日期:2015-03-13 22:47:33IT运维版块每日发帖之星
日期:2016-01-09 06:20:00IT运维版块每周发帖之星
日期:2016-03-07 16:27:44
6 [报告]
发表于 2008-06-02 18:03 |只看该作者

回复 #3 寄语星空 的帖子

You're welcome!
seeLnd's method is better! Learn from seeLnd.

[ 本帖最后由 blackold 于 2008-6-2 18:08 编辑 ]

论坛徽章:
0
7 [报告]
发表于 2008-06-02 18:14 |只看该作者

回复 #6 blackold 的帖子

谢谢 blackold,你的方法也不错的,大家互相学习, 进步

论坛徽章:
0
8 [报告]
发表于 2008-06-02 19:02 |只看该作者
谢谢大家
我自己试着写了一个,中间少2个连续的序列值也可以找出来了。

#/bin/sh
cd /hbori/551/ngn/ss1/200805/
ls | grep ^S | awk '{print substr($1,1,1" " substr($1,19,5) " "substr($1,24,5)}' | sort -k2 > file_name
min=`cat /hbiba3/profile1/sanada/file_name | awk '{print $2}' | head -1`
i=$min
max=`cat /hbiba3/profile1/sanada/file_name | awk '{print $2}' | tail -1`
while [ "$i" -lt "$max" ]
do
  i=`expr $i + 1`   
  tag=`cat file_name | awk -v tmp=$i '($2 == tmp) {print $0}' | wc -l `
    if [ "$tag" -eq 0 ]
      then  
        echo "缺少的序列号i" >>/hbiba3/profile1/sanada/lost_file
    fi
done


文件名是:SS155120080529140052036.bat 这样的。

论坛徽章:
0
9 [报告]
发表于 2008-06-03 10:29 |只看该作者
  1. awk 'NR>1{if($0!=a+1)print a+1}{a=$0}' filename
复制代码

论坛徽章:
33
ChinaUnix元老
日期:2015-02-02 08:55:39CU十四周年纪念徽章
日期:2019-08-20 08:30:3720周年集字徽章-周	
日期:2020-10-28 14:13:3020周年集字徽章-20	
日期:2020-10-28 14:04:3019周年集字徽章-CU
日期:2019-09-08 23:26:2519周年集字徽章-19
日期:2019-08-27 13:31:262016科比退役纪念章
日期:2022-04-24 14:33:24
10 [报告]
发表于 2008-06-05 19:03 |只看该作者

回复 #8 寄语星空 的帖子

2楼的一行代码就行了,不用写这么长吧?
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP