免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 2280 | 回复: 7
打印 上一主题 下一主题

[文本处理] 求助:大型数据统计重复次数 [复制链接]

论坛徽章:
1
2015年辞旧岁徽章
日期:2015-03-03 16:54:15
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2013-01-07 11:55 |只看该作者 |倒序浏览
本帖最后由 hkldd 于 2013-01-07 11:57 编辑

      工作中需要将系统导出的数据进行处理,每次大约有3千万行左右的文本数据,其中很多数据是重
复出现的,现需累计重复次数后制表,以下是样本及期望获得的结果,诚请各位大侠帮助。谢谢!

系统导出的数据:

  序号          识别编码         call(次)       基站
00000001    11 23 55 73 89 82     1       sp0001
00000002    13 33 58 73 82 89     1       sp0001
00000003    13 33 58 73 82 89     1       sp0001
00000004    13 33 58 73 82 89     1       sp0001
00000005    15 36 68 79 85 99     1       sp0001
00000006    01 12 23 24 55 68     1       sp0001
00000007    03 05 11 23 45 89     1       sp0001
00000008    11 23 55 73 89 82     1       sp0001
00000009    15 36 68 79 85 99     1       sp0001
00000010    15 36 68 79 85 99     1       sp0001
00000011    07 10 11 17 56 89     1       sp0001
00000012    11 23 55 73 89 82     1       sp0001
00000013    15 36 68 79 85 99     1       sp0001
00000014    16 19 28 35 65 79     1       sp0001
00000015    15 36 68 79 85 99     1       sp0001
00000016    11 23 55 73 89 82     1       sp0001
00000017    16 19 28 35 65 79     1       sp0001
00000018    11 23 55 73 89 82     1       sp0001
00000019    32 55 67 68 78 79     1       sp0001
00000020    32 55 67 68 78 79     1       sp0001
00000021    22 25 27 36 49 78     1       sp0001
00000022    22 25 27 36 49 78     1       sp0001
00000023    22 25 27 36 49 78     1       sp0001
00000024    22 25 27 36 49 78     1       sp0001
  ·
  ·
  ·
  ·

期望得到的运行结果:(累计次数排序)

序号       识别编码      call(次)
1    11 23 55 73 89 82     5
2    15 36 68 79 85 99     5
3    22 25 27 36 49 78     4
4    13 33 58 73 82 89     3
5    16 19 28 35 65 79     2
6    32 55 67 68 78 79     2
7    01 12 23 24 55 68     1
8    03 05 11 23 45 89     1
9    07 10 11 17 56 89     1

论坛徽章:
32
处女座
日期:2013-11-20 23:41:20双子座
日期:2014-06-11 17:20:43戌狗
日期:2014-06-16 11:05:00处女座
日期:2014-07-22 17:30:47狮子座
日期:2014-07-28 15:38:17金牛座
日期:2014-08-05 16:34:01亥猪
日期:2014-08-18 13:34:25白羊座
日期:2014-09-02 15:03:55金牛座
日期:2014-11-10 10:23:58处女座
日期:2014-12-02 09:17:52程序设计版块每日发帖之星
日期:2015-06-16 22:20:002015亚冠之塔什干火车头
日期:2015-06-20 23:28:22
2 [报告]
发表于 2013-01-07 12:30 |只看该作者
  1. awk -F "  +" -vOFS="\t" 'BEGIN{print "序号","识别编码","call(次)"}NR>1{a[$2]++}END{for(i in a)print ++j,i,a[i]}'
复制代码

论坛徽章:
8
摩羯座
日期:2014-11-26 18:59:452015亚冠之浦和红钻
日期:2015-06-23 19:10:532015亚冠之西悉尼流浪者
日期:2015-08-21 08:40:5815-16赛季CBA联赛之山东
日期:2016-01-31 18:25:0515-16赛季CBA联赛之四川
日期:2016-02-16 16:08:30程序设计版块每日发帖之星
日期:2016-06-29 06:20:002017金鸡报晓
日期:2017-01-10 15:19:5615-16赛季CBA联赛之佛山
日期:2017-02-27 20:41:19
3 [报告]
发表于 2013-01-07 12:34 |只看该作者
回复 2# yestreenstars

忘记排序了
   

论坛徽章:
32
处女座
日期:2013-11-20 23:41:20双子座
日期:2014-06-11 17:20:43戌狗
日期:2014-06-16 11:05:00处女座
日期:2014-07-22 17:30:47狮子座
日期:2014-07-28 15:38:17金牛座
日期:2014-08-05 16:34:01亥猪
日期:2014-08-18 13:34:25白羊座
日期:2014-09-02 15:03:55金牛座
日期:2014-11-10 10:23:58处女座
日期:2014-12-02 09:17:52程序设计版块每日发帖之星
日期:2015-06-16 22:20:002015亚冠之塔什干火车头
日期:2015-06-20 23:28:22
4 [报告]
发表于 2013-01-07 13:12 |只看该作者
本帖最后由 yestreenstars 于 2013-01-07 13:13 编辑

回复 3# waker


    哦哦,看出来了,从次数多到小排序。

论坛徽章:
0
5 [报告]
发表于 2013-01-07 13:19 |只看该作者
回复 2# yestreenstars


    你好像把第一行丢了,呵呵

论坛徽章:
1
2015年辞旧岁徽章
日期:2015-03-03 16:54:15
6 [报告]
发表于 2013-01-07 13:45 |只看该作者
谢谢大侠们的回复!继续求助:由于不懂unix系统,不知3千多万行处理完大约需要多少时间?硬件配置有什么要求?普通pc可以运行吗?

附:如有整机装好unix系统,并且可处理该数据的,请站内短信方便采购。)谢谢!

论坛徽章:
0
7 [报告]
发表于 2013-01-07 13:48 |只看该作者
回复 2# yestreenstars

系统导出的数据:

  序号           识别编码                  call(次)       基站
00000001    11 23 55 73 89 82     1       sp0001
00000002    13 33 58 73 82 89     1       sp0001
00000003    13 33 58 73 82 89     1       sp0001
00000004    13 33 58 73 82 89     1       sp0001
00000005    15 36 68 79 85 99     1       sp0001
00000006    01 12 23 24 55 68     1       sp0001
00000007    03 05 11 23 45 89     1       sp0001
   

俺觉得, 这个要楼主确认一下, 是只需要按 "识别编码" ($2) 出现的次数来计数,  还是要根据 call次 ($3) 的值来求和

即:  a[$2]++
或:  a[$2]+=$3

论坛徽章:
1
2015年辞旧岁徽章
日期:2015-03-03 16:54:15
8 [报告]
发表于 2013-01-07 14:16 |只看该作者
呵呵!只需要按 "识别编码"  出现的次数来计数就行了,系统导出来的数据记录,就是每call 1次就记录1行,定时导出来进行统计分析与备份,刚开始数据量小是用excel统计,现在不行了,所以想换别的方式,特来求助!
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP