免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
123下一页
最近访问板块 发新帖
查看: 5225 | 回复: 20
打印 上一主题 下一主题

[文本处理] 纠结了好久,求大神 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2014-01-15 12:38 |只看该作者 |倒序浏览
神魔        S125
神魔        S123
神魔        S109
神魔        S108
神魔        S107
神魔        S106
御剑        S125
御剑        S123
御剑        S109
御剑        S108
御剑        S107
御剑        S106

结果如下:
神魔:S106-109,s123,s125
御剑: s106-109,s123,s125

就是第一列相同的只显示一次,第二列如果数字连续就总在一起,单独就隔开。

论坛徽章:
14
15-16赛季CBA联赛之辽宁
日期:2019-06-16 15:47:3515-16赛季CBA联赛之广夏
日期:2016-08-13 21:24:352015亚冠之武里南联
日期:2015-07-07 17:37:372015亚冠之萨济拖拉机
日期:2015-07-06 17:07:482015亚冠之全北现代
日期:2015-06-04 13:54:272015亚冠之城南
日期:2015-05-21 15:43:212015年亚洲杯之伊朗
日期:2015-04-25 18:20:362015年亚洲杯之伊朗
日期:2015-04-20 16:06:052015年亚洲杯之科威特
日期:2015-03-07 12:51:26丑牛
日期:2014-12-30 10:26:38申猴
日期:2014-09-28 22:40:18金牛座
日期:2014-09-13 21:12:22
2 [报告]
发表于 2014-01-15 13:28 |只看该作者
本帖最后由 reb00t 于 2014-01-18 23:01 编辑
  1. sort  -tS -k1,1 -k2,2n    123.txt | awk  -F "S"  -f 1.sh
  2. 御剑            S106-109,S123,S125
  3. 暗黑西游                S2,S9-10,S14-15
  4. 神魔            S106-109,S123,S125-126

  5. cat  1.sh
  6. #!/bin/awk

  7. {
  8.     if ($1==p1) {
  9.         if ($2==p2+1)
  10.             s=s"-"$2;
  11.         else
  12.             s=s",S"$2;
  13.     } else {
  14.         if (NR>1) {
  15.             gsub(/-[^,]*-/,"-",s);
  16.             print s;
  17.         }
  18.         s=$1"\tS"$2;
  19.     }
  20.     p1=$1;
  21.     p2=$2;
  22. }
  23. END {
  24.     gsub(/-[^,]*-/,"-",s);
  25.     print s;
  26. }
复制代码

论坛徽章:
0
3 [报告]
发表于 2014-01-15 13:57 |只看该作者
本帖最后由 dandy1992 于 2014-01-15 16:58 编辑
  1. sort -t'S' -k2n,1  res.txt  | awk -F'S' '{
  2. >                 if(arr[$1]){
  3. >                 brr[$1]=(crr[$1]==($2-1)?brr[$1]"-"$2:brr[$1]",S"$2);
  4. >                 crr[$1]=$2;
  5. >                 }
  6. >                 else {
  7. >                      arr[$1]=$1;crr[$1]=$2;brr[$1]=$2;
  8. >                     }
  9. >                 }
  10. >                 END{
  11. >                 for(i in arr){gsub(/-[^,]+-/,"-",brr[i]);print arr[i],"S"brr[i]}
  12. >                 }'
  13. 神魔         S12-13,S106-109,S123,S125
  14. 御剑         S106-109,S123,S125
  15. [libenwang@96333 ~]$
  16. [libenwang@96333 ~]$ cat res.txt
  17. 神魔        S125
  18. 神魔        S123
  19. 神魔        S109
  20. 神魔        S108
  21. 神魔        S107
  22. 神魔        S106
  23. 神魔        S12
  24. 神魔        S13
  25. 御剑        S125
  26. 御剑        S123
  27. 御剑        S109
  28. 御剑        S108
  29. 御剑        S107
  30. 御剑        S106
复制代码
已修改,谢谢各位的建议

论坛徽章:
32
处女座
日期:2013-11-20 23:41:20双子座
日期:2014-06-11 17:20:43戌狗
日期:2014-06-16 11:05:00处女座
日期:2014-07-22 17:30:47狮子座
日期:2014-07-28 15:38:17金牛座
日期:2014-08-05 16:34:01亥猪
日期:2014-08-18 13:34:25白羊座
日期:2014-09-02 15:03:55金牛座
日期:2014-11-10 10:23:58处女座
日期:2014-12-02 09:17:52程序设计版块每日发帖之星
日期:2015-06-16 22:20:002015亚冠之塔什干火车头
日期:2015-06-20 23:28:22
4 [报告]
发表于 2014-01-15 14:05 |只看该作者
回复 3# dandy1992
加一句
神魔        S12
试一下
   

论坛徽章:
36
摩羯座
日期:2013-09-23 16:37:312015年亚洲杯之沙特阿拉伯
日期:2015-04-14 09:10:172015亚冠之柏太阳神
日期:2015-06-25 08:48:212015亚冠之武里南联
日期:2015-07-28 09:01:082015亚冠之莱赫维亚
日期:2015-07-28 15:44:172015亚冠之柏斯波利斯
日期:2015-09-06 14:08:52白银圣斗士
日期:2015-11-25 17:06:2815-16赛季CBA联赛之吉林
日期:2015-12-09 16:59:072016猴年福章徽章
日期:2016-02-18 15:30:3415-16赛季CBA联赛之辽宁
日期:2016-04-14 09:29:04luobin
日期:2016-06-17 17:46:3615-16赛季CBA联赛之天津
日期:2016-08-16 14:11:01
5 [报告]
发表于 2014-01-15 14:09 |只看该作者
  1. awk -F "S" '{a[$1]=a[$1]?$2+1==b?a[$1]"-s"$2:a[$1]",""s"$2:"s"$2;b=$2}END{for(i in a) {sub(/-.*-/,"-",a[i]);print i,a[i]}}'
复制代码

论坛徽章:
0
6 [报告]
发表于 2014-01-15 14:09 |只看该作者
@dandy1992

验证不行

论坛徽章:
0
7 [报告]
发表于 2014-01-15 14:33 |只看该作者
#!/bin/bash
sort -k2.2n,2 awk029.txt |
awk -F'S' '
{
  if(a[$1] == "")
  {
    a[$1]="S"$2;
    lastNum=$2;
    next;
  }
  if (lastNum + 1 == $2)
  {
    lastNum=$2;
    next;
  }
  else
  {
    if (a[$1] !~ lastNum) {
      a[$1] = a[$1]"-"lastNum",S"$2;
    } else {
      a[$1] = a[$1]",S"$2;
    }
    lastNum=$2;
  }
}
END {
  for(i in a)
  {
    print i, a[i]
  }
}
'

复杂了点。

论坛徽章:
0
8 [报告]
发表于 2014-01-15 14:35 |只看该作者
@LikeLx 这样不行

暗黑西游        S15
暗黑西游        S14
暗黑西游        S10
暗黑西游        S9
暗黑西游        S2

暗黑西游         s15-s9,s2  结果是s11 s12 s13 没有,也包含在里面了。

论坛徽章:
6
处女座
日期:2014-04-02 16:07:17酉鸡
日期:2014-04-14 10:09:22子鼠
日期:2014-04-17 11:57:30辰龙
日期:2014-09-01 17:14:08戌狗
日期:2014-10-28 12:25:54未羊
日期:2014-11-14 11:31:58
9 [报告]
发表于 2014-01-15 14:45 |只看该作者
本帖最后由 rulebook 于 2014-01-15 15:17 编辑
  1. sort -k2 pp | awk '{gsub("S","",$2);if(c[$1]==$2-1){a[$1]=a[$1]"-"$2}else{a[$1]=a[$1]?a[$1]",S"$2:$1":S"$2};c[$1]=$2}END{for(i in a){gsub(/-[^,]*-/,"-",a[i]);print a[i]}}'
复制代码

论坛徽章:
0
10 [报告]
发表于 2014-01-15 14:54 |只看该作者
#!/usr/bin/env python
# -*- coding: utf-8 -*-
#  tanyewei@gmail.com
#  2014/01/15 14:15
a = '''神魔        S125
神魔        S123
神魔        S109
神魔        S108
神魔        S10
神魔        S12
神魔        S13
神魔        S14
神魔        S107
神魔        S106
御剑        S125
御剑        S123
御剑        S109
御剑        S108
御剑        S107
御剑        S106
'''
import sys
d = {}

for line in a.splitlines():
    _line = line.split()
    d.setdefault(_line[0], []).append(_line[1])
from itertools import *
from operator import itemgetter

for key in d.keys():
    data = sorted(map(lambda x: int(x[1:]), d[key]))
    sys.stdout.write(key + " ")
    for k, g in groupby(enumerate(data), lambda (i, x): i - x):
        ret = map(itemgetter(1), g)
        if len(ret) > 1:
            sys.stdout.write("S%d-%d," % (ret[0], ret[-1]))
        elif len(ret) == 1:
            sys.stdout.write('S' + str(ret[0]) + ",")
    print '\n'
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP