免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 1584 | 回复: 4
打印 上一主题 下一主题

[文本处理] 根据第一列重复选择行 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2015-09-15 15:07 |只看该作者 |倒序浏览
文件123.txt 格式如下:
#CHROM        POS        ID        REF        ALT        QUAL
1        130        .        T        C        31.4
1        145        .        C        T        3.52
1        155        .        T        C        3.22
1        159        .        C        T        3.22
1        176        .        G        A        7.37
2        186        .        C        T        39
2        208        .        T        C        4.64
2        1067        .        G        A        36.9
2        1120        .        G        A        10.2
2        1130        .        C        T        11.3
3        1132        .        T        C        10.3
3        1148        .        T        C        10.9
3        1150        .        T        C        20.7
3        1178        .        G        C        68.4
3        1179        .        G        A        77.3
4        1292        .        A        T        26
4        1298        .        C        A        25
4        1395        .        T        C        38.6
4        1399        .        T        C        10.5
4        1395        .        T        C        38.6
。。。
根据第一列重复的,随机选取3行,如第一列是1的有5行,随机取3行;第一行是2的也是这样。
得到的文件456.txt 可能是这样的
#CHROM        POS        ID        REF        ALT        QUAL
1        130        .        T        C        31.4
1        145        .        C        T        3.52
1        155        .        T        C        3.22
2        186        .        C        T        39
2        208        .        T        C        4.64
2        1130        .        C        T        11.3
3        1132        .        T        C        10.3
3        1148        .        T        C        10.9
3        1150        .        T        C        20.7
4        1292        .        A        T        26
4        1399        .        T        C        10.5
4        1395        .        T        C        38.6
请大家指点?谢谢!

论坛徽章:
95
程序设计版块每日发帖之星
日期:2015-09-05 06:20:00程序设计版块每日发帖之星
日期:2015-09-17 06:20:00程序设计版块每日发帖之星
日期:2015-09-18 06:20:002015亚冠之阿尔艾因
日期:2015-09-18 10:35:08月度论坛发贴之星
日期:2015-09-30 22:25:002015亚冠之阿尔沙巴布
日期:2015-10-03 08:57:39程序设计版块每日发帖之星
日期:2015-10-05 06:20:00每日论坛发贴之星
日期:2015-10-05 06:20:002015年亚冠纪念徽章
日期:2015-10-06 10:06:482015亚冠之塔什干棉农
日期:2015-10-19 19:43:35程序设计版块每日发帖之星
日期:2015-10-21 06:20:00每日论坛发贴之星
日期:2015-09-14 06:20:00
2 [报告]
发表于 2015-09-15 15:28 |只看该作者
回复 1# 紫风8824


    awk:

NR > 1 {
    if ($1 != last_one) {
        last_one = $1
        cnt = 1
        print
    } else if (cnt < 3) {
        cnt++
        print
    }
}

论坛徽章:
23
15-16赛季CBA联赛之吉林
日期:2017-12-21 16:39:27白羊座
日期:2014-10-27 11:14:37申猴
日期:2014-10-23 08:36:23金牛座
日期:2014-09-30 08:26:49午马
日期:2014-09-29 09:40:16射手座
日期:2014-11-25 08:56:112015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:49:0315-16赛季CBA联赛之山东
日期:2017-12-21 16:39:1915-16赛季CBA联赛之广东
日期:2016-01-19 13:33:372015亚冠之山东鲁能
日期:2015-10-13 09:39:062015亚冠之西悉尼流浪者
日期:2015-09-21 08:27:57
3 [报告]
发表于 2015-09-15 15:32 |只看该作者
回复 1# 紫风8824
  1. awk 'a[$1]++<3' 123.txt > 456.txt
复制代码

论坛徽章:
7
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:57:092015小元宵徽章
日期:2015-03-06 15:58:18程序设计版块每日发帖之星
日期:2015-08-09 06:20:00每日论坛发贴之星
日期:2015-08-09 06:20:00程序设计版块每日发帖之星
日期:2015-08-22 06:20:00程序设计版块每日发帖之星
日期:2015-08-27 06:20:00
4 [报告]
发表于 2015-09-15 16:26 |只看该作者
awk '{a[$1]++}(a[$1]<=3)' test.dat

论坛徽章:
11
射手座
日期:2015-08-11 16:10:26辰龙
日期:2015-08-11 16:11:11黑曼巴
日期:2016-04-26 16:58:40
5 [报告]
发表于 2015-09-15 16:27 |只看该作者
你们都不随机
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP