免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
123下一页
最近访问板块 发新帖
查看: 5711 | 回复: 22
打印 上一主题 下一主题

[文本处理] 求一个分组的shell脚本,高手进来帮个忙 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2014-01-15 14:38 |只看该作者 |倒序浏览
本帖最后由 fengfeng919 于 2014-01-15 15:08 编辑

源文件:
cap_friend_goods_20131011
cap_friend_goods_20141011
cap_friend_goods_20150211
cap_friend_goods_20150911
cap_friend_goods_20151012
cap_friend_goods_20161111
cap_trade_ask_syn_20130119
cap_trade_ask_syn_20140120
cap_trade_ask_syn_20150919
cap_goods_20130429
cap_goods_20141229
cap_goods_20141108
cap_goods_20150814
cap_log_goods_20121011
cap_log_goods_20121108
cap_log_goods_20131011
cap_log_goods_20141207
cap_log_goods_20141012
cap_log_goods_20151011

脚本处理后结果:
cap_friend_goods_20131011
cap_friend_goods_20161111
----------------
cap_trade_ask_syn_20130119
cap_trade_ask_syn_20150919
----------------
cap_goods_20130429
cap_goods_20150814
----------------
cap_log_goods_20121011
cap_log_goods_20151011

要求:想得到按照日期前面的前缀分组,然后取得每组里面最早时间和最晚时间的两条,这个脚本应用怎么写?

论坛徽章:
0
2 [报告]
发表于 2014-01-15 14:38 |只看该作者
自己先顶一下,,,

论坛徽章:
32
处女座
日期:2013-11-20 23:41:20双子座
日期:2014-06-11 17:20:43戌狗
日期:2014-06-16 11:05:00处女座
日期:2014-07-22 17:30:47狮子座
日期:2014-07-28 15:38:17金牛座
日期:2014-08-05 16:34:01亥猪
日期:2014-08-18 13:34:25白羊座
日期:2014-09-02 15:03:55金牛座
日期:2014-11-10 10:23:58处女座
日期:2014-12-02 09:17:52程序设计版块每日发帖之星
日期:2015-06-16 22:20:002015亚冠之塔什干火车头
日期:2015-06-20 23:28:22
3 [报告]
发表于 2014-01-15 15:00 |只看该作者
cap_log_goods_20121011
cap_log_goods_20120908
cap_log_goods_20131011
cap_log_goods_20141207
cap_log_goods_20141012
cap_log_goods_20151011

上面最小的是cap_log_goods_20120908,为什么下面却是cap_log_goods_20121011?
cap_log_goods_20121011
cap_log_goods_20151011

论坛徽章:
0
4 [报告]
发表于 2014-01-15 15:09 |只看该作者
抱歉,因为为了好理解,我手动编辑的时候写出入了,我改过来了,有脚本可以做到吗,谢谢。回复 3# yestreenstars


   

论坛徽章:
23
15-16赛季CBA联赛之吉林
日期:2017-12-21 16:39:27白羊座
日期:2014-10-27 11:14:37申猴
日期:2014-10-23 08:36:23金牛座
日期:2014-09-30 08:26:49午马
日期:2014-09-29 09:40:16射手座
日期:2014-11-25 08:56:112015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:49:0315-16赛季CBA联赛之山东
日期:2017-12-21 16:39:1915-16赛季CBA联赛之广东
日期:2016-01-19 13:33:372015亚冠之山东鲁能
日期:2015-10-13 09:39:062015亚冠之西悉尼流浪者
日期:2015-09-21 08:27:57
5 [报告]
发表于 2014-01-15 15:11 |只看该作者
回复 1# fengfeng919


try:
  1. awk -F _ '{v=$0;NF--;if(!a[$0]++){print s"\n----------------\n"v}}{s=v}END{print s}' file
复制代码

论坛徽章:
32
处女座
日期:2013-11-20 23:41:20双子座
日期:2014-06-11 17:20:43戌狗
日期:2014-06-16 11:05:00处女座
日期:2014-07-22 17:30:47狮子座
日期:2014-07-28 15:38:17金牛座
日期:2014-08-05 16:34:01亥猪
日期:2014-08-18 13:34:25白羊座
日期:2014-09-02 15:03:55金牛座
日期:2014-11-10 10:23:58处女座
日期:2014-12-02 09:17:52程序设计版块每日发帖之星
日期:2015-06-16 22:20:002015亚冠之塔什干火车头
日期:2015-06-20 23:28:22
6 [报告]
发表于 2014-01-15 15:21 |只看该作者
本帖最后由 yestreenstars 于 2014-01-15 15:23 编辑

如果对原始顺序无要求的话:
  1. $ sort i | awk -F_ '!b;{a=$0;NF--}b&&b!=$0{print c"\n----------------\n"a}{b=$0;c=a}END{print c}'
  2. cap_friend_goods_20131011
  3. cap_friend_goods_20161111
  4. ----------------
  5. cap_goods_20130429
  6. cap_goods_20150814
  7. ----------------
  8. cap_log_goods_20121011
  9. cap_log_goods_20151011
  10. ----------------
  11. cap_trade_ask_syn_20130119
  12. cap_trade_ask_syn_20150919
复制代码

论坛徽章:
32
处女座
日期:2013-11-20 23:41:20双子座
日期:2014-06-11 17:20:43戌狗
日期:2014-06-16 11:05:00处女座
日期:2014-07-22 17:30:47狮子座
日期:2014-07-28 15:38:17金牛座
日期:2014-08-05 16:34:01亥猪
日期:2014-08-18 13:34:25白羊座
日期:2014-09-02 15:03:55金牛座
日期:2014-11-10 10:23:58处女座
日期:2014-12-02 09:17:52程序设计版块每日发帖之星
日期:2015-06-16 22:20:002015亚冠之塔什干火车头
日期:2015-06-20 23:28:22
7 [报告]
发表于 2014-01-15 15:24 |只看该作者
你的数据是排好序的吗?注意高亮部分:
cap_friend_goods_20131011
cap_friend_goods_20141011
cap_friend_goods_20150211
cap_friend_goods_20150911
cap_friend_goods_20151012
cap_friend_goods_20161111
cap_trade_ask_syn_20130119
cap_trade_ask_syn_20140120
cap_trade_ask_syn_20150919
cap_goods_20130429
cap_goods_20141229
cap_goods_20141108

cap_goods_20150814
cap_log_goods_20121011
cap_log_goods_20121108
cap_log_goods_20131011
cap_log_goods_20141207
cap_log_goods_20141012
cap_log_goods_20151011

论坛徽章:
32
处女座
日期:2013-11-20 23:41:20双子座
日期:2014-06-11 17:20:43戌狗
日期:2014-06-16 11:05:00处女座
日期:2014-07-22 17:30:47狮子座
日期:2014-07-28 15:38:17金牛座
日期:2014-08-05 16:34:01亥猪
日期:2014-08-18 13:34:25白羊座
日期:2014-09-02 15:03:55金牛座
日期:2014-11-10 10:23:58处女座
日期:2014-12-02 09:17:52程序设计版块每日发帖之星
日期:2015-06-16 22:20:002015亚冠之塔什干火车头
日期:2015-06-20 23:28:22
8 [报告]
发表于 2014-01-15 15:25 |只看该作者
如果是已经排好序的,就直接用:
  1. awk -F_ '!b;{a=$0;NF--}b&&b!=$0{print c"\n----------------\n"a}{b=$0;c=a}END{print c}'
复制代码

论坛徽章:
23
15-16赛季CBA联赛之吉林
日期:2017-12-21 16:39:27白羊座
日期:2014-10-27 11:14:37申猴
日期:2014-10-23 08:36:23金牛座
日期:2014-09-30 08:26:49午马
日期:2014-09-29 09:40:16射手座
日期:2014-11-25 08:56:112015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:49:0315-16赛季CBA联赛之山东
日期:2017-12-21 16:39:1915-16赛季CBA联赛之广东
日期:2016-01-19 13:33:372015亚冠之山东鲁能
日期:2015-10-13 09:39:062015亚冠之西悉尼流浪者
日期:2015-09-21 08:27:57
9 [报告]
发表于 2014-01-15 16:49 |只看该作者
sed
  1. sed -r ':a;N;$!ba;s/([^\n]*)(_.{8})\n.*(\n\1_.{8})/----------------\n\1\2\3/g' file
复制代码

论坛徽章:
0
10 [报告]
发表于 2014-01-15 17:11 |只看该作者
回复 5# ly5066113

感谢tim大师,可以用,但是有个问题,例如有下面的情况:
cap_friend_goods_20131011
cap_friend_goods_20141011
cap_friend_goods_20150211
cap_friend_goods_20150911
cap_friend_goods_20151012
cap_friend_goods_history

然后就悲剧了,会把这个组的最后一个判断为history,这有点蛋疼,能改一下吗,其实我想要的是cap_friend_goods_20151012的?


   
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP