免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 2721 | 回复: 14
打印 上一主题 下一主题

[文本处理] 大佬们,小弟求助,进来看看吧 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2017-10-08 22:33 |只看该作者 |倒序浏览
我要处理一个文件,文件内容如下:
人员,公司,公积金缴纳月份
AAAA,XX公司,2011-01-01
AAAA,XX公司,2011-02-01
AAAA,XX公司,2011-03-01
AAAA,YY公司,2011-04-01
AAAA,YY公司,2011-05-01
AAAA,YY公司,2011-06-01
AAAA,YY公司,2011-07-01
BBBB,XX公司,2012-01-01
BBBB,XX公司,2012-02-01
BBBB,XX公司,2012-03-01
AAAA,XX公司,2011-08-01
AAAA,XX公司,2011-09-01
AAAA,XX公司,2011-10-01

我想得到每个人在每个公司的起始和终止日期,得到如下的结果
AAAA,XX公司,2011-01-01,2011-03-01
AAAA,YY公司,2011-04-01,2011-07-01
BBBB,XX公司,2012-01-01,2012-03-01
AAAA,XX公司,2011-08-01,2011-10-01

注意:同一个人在同一个公司可能出现多个阶段,但是我想要的结果是不要合并成一个,而是取各阶段起始和终止日期。
能用awk实现最好,小弟先谢谢各位大佬了。

论坛徽章:
145
技术图书徽章
日期:2013-10-01 15:32:13戌狗
日期:2013-10-25 13:31:35金牛座
日期:2013-11-04 16:22:07子鼠
日期:2013-11-18 18:48:57白羊座
日期:2013-11-29 10:09:11狮子座
日期:2013-12-12 09:57:42白羊座
日期:2013-12-24 16:24:46辰龙
日期:2014-01-08 15:26:12技术图书徽章
日期:2014-01-17 13:24:40巳蛇
日期:2014-02-18 14:32:59未羊
日期:2014-02-20 14:12:13白羊座
日期:2014-02-26 12:06:59
2 [报告]
发表于 2017-10-09 00:36 |只看该作者
回复 1# gobuhei

$ awk -F',' 'NR>1&&NF{if($1 $2!=p c){OFS=FS;if(p)print p,c,s,$3;p=$1;c=$2;s=$3}}END{print p,c,s,$3}' FILE
AAAA,XX公司,2011-01-01,2011-04-01
AAAA,YY公司,2011-04-01,2012-01-01
BBBB,XX公司,2012-01-01,2011-08-01
AAAA,XX公司,2011-08-01,2011-10-01

论坛徽章:
0
3 [报告]
发表于 2017-10-09 12:10 |只看该作者
本帖最后由 gobuhei 于 2017-10-09 12:41 编辑

回复 2# jason680

感谢回复,不过结果不对

微信图片_20171009120751.jpg (336.97 KB, 下载次数: 26)

微信图片_20171009120751.jpg

论坛徽章:
0
4 [报告]
发表于 2017-10-09 13:23 |只看该作者
本帖最后由 gobuhei 于 2017-10-09 13:39 编辑

回复 2# jason680

我去掉文件第一行,用下面命令搞定了。
awk -F ',' 'NR==1{row=$0;a=$1$2;next}$1$2==a{b=$3;next}{print row","b;row=$0;a=$1$2;b=$3}END{print row","b}' file

非常感谢您的回复。


论坛徽章:
0
5 [报告]
发表于 2017-10-09 13:24 |只看该作者
本帖最后由 gobuhei 于 2017-10-09 13:40 编辑

回复 2# jason680

我去掉文件第一行,用下面命令搞定了
awk -F ',' 'NR==1{row=$0;a=$1$2;next}$1$2==a{b=$3;next}{print row","b;row=$0;a=$1$2;b=$3}END{print row","b}' file

非常感谢您的回复。

论坛徽章:
25
程序设计版块每日发帖之星
日期:2016-05-03 06:20:0015-16赛季CBA联赛之八一
日期:2018-07-05 10:34:09黑曼巴
日期:2018-07-06 15:19:5015-16赛季CBA联赛之佛山
日期:2018-08-03 13:19:3315-16赛季CBA联赛之山西
日期:2018-08-07 19:46:2315-16赛季CBA联赛之广夏
日期:2018-08-08 19:31:5015-16赛季CBA联赛之青岛
日期:2018-11-26 15:21:5015-16赛季CBA联赛之上海
日期:2018-12-11 09:45:3219周年集字徽章-年
日期:2020-04-18 23:54:5215-16赛季CBA联赛之深圳
日期:2020-04-19 21:40:19黑曼巴
日期:2022-04-03 17:55:1315-16赛季CBA联赛之八一
日期:2018-07-03 16:56:46
6 [报告]
发表于 2017-10-12 11:50 |只看该作者
gobuhei 发表于 2017-10-09 12:10
回复 2# jason680

感谢回复,不过结果不对


结果不对是因为你的文件格式是dos格式,转换成unix格式就对了。

论坛徽章:
0
7 [报告]
发表于 2017-10-12 12:00 |只看该作者
回复 6# wh7211

受教了,谢谢。

论坛徽章:
0
8 [报告]
发表于 2017-10-12 12:16 |只看该作者
本帖最后由 gobuhei 于 2017-10-12 12:18 编辑

回复 2# jason680

awk -F',' 'NR>1&&NF{if($1 $2!=p c){OFS=FS;if(p)print p,c,s,$3;p=$1;c=$2;s=$3}}END{print p,c,s,$3}' FILE

这里每次都把下一条数据的最小日期当做上一条数据的最大日期了。


测试数据:

AAAA,XX公司,2011-01-01
AAAA,XX公司,2011-02-01
AAAA,XX公司,2011-03-01
AAAA,YY公司,2011-04-01


输出:

AAAA,XX公司,2011-01-01,2011-04-01

论坛徽章:
145
技术图书徽章
日期:2013-10-01 15:32:13戌狗
日期:2013-10-25 13:31:35金牛座
日期:2013-11-04 16:22:07子鼠
日期:2013-11-18 18:48:57白羊座
日期:2013-11-29 10:09:11狮子座
日期:2013-12-12 09:57:42白羊座
日期:2013-12-24 16:24:46辰龙
日期:2014-01-08 15:26:12技术图书徽章
日期:2014-01-17 13:24:40巳蛇
日期:2014-02-18 14:32:59未羊
日期:2014-02-20 14:12:13白羊座
日期:2014-02-26 12:06:59
9 [报告]
发表于 2017-10-12 14:39 |只看该作者
回复 8# gobuhei


小脚本,搞定就好...

要不再来个
p for 人员
c for 公司
s for start
e for end

if(p)print p,c,s,e

论坛徽章:
0
10 [报告]
发表于 2017-10-12 14:45 |只看该作者
回复 9# jason680

学习了,论坛里都是高手,不断学习中。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP