忘记密码   免费注册 查看新帖 | 论坛精华区

ChinaUnix.net

  平台 论坛 博客 认证专区 大话IT HPC论坛 徽章 文库 沙龙 自测 下载 频道自动化运维 虚拟化 储存备份 C/C++ PHP MySQL 嵌入式 Linux系统
12下一页
最近访问板块 发新帖
查看: 1196 | 回复: 14

[文本处理] 大佬们,小弟求助,进来看看吧 [复制链接]

论坛徽章:
0
发表于 2017-10-08 22:33 |显示全部楼层
我要处理一个文件,文件内容如下:
人员,公司,公积金缴纳月份
AAAA,XX公司,2011-01-01
AAAA,XX公司,2011-02-01
AAAA,XX公司,2011-03-01
AAAA,YY公司,2011-04-01
AAAA,YY公司,2011-05-01
AAAA,YY公司,2011-06-01
AAAA,YY公司,2011-07-01
BBBB,XX公司,2012-01-01
BBBB,XX公司,2012-02-01
BBBB,XX公司,2012-03-01
AAAA,XX公司,2011-08-01
AAAA,XX公司,2011-09-01
AAAA,XX公司,2011-10-01

我想得到每个人在每个公司的起始和终止日期,得到如下的结果
AAAA,XX公司,2011-01-01,2011-03-01
AAAA,YY公司,2011-04-01,2011-07-01
BBBB,XX公司,2012-01-01,2012-03-01
AAAA,XX公司,2011-08-01,2011-10-01

注意:同一个人在同一个公司可能出现多个阶段,但是我想要的结果是不要合并成一个,而是取各阶段起始和终止日期。
能用awk实现最好,小弟先谢谢各位大佬了。

论坛徽章:
121
技术图书徽章
日期:2013-10-01 15:32:13戌狗
日期:2013-10-25 13:31:35金牛座
日期:2013-11-04 16:22:07巳蛇
日期:2014-05-09 16:43:18巨蟹座
日期:2014-10-23 17:48:38子鼠
日期:2013-11-18 18:48:57白羊座
日期:2013-11-29 10:09:11狮子座
日期:2013-12-12 09:57:42白羊座
日期:2013-12-24 16:24:46辰龙
日期:2014-01-08 15:26:12技术图书徽章
日期:2014-01-17 13:24:40巳蛇
日期:2014-02-18 14:32:59
发表于 2017-10-09 00:36 |显示全部楼层
回复 1# gobuhei

$ awk -F',' 'NR>1&&NF{if($1 $2!=p c){OFS=FS;if(p)print p,c,s,$3;p=$1;c=$2;s=$3}}END{print p,c,s,$3}' FILE
AAAA,XX公司,2011-01-01,2011-04-01
AAAA,YY公司,2011-04-01,2012-01-01
BBBB,XX公司,2012-01-01,2011-08-01
AAAA,XX公司,2011-08-01,2011-10-01

论坛徽章:
0
发表于 2017-10-09 12:10 |显示全部楼层
本帖最后由 gobuhei 于 2017-10-09 12:41 编辑

回复 2# jason680

感谢回复,不过结果不对
微信图片_20171009120751.jpg

论坛徽章:
0
发表于 2017-10-09 13:23 |显示全部楼层
本帖最后由 gobuhei 于 2017-10-09 13:39 编辑

回复 2# jason680

我去掉文件第一行,用下面命令搞定了。
awk -F ',' 'NR==1{row=$0;a=$1$2;next}$1$2==a{b=$3;next}{print row","b;row=$0;a=$1$2;b=$3}END{print row","b}' file

非常感谢您的回复。


论坛徽章:
0
发表于 2017-10-09 13:24 |显示全部楼层
本帖最后由 gobuhei 于 2017-10-09 13:40 编辑

回复 2# jason680

我去掉文件第一行,用下面命令搞定了
awk -F ',' 'NR==1{row=$0;a=$1$2;next}$1$2==a{b=$3;next}{print row","b;row=$0;a=$1$2;b=$3}END{print row","b}' file

非常感谢您的回复。

论坛徽章:
2
程序设计版块每日发帖之星
日期:2016-05-03 06:20:0015-16赛季CBA联赛之同曦
日期:2017-09-11 14:39:48
发表于 2017-10-12 11:50 |显示全部楼层
gobuhei 发表于 2017-10-09 12:10
回复 2# jason680

感谢回复,不过结果不对


结果不对是因为你的文件格式是dos格式,转换成unix格式就对了。

论坛徽章:
0
发表于 2017-10-12 12:00 |显示全部楼层
回复 6# wh7211

受教了,谢谢。

论坛徽章:
0
发表于 2017-10-12 12:16 |显示全部楼层
本帖最后由 gobuhei 于 2017-10-12 12:18 编辑

回复 2# jason680

awk -F',' 'NR>1&&NF{if($1 $2!=p c){OFS=FS;if(p)print p,c,s,$3;p=$1;c=$2;s=$3}}END{print p,c,s,$3}' FILE

这里每次都把下一条数据的最小日期当做上一条数据的最大日期了。


测试数据:

AAAA,XX公司,2011-01-01
AAAA,XX公司,2011-02-01
AAAA,XX公司,2011-03-01
AAAA,YY公司,2011-04-01


输出:

AAAA,XX公司,2011-01-01,2011-04-01

论坛徽章:
121
技术图书徽章
日期:2013-10-01 15:32:13戌狗
日期:2013-10-25 13:31:35金牛座
日期:2013-11-04 16:22:07巳蛇
日期:2014-05-09 16:43:18巨蟹座
日期:2014-10-23 17:48:38子鼠
日期:2013-11-18 18:48:57白羊座
日期:2013-11-29 10:09:11狮子座
日期:2013-12-12 09:57:42白羊座
日期:2013-12-24 16:24:46辰龙
日期:2014-01-08 15:26:12技术图书徽章
日期:2014-01-17 13:24:40巳蛇
日期:2014-02-18 14:32:59
发表于 2017-10-12 14:39 |显示全部楼层
回复 8# gobuhei


小脚本,搞定就好...

要不再来个
p for 人员
c for 公司
s for start
e for end

if(p)print p,c,s,e

论坛徽章:
0
发表于 2017-10-12 14:45 |显示全部楼层
回复 9# jason680

学习了,论坛里都是高手,不断学习中。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号 北京市公安局海淀分局网监中心备案编号:11010802020122
广播电视节目制作经营许可证(京) 字第1234号 中国互联网协会会员  联系我们:
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP