免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 4112 | 回复: 11

[文本处理] 如何将两个文本按要求整合在一起? [复制链接]

论坛徽章:
1
白羊座
日期:2014-11-13 10:19:16
发表于 2014-10-16 08:38 |显示全部楼层
本帖最后由 iocg 于 2014-10-17 16:51 编辑

A B两张表的格式一样,以逗号分割。
只有前5个域全部对应才能确认唯一的一条记录

A为申请表
  1. 京,张三,A,1235,TOYOTA,,申请,
  2. 津,李四,D,1237,HONDA,,申请,
  3. 冀,王五,C,1235,MAZDA,,申请,
  4. 皖,小明,D,1233,BUICK,,申请,
  5. 内蒙古,小黄,E,1236,SATURN,,申请,
  6. 辽,小黄,F,1236,SUBARU,,申请,
  7. 京,张三,A,1235,LEXUS,,申请,
  8. 津,李四,D,1238,HONDA,,申请,
  9. 冀,王五,E,1235,MAZDA,,申请,
  10. 皖,小红,D,1233,BUICK,,申请,
复制代码
B为调整表(按顺序执行)
  1. 京,张三,A,1235,TOYOTA,,调整,
  2. 津,李四,D,1237,HONDA,,撤销,
  3. 沪,小雨,B,1237,CITROEN,,添加,
  4. 冀,王五,C,1235,MAZDA,,调整,
  5. 京,张三,A,1235,TOYOTA,,撤销,
  6. 皖,小明,D,1233,BUICK,,调整,
  7. 吉,小胡,A,1237,Bentley,,添加,
  8. 沪,小雨,B,1237,CITROEN,,撤销,
复制代码
现在想将两张表合并。。
有如下几种可能性(申请、调整、添加、撤销):
A 申请  B  调整 --》  删除申请保留调整
A 申请  B  撤销 --》  删除申请
A 无     B  添加 --》  添加新的一条记录
A 申请  B  调整 撤销 --》 保留申请
A 无     B  添加 撤销  --》 不添加记录

就是保留最后一条指令有效,如果最后一个是撤销,就否定前一个指令。
A 申请  B  调整  撤销  调整 撤销    --》还是申请指令


最终效果是
  1. 京,张三,A,1235,TOYOTA,,申请,
  2. 内蒙古,小黄,E,1236,SATURN,,申请,
  3. 辽,小黄,F,1236,SUBARU,,申请,
  4. 京,张三,A,1235,LEXUS,,申请,
  5. 津,李四,D,1238,HONDA,,申请,
  6. 冀,王五,E,1235,MAZDA,,申请,
  7. 皖,小红,D,1233,BUICK,,申请,
  8. 冀,王五,C,1235,MAZDA,,调整,
  9. 皖,小明,D,1233,BUICK,,调整,
  10. 吉,小胡,A,1237,Bentley,,添加,
复制代码
没有顺序上的要求..

论坛徽章:
2
摩羯座
日期:2014-11-03 15:28:56卯兔
日期:2015-01-04 17:20:51
发表于 2014-10-16 10:21 |显示全部楼层
回复 1# iocg


    冀,王五,E,1235,MAZDA,

LZ先解释下这为什么会有两条吧。。。从你的规则没看明白

论坛徽章:
2
摩羯座
日期:2014-11-03 15:28:56卯兔
日期:2015-01-04 17:20:51
发表于 2014-10-16 10:25 |显示全部楼层
回复 1# iocg

    结果与LZ要求不一致,实在是不理解为啥LZ期望结果里面同一人为啥会有多条记录。。
  1. cat a b|awk 'BEGIN{FS=OFS=","}{NF--;d=$NF;NF--;if(d=="撤销")delete b[$0","a[$0]-1];else {a[$0]++;b[$0","a[$0]]=$0","d}}END {for(i in b) print b[i]}'|awk -F, '{a=$0;gsub(/,.*$/,"",a);b[a]=$0}END{for(i in b)print b[i]}'
  2. 沪,小雨,B,1237,CITROEN,,添加
  3. 津,李四,D,1238,HONDA,,申请
  4. 辽,小黄,F,1236,SUBARU,,申请
  5. 吉,小胡,A,1237,Bentley,,添加
  6. 京,张三,A,1235,TOYOTA,,调整
  7. 冀,王五,C,1235,MAZDA,,调整
  8. 皖,小红,D,1233,BUICK,,申请
  9. 内蒙古,小黄,E,1236,SATURN,,申请
复制代码

论坛徽章:
23
15-16赛季CBA联赛之吉林
日期:2017-12-21 16:39:27白羊座
日期:2014-10-27 11:14:37申猴
日期:2014-10-23 08:36:23金牛座
日期:2014-09-30 08:26:49午马
日期:2014-09-29 09:40:16射手座
日期:2014-11-25 08:56:112015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:49:0315-16赛季CBA联赛之山东
日期:2017-12-21 16:39:1915-16赛季CBA联赛之广东
日期:2016-01-19 13:33:372015亚冠之山东鲁能
日期:2015-10-13 09:39:062015亚冠之西悉尼流浪者
日期:2015-09-21 08:27:57
发表于 2014-10-16 10:37 |显示全部楼层
本帖最后由 ly5066113 于 2014-10-16 10:41 编辑

回复 1# iocg


try:
  1. awk -F, -v OFS=, '{c=$(NF-1);NF=5;k=$0}NR==FNR{if(c=="撤销"&&a[k])delete a[k];else a[k]=c;next}{$7=a[k]?a[k]:c;NF=8}$7!="撤销";END{for(i in a)if(a[i]=="添加")print i",,"a[i]","}' B A
复制代码

论坛徽章:
1
白羊座
日期:2014-11-13 10:19:16
发表于 2014-10-16 18:38 |显示全部楼层
回复 2# bulletmarquis

   
        冀,王五,E,1235,MAZDA,,申请,
        冀,王五,C,1235,MAZDA,,调整,

        这是两条记录,E和C不一样。。。只有前面5个完全对应才是同一条!!


论坛徽章:
2
摩羯座
日期:2014-11-03 15:28:56卯兔
日期:2015-01-04 17:20:51
发表于 2014-10-17 08:50 |显示全部楼层
回复 5# iocg


    我擦。。。。狗眼已瞎。。。

论坛徽章:
1
白羊座
日期:2014-11-13 10:19:16
发表于 2014-10-17 16:49 |显示全部楼层
本帖最后由 iocg 于 2014-10-17 17:06 编辑

回复 4# ly5066113

您的结果有些出入,可以修改下代码吗?
  1. awk -F, -v OFS=, '{c=$(NF-1);NF=5;k=$0}NR==FNR{if(c=="撤销"&&a[k])delete a[k];else a[k]=c;next}{$7=a[k]?a[k]:c;NF=8}$7!="撤销";END{for(i in a)if(a[i]=="添加")print i",,"a[i]","}' B A
复制代码
京,张三,A,1235,TOYOTA,,,撤销,
津,李四,D,1237,HONDA,,,撤销,
冀,王五,C,1235,MAZDA,,调整,
皖,小明,D,1233,BUICK,,,调整,
内蒙古,小黄,E,1236,SATURN,,,申请,
辽,小黄,F,1236,SUBARU,,,申请,
京,张三,A,1235,LEXUS,,,申请,
津,李四,D,1238,HONDA,,,申请,
冀,王五,E,1235,MAZDA,,申请,
皖,小红,D,1233,BUICK,,,申请,
吉,小胡,A,1237,Bentley,,添加,

有三处地方不正确:
津,李四,D,1237,HONDA,,申请,
津,李四,D,1237,HONDA,,撤销,  ==》撤销上一条申请命令,结果是删除此条记录

京,张三,A,1235,TOYOTA,,申请,
京,张三,A,1235,TOYOTA,,调整,
京,张三,A,1235,TOYOTA,,撤销,  ==》撤销上一条调整命令,结果是维持申请命令

吉,小胡,A,1237,Bentley,,添加,  ==》直接添加一条新记录

论坛徽章:
23
15-16赛季CBA联赛之吉林
日期:2017-12-21 16:39:27白羊座
日期:2014-10-27 11:14:37申猴
日期:2014-10-23 08:36:23金牛座
日期:2014-09-30 08:26:49午马
日期:2014-09-29 09:40:16射手座
日期:2014-11-25 08:56:112015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:49:0315-16赛季CBA联赛之山东
日期:2017-12-21 16:39:1915-16赛季CBA联赛之广东
日期:2016-01-19 13:33:372015亚冠之山东鲁能
日期:2015-10-13 09:39:062015亚冠之西悉尼流浪者
日期:2015-09-21 08:27:57
发表于 2014-10-17 17:28 |显示全部楼层
回复 7# iocg


代码没问题,用你1楼给的文本测试。

论坛徽章:
3
丑牛
日期:2014-09-13 18:19:22摩羯座
日期:2014-10-10 17:43:02水瓶座
日期:2014-10-16 01:00:22
发表于 2014-10-19 16:21 |显示全部楼层
学生党:飘过~简单写一个,楼主以后把需求写清除嗯,让我猜了半天终于想明白你的结果怎么来的了~

  1. $ cat yhsafe.py
  2. #!/usr/bin/env python
  3. # -*- coding: gbk -*-

  4. import sys,operator
  5. import linecache

  6. class com_tabls(object):
  7.         def __init__(self):
  8.                 self.a_list=[]
  9.                 self.b_list=[]
  10.         #整理文件
  11.         def zl(self,list):
  12.                 dic_t={tuple(x.strip('\n').strip(',').split(',')[:5]):[] for x in list}
  13.                 for x in list:
  14.                         x=x.strip('\n').strip(',')
  15.                         key=(x.split(',')[0],x.split(',')[1],x.split(',')[2],x.split(',')[3],x.split(',')[4])
  16.                         val=x.split(',')[6]
  17.                         dic_t[key].append(val)
  18.                 return dic_t
  19.         #输出结果
  20.         def pt(self,alist,blist):
  21.                 dset=set(blist.keys())-set(alist.keys())
  22.                 sset=set(blist.keys())&set(alist.keys())
  23.                 aset=set(alist.keys())-set(blist.keys())
  24.                 for x in aset:
  25.                         print ' '.join(x),'申请'
  26.                 for x in dset:
  27.                         lg=len(blist[x])
  28.                         if lg==1:
  29.                                 if blist[x][-1]=='调整':
  30.                                         print ' '.join(x),'调整'
  31.                                 elif blist[x][-1]=='添加':
  32.                                         print ' '.join(x),'添加'
  33.                                 elif blist[x][-1]=='撤销':
  34.                                         pass
  35.                                 else:
  36.                                         print ' '.join(x),alist[x][-1]
  37.                         elif lg>1:
  38.                                 if blist[x][-1]=='调整':
  39.                                         print ' '.join(x),'调整'
  40.                                 elif blist[x][-1]=='添加':
  41.                                         print ' '.join(x),'添加'
  42.                                 elif blist[x][-1]=='撤销':
  43.                                         pass
  44.                                 else:
  45.                                         print ' '.join(x),alist[x][-1]
  46.                 for x in sset:
  47.                         lg=len(blist[x])
  48.                         if lg==1:
  49.                                 if blist[x][-1]=='调整':
  50.                                         print ' '.join(x),'调整'
  51.                                 elif blist[x][-1]=='添加':
  52.                                         print ' '.join(x),'添加'
  53.                                 elif blist[x][-1]=='撤销':
  54.                                         pass
  55.                                 else:
  56.                                         print ' '.join(x),alist[x][-1]
  57.                         elif lg>1:
  58.                                 if blist[x][-1]=='调整':
  59.                                         print ' '.join(x),'调整'
  60.                                 elif blist[x][-1]=='添加':
  61.                                         print ' '.join(x),'添加'
  62.                                 elif blist[x][-1]=='撤销':
  63.                                         print ' '.join(x),alist[x][-1]
  64.                                 else:
  65.                                         print ' '.join(x),blist[x][-1]


  66. if __name__=='__main__':
  67.         xm=com_tabls()
  68.         alist=linecache.getlines(sys.argv[1])
  69.         blist=linecache.getlines(sys.argv[2])
  70.         aznli=xm.zl(alist)
  71.         bznli=xm.zl(blist)
  72.         xm.pt(aznli,bznli)
复制代码
测试:
$ ./yhsafe.py a.txt b.txt
冀 王五 E 1235 MAZDA 申请
皖 小红 D 1233 BUICK 申请
京 张三 A 1235 LEXUS 申请
内蒙古 小黄 E 1236 SATURN 申请
津 李四 D 1238 HONDA 申请
辽 小黄 F 1236 SUBARU 申请
吉 小胡 A 1237 Bentley 添加
皖 小明 D 1233 BUICK 调整
京 张三 A 1235 TOYOTA 申请
冀 王五 C 1235 MAZDA 调整

论坛徽章:
6
处女座
日期:2014-04-02 16:07:17酉鸡
日期:2014-04-14 10:09:22子鼠
日期:2014-04-17 11:57:30辰龙
日期:2014-09-01 17:14:08戌狗
日期:2014-10-28 12:25:54未羊
日期:2014-11-14 11:31:58
发表于 2014-10-20 15:02 |显示全部楼层
  1. awk -F, 'NR==FNR{t=$1","$2","$3","$4","$5;a[t]=$7;next} {t=$1","$2","$3","$4","$5;b[t]=b[t]?b[t]" "$7:$7}END{for(i in b){split(b[i],p," ");if(length(p)%2==0&&p[length(p)]=="撤销"){b[i]=""}else{b[i]==p[length(p)]}};for(i in a){if(a[i]=="申请"&&b[i]=="调整"){c[i]=i",,调整,"}else if(a[i]=="申请"&&b[i]=="撤销"){;}else if(a[i]=="申请"&&b[i]==""){c[i]=i",,申请,"}};for(i in b){if(b[i]=="添加"){c[i]=i",,添加,"}};for(i in c){print c[i] > "/tmp/sh/t"}}' A B
复制代码
大神果然厉害 这么短就解决了..
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP