免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 2782 | 回复: 10
打印 上一主题 下一主题

[文本处理] 请问一个文本中,如何根据制定字段进行剔重 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2015-10-21 11:02 |只看该作者 |倒序浏览
如题,我要根据$1,$3进行剔除重复行,
p|001|aaa|zhangsan
n|002|bbb|lisi
n|010|bbb|wangwu
s|104|ddd|mazi
e|105|eee|poli
b|210|ccc|wangwu
s|204|ddd|mazi
x|205|eee|poli

最终结果,要求认为第2行和第3行重复,第4行和第7行是重复的。请教各位?,另外,剔除重复后,输出的是第几个结果,如何控制输出记录?

论坛徽章:
54
2015亚冠之德黑兰石油
日期:2015-07-07 13:00:1615-16赛季CBA联赛之深圳
日期:2016-03-31 09:03:5415-16赛季CBA联赛之辽宁
日期:2016-05-09 20:38:15程序设计版块每日发帖之星
日期:2016-05-12 06:20:0015-16赛季CBA联赛之四川
日期:2016-05-13 15:19:4715-16赛季CBA联赛之福建
日期:2016-05-15 20:24:34每日论坛发贴之星
日期:2016-05-16 06:20:0015-16赛季CBA联赛之吉林
日期:2016-05-26 11:49:4715-16赛季CBA联赛之广东
日期:2016-05-26 13:49:18极客徽章
日期:2016-12-07 14:05:2315-16赛季CBA联赛之广夏
日期:2016-12-20 17:33:532017金鸡报晓
日期:2017-01-10 15:19:56
2 [报告]
发表于 2015-10-21 11:07 |只看该作者
  1. awk -F '|' '!a[$1$3]++' a
复制代码

论坛徽章:
16
CU十二周年纪念徽章
日期:2013-10-24 15:41:3415-16赛季CBA联赛之广东
日期:2015-12-23 21:21:55青铜圣斗士
日期:2015-12-05 10:35:30黄金圣斗士
日期:2015-11-26 20:42:16神斗士
日期:2015-11-19 12:47:50每日论坛发贴之星
日期:2015-11-18 06:20:00程序设计版块每日发帖之星
日期:2015-11-18 06:20:002015亚冠之城南
日期:2015-11-10 19:10:492015亚冠之萨济拖拉机
日期:2015-10-28 18:47:282015亚冠之柏太阳神
日期:2015-08-30 17:21:492015亚冠之山东鲁能
日期:2015-07-07 18:48:39摩羯座
日期:2014-08-29 23:01:42
3 [报告]
发表于 2015-10-21 11:08 |只看该作者
能说清嘛
找到重复的你想干嘛
你要的最终输出是什么样子  

论坛徽章:
0
4 [报告]
发表于 2015-10-21 11:23 |只看该作者
回复 3# tc1989tc


不好意思,最终要求输出的结果就是重复的行只输出一个。
可以输出两个文件吗?
1 重复行只输出一行,不重复的都输出
2 输出所有重复的行

论坛徽章:
20
程序设计版块每日发帖之星
日期:2015-10-11 06:20:0015-16赛季CBA联赛之山东
日期:2016-05-28 18:18:5615-16赛季CBA联赛之新疆
日期:2017-04-12 22:55:4715-16赛季CBA联赛之青岛
日期:2017-06-26 18:30:0315-16赛季CBA联赛之四川
日期:2017-09-04 12:27:0315-16赛季CBA联赛之福建
日期:2018-02-09 14:28:3315-16赛季CBA联赛之同曦
日期:2018-04-17 12:43:3415-16赛季CBA联赛之浙江
日期:2018-07-14 13:27:4015-16赛季CBA联赛之吉林
日期:2018-09-13 15:48:2915-16赛季CBA联赛之新疆
日期:2016-05-07 05:05:3215-16赛季CBA联赛之八一
日期:2016-03-14 12:32:06程序设计版块每日发帖之星
日期:2015-12-12 06:20:00
5 [报告]
发表于 2015-10-21 13:15 |只看该作者
这个怎么理解呀!a[$1$3]++
回复 2# haooooaaa


   

论坛徽章:
54
2015亚冠之德黑兰石油
日期:2015-07-07 13:00:1615-16赛季CBA联赛之深圳
日期:2016-03-31 09:03:5415-16赛季CBA联赛之辽宁
日期:2016-05-09 20:38:15程序设计版块每日发帖之星
日期:2016-05-12 06:20:0015-16赛季CBA联赛之四川
日期:2016-05-13 15:19:4715-16赛季CBA联赛之福建
日期:2016-05-15 20:24:34每日论坛发贴之星
日期:2016-05-16 06:20:0015-16赛季CBA联赛之吉林
日期:2016-05-26 11:49:4715-16赛季CBA联赛之广东
日期:2016-05-26 13:49:18极客徽章
日期:2016-12-07 14:05:2315-16赛季CBA联赛之广夏
日期:2016-12-20 17:33:532017金鸡报晓
日期:2017-01-10 15:19:56
6 [报告]
发表于 2015-10-21 13:23 |只看该作者
回复 5# baby_神


    精华贴里都有的,

论坛徽章:
20
卯兔
日期:2015-01-26 22:05:142015亚冠之萨济拖拉机
日期:2015-09-10 15:15:282015亚冠之阿尔希拉尔
日期:2015-09-25 17:37:53程序设计版块每日发帖之星
日期:2015-10-03 06:20:00程序设计版块每日发帖之星
日期:2015-12-09 06:20:00CU十四周年纪念徽章
日期:2015-12-17 09:07:15程序设计版块每日发帖之星
日期:2015-12-25 06:20:34程序设计版块每日发帖之星
日期:2015-12-25 06:20:34程序设计版块每日发帖之星
日期:2015-12-25 06:20:342015亚冠之广州富力
日期:2015-08-27 19:29:56每日论坛发贴之星
日期:2015-08-26 06:20:002015亚冠之阿尔希拉尔
日期:2015-05-18 17:26:27
7 [报告]
发表于 2015-10-21 13:27 |只看该作者
本帖最后由 songyc_2015 于 2015-10-21 13:29 编辑

回复 4# tomorrow2010
  1. 1.awk -F\| '!a[$1,$3]++' file
  2. 2.#不包括重复的第一行
  3.    awk -F\| '++a[$1,$3]>1' file
  4.    #包括重复的第一行
  5.    awk -F\| '{a[$1,$3]++;b[$1,$3]=length(b[$1,$3])?b[$1,$3]"\n"$0:$0}END{for(s in a)if(a[s]>1)print b[s]}' file
复制代码

论坛徽章:
16
CU十二周年纪念徽章
日期:2013-10-24 15:41:3415-16赛季CBA联赛之广东
日期:2015-12-23 21:21:55青铜圣斗士
日期:2015-12-05 10:35:30黄金圣斗士
日期:2015-11-26 20:42:16神斗士
日期:2015-11-19 12:47:50每日论坛发贴之星
日期:2015-11-18 06:20:00程序设计版块每日发帖之星
日期:2015-11-18 06:20:002015亚冠之城南
日期:2015-11-10 19:10:492015亚冠之萨济拖拉机
日期:2015-10-28 18:47:282015亚冠之柏太阳神
日期:2015-08-30 17:21:492015亚冠之山东鲁能
日期:2015-07-07 18:48:39摩羯座
日期:2014-08-29 23:01:42
8 [报告]
发表于 2015-10-21 14:45 |只看该作者
  1. awk -F '|' '($1$3 in a){d[$1$3]++}{a[$1$3]=a[$1$3]"\n"$0}END{for (i in d)print a[i]}' file1      
复制代码

论坛徽章:
84
每日论坛发贴之星
日期:2015-12-29 06:20:00每日论坛发贴之星
日期:2016-01-16 06:20:00每周论坛发贴之星
日期:2016-01-17 22:22:00程序设计版块每日发帖之星
日期:2016-01-20 06:20:00每日论坛发贴之星
日期:2016-01-20 06:20:00程序设计版块每日发帖之星
日期:2016-01-21 06:20:00每日论坛发贴之星
日期:2016-01-21 06:20:00程序设计版块每日发帖之星
日期:2016-01-23 06:20:00程序设计版块每日发帖之星
日期:2016-01-31 06:20:00数据库技术版块每日发帖之星
日期:2016-01-16 06:20:00程序设计版块每日发帖之星
日期:2016-01-16 06:20:00程序设计版块每日发帖之星
日期:2016-01-14 06:20:00
9 [报告]
发表于 2015-10-21 14:50 |只看该作者
  1. #!/bin/sh
  2. # -*- tcl -*-
  3. # The next line is executed by /bin/sh, but not tcl \
  4. exec tclsh "$0" ${1+"$@"}

  5. set f [lindex $::argv 0]
  6. if {[catch {set fp [open $f]} err]} {puts "{Err} open fail"; exit 1}

  7. array set grp {}
  8. while {-1 != [gets $fp line]} {
  9.         set list [split $line |]
  10.         set key "[lindex $list 0] [lindex $list 2]"
  11.         lappend grp($key) $line
  12. }
  13. foreach {key value} [array get grp] {
  14.         puts [lindex $value 0]
  15. }
复制代码

论坛徽章:
84
每日论坛发贴之星
日期:2015-12-29 06:20:00每日论坛发贴之星
日期:2016-01-16 06:20:00每周论坛发贴之星
日期:2016-01-17 22:22:00程序设计版块每日发帖之星
日期:2016-01-20 06:20:00每日论坛发贴之星
日期:2016-01-20 06:20:00程序设计版块每日发帖之星
日期:2016-01-21 06:20:00每日论坛发贴之星
日期:2016-01-21 06:20:00程序设计版块每日发帖之星
日期:2016-01-23 06:20:00程序设计版块每日发帖之星
日期:2016-01-31 06:20:00数据库技术版块每日发帖之星
日期:2016-01-16 06:20:00程序设计版块每日发帖之星
日期:2016-01-16 06:20:00程序设计版块每日发帖之星
日期:2016-01-14 06:20:00
10 [报告]
发表于 2015-10-21 15:12 |只看该作者
new version, 如果指定了第二个参数,把重复的行写入指定文件
  1. #!/bin/sh
  2. # -*- tcl -*-
  3. # The next line is executed by /bin/sh, but not tcl \
  4. exec tclsh "$0" ${1+"$@"}

  5. set f [lindex $::argv 0]
  6. set fo [lindex $::argv 1]
  7. if {[catch {set fp [open $f]} err]} {puts "{Err} open $f fail"; exit 1}
  8. if {$fo != ""} {
  9.         if {[catch {set fop [open $fo w]} err]} {puts "{Err} open $fo fail"; exit 1}
  10. }

  11. array set grp {}
  12. while {-1 != [gets $fp line]} {
  13.         set list [split $line |]
  14.         set key "[lindex $list 0] [lindex $list 2]"
  15.         lappend grp($key) $line
  16. }
  17. foreach {key value} [array get grp] {
  18.         puts [lindex $value 0]
  19.         if {[llength $value] > 1 && [info exist fop]} {
  20.                 foreach e $value {puts $fop $e}
  21.         }
  22. }
复制代码
  1. [yjh@dhcp-12-151 bkr-client-improved]$ ./kkk.tcl t.txt
  2. e|105|eee|poli
  3. n|002|bbb|lisi
  4. x|205|eee|poli
  5. b|210|ccc|wangwu
  6. s|104|ddd|mazi
  7. p|001|aaa|zhangsan
  8. [yjh@dhcp-12-151 bkr-client-improved]$ ./kkk.tcl t.txt  t.dup.txt
  9. e|105|eee|poli
  10. n|002|bbb|lisi
  11. x|205|eee|poli
  12. b|210|ccc|wangwu
  13. s|104|ddd|mazi
  14. p|001|aaa|zhangsan
  15. [yjh@dhcp-12-151 bkr-client-improved]$ cat t.dup.txt
  16. n|002|bbb|lisi
  17. n|010|bbb|wangwu
  18. s|104|ddd|mazi
  19. s|204|ddd|mazi
复制代码
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP