论坛徽章:: 0

电梯直达

1楼 [收藏(0)] [报告]

发表于 2006-04-27 00:18 |只看该作者 |倒序浏览

看遍了所有UNIQ的参数,发现没有一个参数针对某一字段重复删除所在行.
例如:
file1

1111|2222|3333|4444|
1234|5678|3333|2321|
3244|1234|4322|3242|
0000|8888|3333|2345|

我希望删除其中$3重复的行,只保留一个,而不管其他字段是否一样.即希望得到下面文件:
file2
1111|2222|3333|4444|
3244|1234|4322|3242|

uniq file1 file2是个很好的命令,但是他只能比较整行重复才能使用
uniq -f field 只能忽略掉前面的字段
怎么才能实现这个功能呢?
请赐教!

文库|博客

寂寞烈火

家境小康

论坛徽章:: 1

2楼 [报告]

发表于 2006-04-27 00:22 |只看该作者

awk -F\| '!a[$3]++' filename

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

missme

白手起家

论坛徽章:: 0

3楼 [报告]

发表于 2006-04-27 00:49 |只看该作者

太感谢老大了,我为这个东西搞了4个小时了.结果被一句话搞顶.我能不能再问个问题.
awk 'BEGIN {OFS=FS="|"} { print $3 }' file1 > ls
sort ls >ls.txt
uniq ls.txt ls
awk 'BEGIN {OFS=FS="|"} {
  while ((getline < "file1" ) > 0)
      {
         ls1[$3]=$1
         ls2[$3]=$2
         ls3[$3]=$3
         ls4[$3]=$4
      }
( $1 != ls1[$1] ) {
      s1=ls1[$1]
      s2=ls2[$1]
      s3=ls3[$1]
      s4=ls4[$1]
   printf ("s%|s%|s%|s%|",s1,s2,s3,s4)
   }' ls > file2
这个方法虽然很苯,但是应该没有问题的啊.结果我发现ls中有一行始终没有转进file中,即file2总比标准文件ls少一行,请问这是为什么.谢谢

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

waker

富甲一方

论坛徽章:: 8

4楼 [报告]

发表于 2006-04-27 10:57 |只看该作者

while ((getline < "file1" ) > 0)
      {
         ls1[$3]=$1
         ls2[$3]=$2
         ls3[$3]=$3
         ls4[$3]=$4
      }
以上部分读入所有行，并把每行四个域以第三个域为索引存入四个数组，如果索引存在的话将覆盖其中的内容

( $1 != ls1[$1] ) {
      s1=ls1[$1]
      s2=ls2[$1]
      s3=ls3[$1]
      s4=ls4[$1]
   printf ("s%|s%|s%|s%|",s1,s2,s3,s4)
   }
如果最后一行的第一个域与数组中以它为索引的内容不同，打印最后一行的四个域

这是我对你的脚本的讲解，不知道你怎么理解？

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

missme

白手起家

论坛徽章:: 0

5楼 [报告]

发表于 2006-04-27 14:15 |只看该作者

对不起,其中有些语法错误,现在改过来
awk 'BEGIN {OFS=FS="|"} { print $3 }' file1 > ls
sort ls >ls.txt
uniq ls.txt ls
awk 'BEGIN {OFS=FS="|"} {
  while ((getline < "file1" ) > 0)
      {
         ls1[$3]=$1
         ls2[$3]=$2
         ls3[$3]=$3
         ls4[$3]=$4
      }
   }
( $1 == ls1[$1] ) {
      s1=ls1[$1]
      s2=ls2[$1]
      s3=ls3[$1]
      s4=ls4[$1]
   printf ("s%|s%|s%|s%|",s1,s2,s3,s4)
   }' ls > file2
我大概的理解是:while ((getline < "file1" ) > 0)将以$3为索引读如所有行
( $1 == ls1[$1] )是如果第一个字段与ls1[$1]相等,则打印内容.我以为这是ls与fiel1相关联条件。按我的理解，ls是从file1生成的唯一的不重复的字段．再把file1中其他的字段加到ls每一行．
就像你说的($1 != ls1[$1])如果最后一行的第一个域与数组中以它为索引的内容不同，打印最后一行的四个域
．脚本确实只打印了最后一行．我以为他该打印所有只要ls与file1中对应指定字段不同的行．为什么这样说呢？