免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 1988 | 回复: 6
打印 上一主题 下一主题

如何快速从500多个列中找出需要的10几个列? [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2010-02-04 15:23 |只看该作者 |倒序浏览
本帖最后由 hosyp 于 2010-02-04 15:25 编辑

我有个文件有个文件有五百列不定,要从中找出需要的10几个列,做了两个嵌套的循环,
如果相等就计下当前的列号,这样是可以找出来但太慢了,要一分多钟才能得出结果,
谁有更好的办法?
         anum=1
               aset=""
               aline=`nawk 'NR==1' $afile`
               acols=`echo $aline|nawk -F, '{print NF}'`
               acolcnt=`awk '{print $1}' $COLFILE|wc -l`
               for acolneed in `awk '{print $1}' $COLFILE`
               do
                  acol=1
                  while [ $acol -le $acols ]
                  do
                     acol2=`echo $aline|nawk -F, '{print $num}' num=$acol`
                     if [ "$acolneed" = "$acol2" ]
                     then
                        #echo $acol2";"$acolneed";"$acol
                        aset=$aset"$"$acol
                        break
                     fi
                     let acol=acol+1
                  done
                  let anum=anum+1
                  #echo $anum"--"$acolcnt
                  if [ $anum -le $acolcnt ]
                  then
                     aset=$aset"\",\""
                  fi               
               done
如:"AA","BB","CC","DD",....,要得到"AA","DD",...,aset就是得到的列数
COLFILE的格式如下:
"AA"
"DD"
"EE"
...

论坛徽章:
0
2 [报告]
发表于 2010-02-04 16:23 |只看该作者
稍微再给点提示好不。。。你具体是要找什么。举个列子好伐

论坛徽章:
0
3 [报告]
发表于 2010-02-04 16:35 |只看该作者
如文件头是"AA","BB","CC","DD","EE","FF","GG","HH","II","JJ","KK","LL","MM","NN"
            或 "AA","BB","CC","EE","FF","GG","HH","JJ","KK","LL","MM","NN","OO","PP"
            或 "AA","BB","CC","DD","GG","HH","JJ","KK","LL","MM","OO","PP","RR","SS"

要找出"AA","DD","II","NN"各列的数据,
对第一个数据都有,$1,$4,$9,$14,
对第二个数据是    $1,   ,    ,$12,
对第三个数据是    $1,$4,   ,      ,

论坛徽章:
0
4 [报告]
发表于 2010-02-04 17:14 |只看该作者
本帖最后由 ywlscpl 于 2010-02-04 17:31 编辑
  1. awk -F, 'NR==FNR{a[$1]}NR>FNR{for (i=1;i<=NF;i++) if ($i in a) printf "$"i",";print ""}' COLFILE  file
复制代码

论坛徽章:
1
荣誉会员
日期:2011-11-23 16:44:17
5 [报告]
发表于 2010-02-04 17:18 |只看该作者

  1. awk -F, '{
  2. for(i=1;i<=NF;i++){
  3.         if($i=="\"AA\"")A=i
  4.         if($i=="\"DD\"")D=i
  5.         if($i=="\"II\"")I=i
  6.         if($i=="\"NN\"")N=i
  7.         }
  8. printf "$"A",$"D",$"I",$"N"\n"
  9. A="";D="";I="";N=""
  10. }' FILE


  11. 17:16:30 root@ST-TEST:[/]#echo '"AA","BB","CC","DD","EE","FF","GG","HH","II","JJ","KK","LL","MM","NN"' |awk -F, '{
  12. > for(i=1;i<=NF;i++){
  13. >       if($i=="\"AA\"")A=i
  14. >       if($i=="\"DD\"")D=i
  15. >       if($i=="\"II\"")I=i
  16. >       if($i=="\"NN\"")N=i
  17. >       }
  18. > printf "$"A",$"D",$"I",$"N"\n"
  19. > A="";D="";I="";N=""
  20. > }'
  21. $1,$4,$9,$14
  22. 17:17:25 root@ST-TEST:[/]#
复制代码

论坛徽章:
1
荣誉会员
日期:2011-11-23 16:44:17
6 [报告]
发表于 2010-02-04 17:37 |只看该作者
有点小毛病,改了
  1. echo '"AA","BB","CC","EE","FF","GG","HH","JJ","KK","LL","MM","NN","OO","PP"' |awk -F, '{
  2. for(i=1;i<=NF;i++){
  3.         if($i=="\"AA\"")A="$"i
  4.         if($i=="\"DD\"")D="$"i
  5.         if($i=="\"II\"")I="$"i
  6.         if($i=="\"NN\"")N="$"i
  7.         }
  8. printf A","D","I","N",\n"
  9. A="";D="";I="";N=""
  10. }'
复制代码

论坛徽章:
0
7 [报告]
发表于 2010-02-05 16:32 |只看该作者
回复 4# ywlscpl


    太谢谢啦!
今天修改试了一天,这个方法好,快多了,处理速度从十多分钟加快到几十秒!
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP