免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 5060 | 回复: 13
打印 上一主题 下一主题

[文本处理] [已解决]求助如何用shell语言提取文本中的指定行并排序 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2014-05-23 10:52 |只看该作者 |倒序浏览
本帖最后由 popelrain 于 2014-05-30 09:20 编辑

在/home/project/目录下有成千上万个文件夹,名称为PROJ00123542,PROJ34575140,和PROJ96541258.每个文件夹下都有一个与文件夹名称相同的txt文件PROJ00123542.txt,PROJ34575140.txt,PROJ96541258.txt等等

即目录为
/home/project/PROJ00123542/PROJ00123542.txt
/home/project/PROJ34575140/PROJ34575140.txt
/home/project/PROJ96541258/PROJ96541258.txt
等等

每个txt文件加下有这样的东东

PROJ00123542.txt
numb |   dppinity | zxcv from best numb
         | (kcal/mol) | rmsd l.b.| rmsd u.b.
-----+------------+----------+----------
   1         -10.7      0.000      0.000
   2         -9.1      1.478      3.519

PROJ34575140.txt
numb |   dppinity | zxcv from best numb
         | (kcal/mol) | rmsd l.b.| rmsd u.b.
-----+------------+----------+----------
   1         -8.1      0.000      0.000
   2         -7.2      1.128      3.319

PROJ96541258.txt
numb |   dppinity | zxcv from best numb
         | (kcal/mol) | rmsd l.b.| rmsd u.b.
-----+------------+----------+----------
   1         -9.2      0.000      0.000
   2         -6.4      1.458      3.259

要求提取每个txt文件中1所在行的dppinity(kcal/mol)数据(该数据都为负值),并讲dppinity(kcal/mol)数据之前的1修改为文件名,并按照dppinity(kcal/mol)数据的绝对值从大到小排序,输出到新的txt文件中,最终结果如下。

numb                 dppinity(kcal/mol)
PROJ00123542               -10.7
PROJ96541258                -9.2
PROJ34575140                -8.1

期待高手的出马。。。

论坛徽章:
7
数据库技术版块每日发帖之星
日期:2015-08-08 06:20:00数据库技术版块每日发帖之星
日期:2015-08-29 06:20:00数据库技术版块每日发帖之星
日期:2015-08-29 06:20:00数据库技术版块每日发帖之星
日期:2015-09-18 06:20:00数据库技术版块每周发帖之星
日期:2015-11-06 19:56:51数据库技术版块每日发帖之星
日期:2016-01-22 06:20:00数据库技术版块每日发帖之星
日期:2016-02-05 06:20:00
2 [报告]
发表于 2014-05-23 11:06 |只看该作者
  1. find . -name "*.txt" | xargs awk '{if ($1=="1"){print FILENAME"\t"$2}}' | sort -nk2
复制代码

论坛徽章:
32
处女座
日期:2013-11-20 23:41:20双子座
日期:2014-06-11 17:20:43戌狗
日期:2014-06-16 11:05:00处女座
日期:2014-07-22 17:30:47狮子座
日期:2014-07-28 15:38:17金牛座
日期:2014-08-05 16:34:01亥猪
日期:2014-08-18 13:34:25白羊座
日期:2014-09-02 15:03:55金牛座
日期:2014-11-10 10:23:58处女座
日期:2014-12-02 09:17:52程序设计版块每日发帖之星
日期:2015-06-16 22:20:002015亚冠之塔什干火车头
日期:2015-06-20 23:28:22
3 [报告]
发表于 2014-05-23 11:14 |只看该作者
  1. [root@localhost ~]# find /home/project/
  2. /home/project/
  3. /home/project/PROJ96541258
  4. /home/project/PROJ96541258/PROJ96541258.txt
  5. /home/project/PROJ34575140
  6. /home/project/PROJ34575140/PROJ34575140.txt
  7. /home/project/PROJ00123542
  8. /home/project/PROJ00123542/PROJ00123542.txt
  9. [root@localhost ~]# find /home/project/ -type f -exec awk 'FNR==4{t=gensub(/.*\/(.*).txt$/,"\\1",1,FILENAME);print t,$2 | "sort -k2n"}' {} > newfile.txt +
  10. [root@localhost ~]# cat newfile.txt
  11. PROJ00123542 -10.7
  12. PROJ96541258 -9.2
  13. PROJ34575140 -8.1
  14. [root@localhost ~]#
复制代码

论坛徽章:
0
4 [报告]
发表于 2014-05-23 15:20 |只看该作者
回复 2# asdf2110

谢谢,脚本很好。我将其修改修改输出到文本result中


echo           numb                 dppinity(kcal/mol) >>result 2>&1
find . -name "*.txt" | xargs awk '{if ($1=="1"){print FILENAME"\t"$2}}' | sort -nk2 >>result 2>&1

最终的结构显示:

          numb                 dppinity(kcal/mol)
./PROJ00123542/PROJ00123542.txt               -10.7
./PROJ96541258/PROJ96541258.txt                -9.2
./PROJ34575140/PROJ34575140.txt                -8.1

能否讲显示修改为:

          numb                 dppinity(kcal/mol)
PROJ00123542             -10.7
PROJ96541258               -9.2
PROJ34575140               -8.1
谢谢!

论坛徽章:
145
技术图书徽章
日期:2013-10-01 15:32:13戌狗
日期:2013-10-25 13:31:35金牛座
日期:2013-11-04 16:22:07子鼠
日期:2013-11-18 18:48:57白羊座
日期:2013-11-29 10:09:11狮子座
日期:2013-12-12 09:57:42白羊座
日期:2013-12-24 16:24:46辰龙
日期:2014-01-08 15:26:12技术图书徽章
日期:2014-01-17 13:24:40巳蛇
日期:2014-02-18 14:32:59未羊
日期:2014-02-20 14:12:13白羊座
日期:2014-02-26 12:06:59
5 [报告]
发表于 2014-05-23 15:49 |只看该作者
回复 4# popelrain

xargs awk '{if ($1=="1"){print FILENAME"\t"$2}}'

change to

xargs awk '$1==1{if(F!=FILENAME){f=F=FILENAME;gsub(/.*\//,"",f)};print f"\t"$2}'
   

论坛徽章:
0
6 [报告]
发表于 2014-05-23 15:59 |只看该作者
本帖最后由 b4and5 于 2014-05-23 15:59 编辑
  1. awk 'FNR==4{print FILENAME"\t\t"$2 | "sort -k2n"}'  project/*/*.txt | awk 'BEGIN{print "numb\t\t\tdppinity(kcal/mol)";FS="/"}{print $3}'
复制代码

论坛徽章:
0
7 [报告]
发表于 2014-05-23 16:30 |只看该作者
回复 5# jason680
非常感谢。

echo           numb                 dppinity(kcal/mol) >>result 2>&1
find . -name "*.txt" | xargs awk '$1==1{if(F!=FILENAME){f=F=FILENAME;gsub(/.*\//,"",f)};print f"\t"$2}' | sort -nk2 >>result 2>&1


结果显示为:

          numb                 dppinity(kcal/mol)
PROJ00123542.txt               -10.7
PROJ96541258.txt                -9.2
PROJ34575140.txt                -8.1




能否讲显示修改为(即将txt去掉):

          numb                 dppinity(kcal/mol)
PROJ00123542             -10.7
PROJ96541258               -9.2
PROJ34575140               -8.1

   

论坛徽章:
145
技术图书徽章
日期:2013-10-01 15:32:13戌狗
日期:2013-10-25 13:31:35金牛座
日期:2013-11-04 16:22:07子鼠
日期:2013-11-18 18:48:57白羊座
日期:2013-11-29 10:09:11狮子座
日期:2013-12-12 09:57:42白羊座
日期:2013-12-24 16:24:46辰龙
日期:2014-01-08 15:26:12技术图书徽章
日期:2014-01-17 13:24:40巳蛇
日期:2014-02-18 14:32:59未羊
日期:2014-02-20 14:12:13白羊座
日期:2014-02-26 12:06:59
8 [报告]
发表于 2014-05-23 16:40 |只看该作者
回复 7# popelrain

add below to remove ".txt"

gsub(/\.txt$/,"",f)
   

论坛徽章:
0
9 [报告]
发表于 2014-05-23 16:59 |只看该作者
回复 8# jason680
添加上好像不管用啊?

   

论坛徽章:
0
10 [报告]
发表于 2014-05-23 17:05 |只看该作者
回复 6# b4and5

谢谢,辛苦了!

提示找不到awk: cannot open project/*/*.txt  (No such file or directory)
   
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP