免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 2582 | 回复: 3
打印 上一主题 下一主题

[文本处理] 获取对应数字对应字符 [复制链接]

论坛徽章:
8
技术图书徽章
日期:2013-08-22 11:21:28未羊
日期:2015-01-19 22:22:25巳蛇
日期:2014-08-11 16:53:08子鼠
日期:2014-05-29 09:04:44摩羯座
日期:2014-04-11 14:15:07丑牛
日期:2014-01-24 12:41:28金牛座
日期:2013-11-21 17:38:28射手座
日期:2015-01-21 08:50:32
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2014-01-17 21:24 |只看该作者 |倒序浏览
本帖最后由 huang6894 于 2014-01-18 13:11 编辑

我想从一个大文件中得到另一个文本指定坐标的字符(串),可是我的脚本运行非常慢,导致我今天挨了一天骂,各位大神可以帮忙优化一下吗?
我的代码。
具体需求麻烦移步如何快速的从大文件中得到指定位置指定长度的字符串呢?
http://bbs.chinaunix.net/forum.p ... mp;fromuid=29097174
对不起,拜托各位了~
  1. while read line
  2. do
  3. jueding=`echo $line|sed 's/,/\./g'|sed 's/(//g'|sed 's/)//g'|awk '{split($4,a,"." ); if(a[3]>a[1]){print "1"}else if(a[3]>0){print "2"}else{print 3}}'`
  4. #这是为了确保计算的是该列的小的那个数值标记为pos

  5. num=`echo $line|awk '{print $1}'`
  6. gene=`echo $line|awk '{print $2}'`
  7. chr=`echo $line|awk '{print $3}'`
  8. yi=`echo $line|awk '{print $4}'`
  9. st=`echo $line|awk '{print $5}'`
  10. nm=`echo $line|awk '{print $6}'`
  11. cds=`echo $line|awk '{print $7}'`
  12. ref=`echo $line|awk '{i=match($7, /[[:upper:]]+/, a);print a[0]}'`  #这是为了获取第一个连续大写字母串

  13. pos=`echo $line|sed 's/,/\./g'|sed 's/(//g'|sed 's/)//g'|awk -vn=$jueding '{split($4,a,"." ); if(n=="1"){print a[1]}else if(n=="2"){print a[3]}else{print $4}}'`

  14. hg18="1/$chr.fa"  #这是第一个大文件
  15. hg="2/$chr.fa"  #这是第二个大文件

  16. alle=`echo $line|awk '{i=match($7, "[a-zA-Z]+$", a); print a[0]}'`  #这是为了获取第二个连续大小写字母串

  17. hhaha=`echo $ref|awk '{print length($0)}'`
  18. len=`echo $line|awk -vou=$hhaha -vn=$jueding '{split($4,a,"." ); if(n=="1"){print a[3]-a[1]+1}else if(n=="2"){print a[1]-a[3]+1}else{print ou}}'`
  19. #这是为了获取距离

  20. if [ "$po" != "2" ];then
  21. ei=`awk -vi=$pos -vn=$len 'NR==1{next}length>=i{k=1}k{s=s$0;if(length(s)>=i+n){print toupper(substr(s,i,n));exit};next}{i-=length}' $hg18`
  22. awk -vnum=$num -vgene=$gene -vi=$pos -vpp=$pos -vst=$st -vfo=$chr -vn=$len -val=$alle -vcv=$ei -vy=$yi -vnm=$nm -vcds=$cds -vref=$ref 'NR==1{next}length>=i{k=1}k{s=s$0;if(length(s)>=i+n){print num"\t"gene"\t"y"\t"fo"\t"pp"\t"st"\t"al"\t"cv"\t"toupper(substr(s,i,n))"\t"nm"\t"cds"\t"ref;exit};next}{i-=length}' $hg|perl -lane '$F[7]=~tr/ATCG/TAGC/ if $F[5] eq "-";print join "\t",@F'|perl -lane '$F[8]=~tr/ATCG/TAGC/ if $F[5] eq "-";print join "\t",@F'|awk -F'\t' '{if($12!~$9){print $0"\tdiff"}else{print $0"\tright"}}'  >>out
  23. else
  24. ei=`awk -vi=$pos -vn=$len 'NR==1{next}length>=i{k=1}k{s=s$0;if(length(s)>=i+n){print toupper(substr(s,i,n));exit};next}{i-=length}' $hg18|awk '{ cmd="rev <<<"$0 ; cmd|getline $0 ; close(cmd)}1'`
  25. awk -vnum=$num -vgene=$gene -vi=$pos -vpp=$pos -vst=$st -vfo=$chr -vn=$len -val=$alle -vcv=$ei -vy=$yi -vnm=$nm -vcds=$cds -vref=$ref 'NR==1{next}length>=i{k=1}k{s=s$0;if(length(s)>=i+n){print num"\t"gene"\t"y"\t"fo"\t"pp"\t"st"\t"al"\t"cv"\t"toupper(substr(s,i,n))"\t"nm"\t"cds"\t"ref;exit};next}{i-=length}' $hg|perl -lane '$F[7]=~tr/ATCG/TAGC/ if $F[5] eq "-";print join "\t",@F'|perl -lane '$F[8]=~tr/ATCG/TAGC/ if $F[5] eq "-";print join "\t",@F'|awk '{ cmd="rev <<<"$9 ; cmd|getline $9 ; close(cmd)}1'|awk -F'\t' '{if($12!~$9){print $0"\tdiff"}else{print $0"\tright"}}' >>out
  26. #其实所有都是围绕这里的,我想获取两个大文件中pos开始len个字符,然后作处理

  27. fi
  28. done < tset
复制代码

论坛徽章:
29
程序设计版块每日发帖之星
日期:2016-02-29 06:20:0015-16赛季CBA联赛之天津
日期:2016-08-10 10:33:1115-16赛季CBA联赛之深圳
日期:2016-08-17 15:07:2015-16赛季CBA联赛之佛山
日期:2016-11-07 11:33:5015-16赛季CBA联赛之广夏
日期:2016-11-15 09:13:31CU十四周年纪念徽章
日期:2016-11-24 14:12:25极客徽章
日期:2016-12-07 14:03:4015-16赛季CBA联赛之深圳
日期:2016-12-07 17:15:2715-16赛季CBA联赛之北京
日期:2016-12-22 09:30:0115-16赛季CBA联赛之深圳
日期:2016-12-22 10:49:2115-16赛季CBA联赛之山西
日期:2017-02-10 09:05:3215-16赛季CBA联赛之同曦
日期:2017-02-27 14:19:08
2 [报告]
发表于 2014-01-17 22:55 |只看该作者
回复 1# huang6894


    想试着看一下,没太看懂,嘿嘿

觉得还是需求和你的方案分开贴会比较好一点,要先了解需求嘛

论坛徽章:
8
技术图书徽章
日期:2013-08-22 11:21:28未羊
日期:2015-01-19 22:22:25巳蛇
日期:2014-08-11 16:53:08子鼠
日期:2014-05-29 09:04:44摩羯座
日期:2014-04-11 14:15:07丑牛
日期:2014-01-24 12:41:28金牛座
日期:2013-11-21 17:38:28射手座
日期:2015-01-21 08:50:32
3 [报告]
发表于 2014-01-17 23:44 |只看该作者
回复 2# elu_ligao


    语言功底不好呀,见谅见谅

论坛徽章:
60
20周年集字徽章-20	
日期:2020-10-28 14:04:3015-16赛季CBA联赛之北京
日期:2016-07-06 15:42:0715-16赛季CBA联赛之同曦
日期:2016-06-12 10:38:0915-16赛季CBA联赛之佛山
日期:2016-05-27 11:54:56黄金圣斗士
日期:2015-12-02 11:44:35白银圣斗士
日期:2015-11-25 14:32:43白银圣斗士
日期:2015-11-23 12:53:352015亚冠之布里斯班狮吼
日期:2015-10-21 16:55:482015亚冠之首尔
日期:2015-09-01 16:46:052015亚冠之德黑兰石油
日期:2015-08-31 11:39:192015亚冠之萨济拖拉机
日期:2015-08-28 21:06:5315-16赛季CBA联赛之广东
日期:2016-07-12 14:58:53
4 [报告]
发表于 2014-01-20 19:18 |只看该作者
头好晕 `````
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP