论坛徽章:: 8

电梯直达

1楼 [收藏(0)] [报告]

发表于 2014-01-17 21:24 |只看该作者 |倒序浏览

本帖最后由 huang6894 于 2014-01-18 13:11 编辑

我想从一个大文件中得到另一个文本指定坐标的字符（串），可是我的脚本运行非常慢，导致我今天挨了一天骂，各位大神可以帮忙优化一下吗？
我的代码。
具体需求麻烦移步如何快速的从大文件中得到指定位置指定长度的字符串呢？
http://bbs.chinaunix.net/forum.p ... mp;fromuid=29097174
对不起，拜托各位了~

while read line
do
jueding=`echo $line|sed 's/,/\./g'|sed 's/(//g'|sed 's/)//g'|awk '{split($4,a,"." ); if(a[3]>a[1]){print "1"}else if(a[3]>0){print "2"}else{print 3}}'`
#这是为了确保计算的是该列的小的那个数值标记为pos
num=`echo $line|awk '{print $1}'`
gene=`echo $line|awk '{print $2}'`
chr=`echo $line|awk '{print $3}'`
yi=`echo $line|awk '{print $4}'`
st=`echo $line|awk '{print $5}'`
nm=`echo $line|awk '{print $6}'`
cds=`echo $line|awk '{print $7}'`
ref=`echo $line|awk '{i=match($7, /[[:upper:]]+/, a);print a[0]}'` #这是为了获取第一个连续大写字母串
pos=`echo $line|sed 's/,/\./g'|sed 's/(//g'|sed 's/)//g'|awk -vn=$jueding '{split($4,a,"." ); if(n=="1"){print a[1]}else if(n=="2"){print a[3]}else{print $4}}'`
hg18="1/$chr.fa" #这是第一个大文件
hg="2/$chr.fa" #这是第二个大文件
alle=`echo $line|awk '{i=match($7, "[a-zA-Z]+$", a); print a[0]}'` #这是为了获取第二个连续大小写字母串
hhaha=`echo $ref|awk '{print length($0)}'`
len=`echo $line|awk -vou=$hhaha -vn=$jueding '{split($4,a,"." ); if(n=="1"){print a[3]-a[1]+1}else if(n=="2"){print a[1]-a[3]+1}else{print ou}}'`
#这是为了获取距离
if [ "$po" != "2" ];then
ei=`awk -vi=$pos -vn=$len 'NR==1{next}length>=i{k=1}k{s=s$0;if(length(s)>=i+n){print toupper(substr(s,i,n));exit};next}{i-=length}' $hg18`
awk -vnum=$num -vgene=$gene -vi=$pos -vpp=$pos -vst=$st -vfo=$chr -vn=$len -val=$alle -vcv=$ei -vy=$yi -vnm=$nm -vcds=$cds -vref=$ref 'NR==1{next}length>=i{k=1}k{s=s$0;if(length(s)>=i+n){print num"\t"gene"\t"y"\t"fo"\t"pp"\t"st"\t"al"\t"cv"\t"toupper(substr(s,i,n))"\t"nm"\t"cds"\t"ref;exit};next}{i-=length}' $hg|perl -lane '$F[7]=~tr/ATCG/TAGC/ if $F[5] eq "-";print join "\t",@F'|perl -lane '$F[8]=~tr/ATCG/TAGC/ if $F[5] eq "-";print join "\t",@F'|awk -F'\t' '{if($12!~$9){print $0"\tdiff"}else{print $0"\tright"}}' >>out
else
ei=`awk -vi=$pos -vn=$len 'NR==1{next}length>=i{k=1}k{s=s$0;if(length(s)>=i+n){print toupper(substr(s,i,n));exit};next}{i-=length}' $hg18|awk '{ cmd="rev <<<"$0 ; cmd|getline $0 ; close(cmd)}1'`
awk -vnum=$num -vgene=$gene -vi=$pos -vpp=$pos -vst=$st -vfo=$chr -vn=$len -val=$alle -vcv=$ei -vy=$yi -vnm=$nm -vcds=$cds -vref=$ref 'NR==1{next}length>=i{k=1}k{s=s$0;if(length(s)>=i+n){print num"\t"gene"\t"y"\t"fo"\t"pp"\t"st"\t"al"\t"cv"\t"toupper(substr(s,i,n))"\t"nm"\t"cds"\t"ref;exit};next}{i-=length}' $hg|perl -lane '$F[7]=~tr/ATCG/TAGC/ if $F[5] eq "-";print join "\t",@F'|perl -lane '$F[8]=~tr/ATCG/TAGC/ if $F[5] eq "-";print join "\t",@F'|awk '{ cmd="rev <<<"$9 ; cmd|getline $9 ; close(cmd)}1'|awk -F'\t' '{if($12!~$9){print $0"\tdiff"}else{print $0"\tright"}}' >>out
#其实所有都是围绕这里的，我想获取两个大文件中pos开始len个字符，然后作处理
fi
done < tset