12 / 2 页下一页

论坛徽章:: 8

电梯直达

1楼 [收藏(0)] [报告]

发表于 2014-03-07 13:24 |只看该作者 |倒序浏览

shell大神们好：
如果我有在当前目录下有N个文件夹，每个文件夹下有一个as.list，他们的格式是这样的：

#Name Chromosome Start_pos End_pos Transcript Strand Start_HGVS End_HGVS Gene Exon UTR&&CDS
CH29 chr10 23481751 23481758 NM_178161.2 + c.292 c.299 PTF1A EX1 C1
CH29 chr10 23481960 23481962 NM_178161.2 + c.390 c.503 PTF1A EX1 C1
CH29 chr10 88854756 88854776 NM_005271.3 - c.-230 c.-250 GLUD1 EX1 5U1E
CH29 chr11 17498411 17498447 NM_000352.3 - c.-88 c.-124 ABCC8 EX1 5U1E

复制代码

第一行title都一样，第一列是对应得文件夹名如果我现在想对这些文本的二三四五九十一列取交集，也就是如果每一个第二、第五、第九、第十一列在所有的as.list里面出现次数超过80%的话（在一个as.list有多行的第二、第五、第九列、第十二列是相同的，如果，对三、四列代表的区域取交集，比方说80%的as.list的第二、第五、第九列、第十二都有 chr10  NM_178161.2  PTF1A EX1这行，我们就把对应的三、四列的数字拿出来，假如是：file1:1 100 file2:5  60 file3:4  20 file4:200  250得到的结果就是：
chr10  NM_178161.2  PTF1A  C1 EX1 5  20
但是一定要注意就是一个as.list可能有多行的第二、第五、第九列、第十一列是相同的，可以肯定的是他们的三、四列的数字一定不会有交集
比如：
file1:
1 100
200 300
file2:
5  60
70 80
file3:
4  20
40 65
file4:
200  250
这个时候我想得到的是：
chr10  NM_178161.2  PTF1A C1 EX1 5  20
chr10  NM_178161.2  PTF1A C1 EX1 40 60
============================
整理一下思路：其实

CH29 chr10 23481751 23481758 NM_178161.2 + c.292 c.299 PTF1A EX1 C1
CH29 chr10 23481960 23481962 NM_178161.2 + c.390 c.503 PTF1A EX1 C1

复制代码

代表的数据是：

chr10 23481751 23481752 NM_178161.2 PTF1A EX1
chr10 23481752 23481753 NM_178161.2 PTF1A EX1
chr10 23481754 23481755 NM_178161.2 PTF1A EX1
chr10 23481756 23481757 NM_178161.2 PTF1A EX1
chr10 23481757 23481758 NM_178161.2 PTF1A EX1
--
chr10 23481960 23481961 NM_178161.2 PTF1A EX1
chr10 23481961 23481962 NM_178161.2 PTF1A EX1

复制代码

我就是想把每个文件拆分成它代表的数据，然后得到代表数据中每一行在80%的as.list中有出现的行然后相近的合并回来。。。
不知道有没有好的方法实现。。。我觉得太难了，所以求助一下！
谢谢大神们了！！！

文库|博客

huang6894

大富大贵

论坛徽章:: 8

2楼 [报告]

发表于 2014-03-07 14:52 |只看该作者

没人回帖好伤感。。
80%的一个定义（感谢perl板块的大神）：

file1:
1 100
200 300

file2:
5  60
70 80

file3:
4  20
40 65

file4:
200  250

如果图中所示，四个文件，那么就是在int(4*80%)=3个文件里面都存在5-20, 40-60区域，而其他的区域并不满足，所以输出：
chr10  NM_178161.2  PTF1A C1 EX1 5  20
chr10  NM_178161.2  PTF1A C1 EX1 40 60

142924gic013t1gdsugc2g.png (3.69 KB, 下载次数: 89)

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

huang_wunix

白手起家

论坛徽章:: 0

3楼 [报告]

发表于 2014-03-07 16:21 |只看该作者

大神你这个问题不仅难，我看需求就没看懂...

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

huang6894

大富大贵

论坛徽章:: 8

4楼 [报告]

发表于 2014-03-07 16:47 |只看该作者

回复 3# huang_wunix

sorry。。。表达确实有问题。。。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

yestreenstars

富甲一方

论坛徽章:: 32

5楼 [报告]

发表于 2014-03-07 17:05 |只看该作者

你的问题要来自星星的你才能回答~

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

huang6894

大富大贵

论坛徽章:: 8

6楼 [报告]

发表于 2014-03-07 17:07 |只看该作者

回复 5# yestreenstars

大大：那个整理一下思路：其实

CH29 chr10 23481751 23481758 NM_178161.2 + c.292 c.299 PTF1A EX1 C1
CH29 chr10 23481960 23481962 NM_178161.2 + c.390 c.503 PTF1A EX1 C1

复制代码

代表的数据是：

chr10 23481751 23481752 NM_178161.2 PTF1A EX1
chr10 23481752 23481753 NM_178161.2 PTF1A EX1
chr10 23481754 23481755 NM_178161.2 PTF1A EX1
chr10 23481756 23481757 NM_178161.2 PTF1A EX1
chr10 23481757 23481758 NM_178161.2 PTF1A EX1
--
chr10 23481960 23481961 NM_178161.2 PTF1A EX1
chr10 23481961 23481962 NM_178161.2 PTF1A EX1

复制代码

我就是想把每个文件拆分成它代表的数据，然后得到代表数据中每一行在80%的as.list中有出现的行然后相近的合并回来。。。也就是把所有的as.list拆分之后假若有一行：
chr10 23481752 23481753 NM_178161.2 PTF1A EX1
在80%的as.list拆分文件都存在，就输出。。。

这样。。。可以吗

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

ly5066113

巨富豪门

论坛徽章:: 23

7楼 [报告]

发表于 2014-03-07 17:11 |只看该作者

回复 5# yestreenstars

你不就是星星么？

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

yestreenstars

富甲一方

论坛徽章:: 32

8楼 [报告]

发表于 2014-03-07 17:15 |只看该作者

回复 7# ly5066113

大神你又调皮了~

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

haokoo

稍有积蓄

论坛徽章:: 3

9楼 [报告]

发表于 2014-03-07 17:19 |只看该作者

不如简单的说一下，原始数据是怎样，你期望得到的目的数据是怎样，中间是怎样的规则。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

ly5066113

巨富豪门

论坛徽章:: 23

10楼 [报告]

发表于 2014-03-07 17:25 |只看该作者

回复 6# huang6894

如果文件没有多到超过 shell 的命令行参数限制：

a=($(find . -name as.list -type f))
awk -v n=${#a[@]} 'BEGIN{m=int(n*0.8)}{for(i=$3;i<$4;i++)a[$2"\t"i"\t"(i+1)"\t"$5"\t"$9"\t"$11]++}END{for(i in a)if(a[i]>=m)print i}' ${a[@]}

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

12 / 2 页下一页

返回列表

Chinaunix › 论坛 › 程序设计 › Shell › 怎么对多个文本指定列取交集呢？

[文本处理] 怎么对多个文本指定列取交集呢？ [复制链接]