123 4 5 / 5 页下一页

【问题】对N个相似文本进行计算分析？5000积分求解决~ [复制链接]

huang6894

大富大贵

论坛徽章:: 8

11楼 [报告]

发表于 2014-08-11 16:52 |只看该作者

回复 2# q1208c

0是有可能的，就上面举的例子是很特殊的，一般的例子可能是：

同样四个文本：
chr1 1-11
对比条件后是：
1.txt：

flag2 flag1 flag2 flag2 flag2  flag1  flag3  flag3  flag3 flag3  flag3

2.txt：

flag3 flag3 flag3 flag2 flag2  flag2  flag2  flag3  flag3 flag3  flag3  #1-5:flag3===6-11:flag3(4-8:flag2 ?)===>优先判断为flag1，然后是flag2，最后才是flag3，也就是说我们需要首先认同4-8是flag2，然后再认为1-3是flag3，9-11是flag3

3.txt：

flag3 flag1 flag3 flag1 flag1  flag3  flag1  flag1  flag1 flag1  flag1

4.txt：

flag3 flag3 flag3 flag3 flag3  flag3  flag3  flag3  flag3 flag3  flag3
-------------------------------------
于是我们得到结果是：
1.txt chr1  1-5  flag2
1.txt chr1  6-11  flag3
2.txt chr1  1-3  flag3
2.txt chr1  4-8  flag2
2.txt chr1  9-11  flag3
3.txt chr1  1-11  flag1
3.txt chr1  1-11  flag3
---------------------------------------------------
说实话，我一个人研究，估计一年也搞不出来。。。。只能跪求各位大神了。。。。。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

huang6894

大富大贵

论坛徽章:: 8

12楼 [报告]

发表于 2014-08-11 16:54 |只看该作者

回复 9# xiumu2280

谢谢xiumu大哥~哈希切片还是第一次听说，我也去补充一下这方面的知识，谢谢你谢谢~

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

pitonas

家境小康

论坛徽章:: 5

13楼 [报告]

发表于 2014-08-11 17:15 |只看该作者

谢谢 $师傅解释一下 ~{:2_172:}

回复 5# xiumu2280

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

pitonas

家境小康

论坛徽章:: 5

14楼 [报告]

发表于 2014-08-11 19:40 |只看该作者

说实话，我估计看一年也看不懂问题 ~ {:2_176:}

3.txt：
flag3 flag1 flag3 flag1 flag1  flag3  flag1  flag1  flag1 flag1  flag1

得到结果是：{:2_170:}
3.txt chr1  1-11  flag1
3.txt chr1  1-11  flag3

LZ 帮解释一下 what + why ?

A:
f1 f2 f1 f2 f1 f2 f1 f2 f3 f2 f3 f3 f1
B:
f1 f1 f2 f1 f1 f1 f2 f2 f1

得到结果是? and how ?

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

xiumu2280

家境小康

论坛徽章:: 8

15楼 [报告]

发表于 2014-08-11 20:42 |只看该作者

不是5个一组嘛
3.txt chr1  1-11  flag1
3.txt chr1  1-11  flag3
又是什么意思

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

chenhao392

稍有积蓄

论坛徽章:: 1

16楼 [报告]

发表于 2014-08-11 23:11 |只看该作者

bioinfo的表示看懂了，会写，但是没空....
NGS的数据处理，我表示我最关心文件大小....
你的这些文件多大？你的电脑内存多大？

硬件可以的话直接hash，不行的话就分步处理了。
另，LZ考虑看一些BEDtools，应该有用。https://code.google.com/p/bedtools/

To 其他Perler，此种文件一般动辄上Gb，多个文件，我担心Perl的Hash会吃掉很多内存。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

yestreenstars

富甲一方

论坛徽章:: 32

17楼 [报告]

发表于 2014-08-12 00:35 |只看该作者

土豪出手就是阔绰！

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

chenhao392

稍有积蓄

论坛徽章:: 1

18楼 [报告]

发表于 2014-08-12 05:02 |只看该作者

给个思路，LZ自己写写代码看看吧... 然后，此思路有用的假设是，你机器内存不足....

1. 将两行变一行，\t 分割。 chr1 1 100 11,22,33,44,55
2. 然后sort -k1 -k2n
4. Loop:
      a. 定义一个sliding window. 例如： chr1:1-10000
      b. 对于每一个文件，只读入一部分reads (sliding window定义范围)，建立若干工作hash
            做你需要的per base 的统计，输出flag
               i. 确保所有的相关reads都被读入了。
                  在这里,Loop 第一次为向下查到起始位置为10001, 因为sort了，之后的不用查了...
               ii. 你需要一个hash of array
                  key: position, such as: chr1:100
                  value: array of quality values
               iii. 因为每一个read有长度的限制，两个sliding window 之间的overlap只需要是这个长度就好..
                  这样会产生一定的冗余，但是输出stats该是一样的。计算速度该是可以接受的.
      c. 删除工作hash..
5. 将step 4的输出结果去冗余.

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

huang6894

大富大贵

论坛徽章:: 8

19楼 [报告]

发表于 2014-08-12 06:11 |只看该作者

回复 14# xiumu2280

是五个一组，不过，每组得到结果合并了

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

huang6894

大富大贵

论坛徽章:: 8

20楼 [报告]

发表于 2014-08-12 06:19 |只看该作者

回复 13# pitonas

对不起～我也很纠结啊～
A:
f1 f2 f1 f2 f1 f2 f1 f2 f3 f2 f3 f3 f1
B:
f1 f1 f2 f1 f1 f1 f2 f2 f1

得到结果是：首先a前五个得到f16-10得到f2后面的如果是有三个以上f3的话定义为f3.或者有f2紧跟着6-10的话该点并到6—10区域～
b前五个得到f1由于六七也是f1所以1—7归为f 1，剩下的三个得看后面了

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

123 4 5 / 5 页下一页

返回列表

Chinaunix › 论坛 › 程序设计 › Perl › 【问题】对N个相似文本进行计算分析？5000积分求解决~

【问题】对N个相似文本进行计算分析？5000积分求解决~ [复制链接]

浏览过的版块