免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: huang6894
打印 上一主题 下一主题

【问题】对N个相似文本进行计算分析?5000积分求解决~ [复制链接]

论坛徽章:
8
技术图书徽章
日期:2013-08-22 11:21:28未羊
日期:2015-01-19 22:22:25巳蛇
日期:2014-08-11 16:53:08子鼠
日期:2014-05-29 09:04:44摩羯座
日期:2014-04-11 14:15:07丑牛
日期:2014-01-24 12:41:28金牛座
日期:2013-11-21 17:38:28射手座
日期:2015-01-21 08:50:32
21 [报告]
发表于 2014-08-12 06:19 |只看该作者
回复 13# pitonas


    对不起~我也很纠结啊~
A:
f1 f2 f1 f2 f1 f2 f1 f2 f3 f2 f3 f3 f1
B:
f1 f1 f2 f1 f1 f1 f2 f2 f1

得到结果是:首先a前五个得到f16-10得到f2后面的如果是有三个以上f3的话定义为f3.或者有f2紧跟着6-10的话该点并到6—10区域~
b前五个得到f1由于六七也是f1所以1—7归为f 1,剩下的三个得看后面了

论坛徽章:
8
技术图书徽章
日期:2013-08-22 11:21:28未羊
日期:2015-01-19 22:22:25巳蛇
日期:2014-08-11 16:53:08子鼠
日期:2014-05-29 09:04:44摩羯座
日期:2014-04-11 14:15:07丑牛
日期:2014-01-24 12:41:28金牛座
日期:2013-11-21 17:38:28射手座
日期:2015-01-21 08:50:32
22 [报告]
发表于 2014-08-12 06:20 |只看该作者
回复 15# chenhao392


    文件倒是挺小的,一个也就1M,大概50个的样子

论坛徽章:
8
技术图书徽章
日期:2013-08-22 11:21:28未羊
日期:2015-01-19 22:22:25巳蛇
日期:2014-08-11 16:53:08子鼠
日期:2014-05-29 09:04:44摩羯座
日期:2014-04-11 14:15:07丑牛
日期:2014-01-24 12:41:28金牛座
日期:2013-11-21 17:38:28射手座
日期:2015-01-21 08:50:32
23 [报告]
发表于 2014-08-12 06:22 |只看该作者
回复 17# chenhao392


    遇到生信大神了,这很像之前看到的某文章提到的算法诶,谢谢,谢谢

论坛徽章:
8
技术图书徽章
日期:2013-08-22 11:21:28未羊
日期:2015-01-19 22:22:25巳蛇
日期:2014-08-11 16:53:08子鼠
日期:2014-05-29 09:04:44摩羯座
日期:2014-04-11 14:15:07丑牛
日期:2014-01-24 12:41:28金牛座
日期:2013-11-21 17:38:28射手座
日期:2015-01-21 08:50:32
24 [报告]
发表于 2014-08-12 06:23 |只看该作者
回复 16# yestreenstars


    这……呵呵,呵呵呵~~

论坛徽章:
8
技术图书徽章
日期:2013-08-22 11:21:28未羊
日期:2015-01-19 22:22:25巳蛇
日期:2014-08-11 16:53:08子鼠
日期:2014-05-29 09:04:44摩羯座
日期:2014-04-11 14:15:07丑牛
日期:2014-01-24 12:41:28金牛座
日期:2013-11-21 17:38:28射手座
日期:2015-01-21 08:50:32
25 [报告]
发表于 2014-08-12 06:43 |只看该作者
各位大神,第一问,我好像能实现诶~主要是第二问:只有在一个区域(最少连续5个点)中有60%(3个)以上相同的flag时,认为该flag可信,输出这个区域和flag,如chr1 2-6  flag1

能不能这样,我把每个点做比较后的结果进行分别赋值,比如flag1是1,flag2是2.flag3是4,然后对每个连续的点进行加运算,问题是,有没有相关的方法支持判断N个数平均值是否在某指定范围,若果是,继续和下一个点相加求平均再判断~如此类推……
好像不太行………
我去试试,😁

论坛徽章:
23
15-16赛季CBA联赛之吉林
日期:2017-12-21 16:39:27白羊座
日期:2014-10-27 11:14:37申猴
日期:2014-10-23 08:36:23金牛座
日期:2014-09-30 08:26:49午马
日期:2014-09-29 09:40:16射手座
日期:2014-11-25 08:56:112015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:49:0315-16赛季CBA联赛之山东
日期:2017-12-21 16:39:1915-16赛季CBA联赛之广东
日期:2016-01-19 13:33:372015亚冠之山东鲁能
日期:2015-10-13 09:39:062015亚冠之西悉尼流浪者
日期:2015-09-21 08:27:57
26 [报告]
发表于 2014-08-12 08:58 |只看该作者
回复 23# huang6894


盖了这么多楼,1楼的2个原始文本想得到的结果都没有。

计算均值 和 Region 有没有关系?
同一个文本中明显有区间重叠的,怎么算?
Region 1 : chr1 21 33
Region 4 : chr1 21 33

论坛徽章:
8
技术图书徽章
日期:2013-08-22 11:21:28未羊
日期:2015-01-19 22:22:25巳蛇
日期:2014-08-11 16:53:08子鼠
日期:2014-05-29 09:04:44摩羯座
日期:2014-04-11 14:15:07丑牛
日期:2014-01-24 12:41:28金牛座
日期:2013-11-21 17:38:28射手座
日期:2015-01-21 08:50:32
27 [报告]
发表于 2014-08-12 09:15 |只看该作者
回复 24# ly5066113


    嘿嘿~抱歉抱歉,我不是故意的~
----------------------------------------------
区域不会有重叠,每个区域实际上会相距几百个单位以上~抱歉了抱歉了~

论坛徽章:
23
15-16赛季CBA联赛之吉林
日期:2017-12-21 16:39:27白羊座
日期:2014-10-27 11:14:37申猴
日期:2014-10-23 08:36:23金牛座
日期:2014-09-30 08:26:49午马
日期:2014-09-29 09:40:16射手座
日期:2014-11-25 08:56:112015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:49:0315-16赛季CBA联赛之山东
日期:2017-12-21 16:39:1915-16赛季CBA联赛之广东
日期:2016-01-19 13:33:372015亚冠之山东鲁能
日期:2015-10-13 09:39:062015亚冠之西悉尼流浪者
日期:2015-09-21 08:27:57
28 [报告]
发表于 2014-08-12 09:47 |只看该作者
回复 25# huang6894


最少连续5个点,也就是5个及5个以上,当发生冲突的时候,怎么处理?

flag1 flag1 flag2 flag2 flag1 flag2 flag2

1-5 是 flag1
2-7 是 flag2

优先 2-7 的?


flag1 flag1 flag2 flag2 flag1 flag2

1-5 是 flag1
2-6 是 flag2

又以哪个为准?

论坛徽章:
0
29 [报告]
发表于 2014-08-12 10:47 |只看该作者
3.txt:

flag3 flag1 flag3 flag1 flag1  flag3  flag1  flag1  flag1   flag1  flag1  

4.txt:

flag3 flag3 flag3 flag3 flag3  flag3  flag3  flag3  flag3   flag3  flag3  

根據規則

3.txt    chr1  1-11  flag1
3.txt    chr1  1-11  flag3

這兩行結果是不是你打錯了

實際上是

3.txt    chr1  1-11  flag1
4.txt    chr1  1-11  flag3

论坛徽章:
8
技术图书徽章
日期:2013-08-22 11:21:28未羊
日期:2015-01-19 22:22:25巳蛇
日期:2014-08-11 16:53:08子鼠
日期:2014-05-29 09:04:44摩羯座
日期:2014-04-11 14:15:07丑牛
日期:2014-01-24 12:41:28金牛座
日期:2013-11-21 17:38:28射手座
日期:2015-01-21 08:50:32
30 [报告]
发表于 2014-08-12 11:34 |只看该作者
回复 26# ly5066113


    按照优先级,首先flag1
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP