跨文件，同时多条件部分匹配。。？ [复制链接]

论坛徽章:: 0

3楼 [报告]

发表于 2012-03-24 15:49 |只看该作者

实际文件，无论文件一，还是文件二，都不只是只有这么几行，或者几列记录

我是已经为了便于查看后，挑选了几行记录，并删去其中一些没有关联系却字节很长的列

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 1

4楼 [报告]

发表于 2012-03-24 21:09 |只看该作者

106 + gi|1004503|gb|H55859.1|H55859 407 66 178 gi|9581785|emb|AL050318.13|HSDJ977B1(譬如此处第四，五部分并不相同) 145068 105442 120256 2

这行和前几行的格式怎么不一样

407 66 178

[winway@winway test]$ awk 'NR==FNR{a[$2 OFS $3]=$0;next}{f3=gensub(/^.*\|([^|.][^|.]*)\.*[^|]*\|*$/,"\\1","g",$3);f4=gensub(/^.*\|([^|.][^|.]*)\.*[^|]*\|*$/,"\\1","g",$4);if(f3 OFS f4 in a)print a[f3 OFS f4],$0}' file1 file2
HSA01340 AB014541 AB017119 135 - gi|20521114|dbj|AB014541.2| gi|4239981|dbj|AB017119.1| 2877 2742 2877 1
HSA01341 AB028069 AF125531 117 - gi|4996095|dbj|AB028069.1| gi|6563261|gb|AF125531.1|AF125531 1517 0 123 3
[winway@winway test]$

复制代码

和你给出的答案有点不一样，每行的末尾少了一串数字

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 0

5楼 [报告]

发表于 2012-03-25 09:44 |只看该作者

回复 3# winway1988

是不是我手动在括号内加了一些注释的话语，影响了格式。。

后面的数值还是需要的，实际文件中的每个内容都需要的，而且可能更长。。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 1

6楼 [报告]

发表于 2012-03-25 09:48 |只看该作者

回复 4# 怿_mao44

HSA01340 AB014541 AB017119 135 - gi|20521114|dbj|AB014541.2| gi|4239981|dbj|AB017119.1| 2877 2742 2877 1 135, 0, 2742,

比如你结果中的这行，行尾的

135, 0, 2742,

我没看出来什么怎么生成的。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 0

7楼 [报告]

发表于 2012-03-25 11:21 |只看该作者

回复 5# winway1988

这个是我手动加错的。。不用管，这个是怪我不小心的。。

只是输出结果是没有错，可是有遗漏的。。实际文件对应的是文件二$10，和$14，题目是删掉一些无关列的，所以才为$3和$4

$ awk 'NR==FNR{a[$2 OFS $3]=$0;next}{f10=gensub(/^.*\|([^|.][^|.]*)\.*[^|]*\|*$/,"\\1","g",$10);f14=gensub(/^.*\|([^|.][^|.]*)\.*[^|]*\|*$/,"\\1","g",$14);if(f10 OFS f14 in a)print a[f10 OFS f14],$0}' fileA fileB |wc -l
4861

复制代码

但是利用其他的方法，得到的记录数却不一样

awk -f pair.awk fileA |wc -l
5170
BEGIN{
while (getline < "fileB")
a[$10FS$14]=$0 }
{ for (item in a)
{ split(item,b)
if(b[1]~$2 && b[2]~$3)
print $0"\t"a[item]
}
}

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 1

8楼 [报告]

发表于 2012-03-25 12:02 |只看该作者

本帖最后由 winway1988 于 2012-03-25 12:02 编辑

回复 6# 怿_mao44

可以看看两种输出不同的行，找找是什么原因引起的。
我怀疑是不是类似这样的行引起的

106 + gi|1004503|gb|H55859.1|H55859 407 66 178 gi|9581785|emb|AL050318.13|HSDJ977B1 145068 105442 120256 2

这行按你的方法有没有可能匹配fileA里的两行

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 0

9楼 [报告]

发表于 2012-03-25 12:46 |只看该作者

回复 7# winway1988

我又添加了这种实例

不过我觉得应该不是这个的影响，因为在结果中，确实找到能匹配这种情况结果的记录

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？