免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12345678
最近访问板块 发新帖
楼主: wlyqiqi
打印 上一主题 下一主题

[文本处理] awk相关问题 [复制链接]

论坛徽章:
0
71 [报告]
发表于 2014-04-26 17:24 |只看该作者
回复 70# Herowinter
A+B或A+C不可能等于0啊,我一个一个的找了TF_IDF每个query都有相对应的。。。
在这个TF_IDF里   A+B=25 这是固定的
                        A+C是我Etraining里要找的



   

论坛徽章:
0
72 [报告]
发表于 2014-04-26 17:28 |只看该作者
回复 71# wlyqiqi
那就设立一个条件,如果A+C或者A+B=0 ,就输出结果0
   

论坛徽章:
769
金牛座
日期:2014-02-26 17:49:58水瓶座
日期:2014-02-26 18:10:15白羊座
日期:2014-04-15 19:29:52寅虎
日期:2014-04-17 19:43:21酉鸡
日期:2014-04-19 21:24:10子鼠
日期:2014-04-22 13:55:24卯兔
日期:2014-04-22 14:20:58亥猪
日期:2014-04-22 16:13:09狮子座
日期:2014-05-05 22:31:17摩羯座
日期:2014-05-06 10:32:53处女座
日期:2014-05-12 09:23:11子鼠
日期:2014-05-21 18:21:27
73 [报告]
发表于 2014-04-26 17:33 |只看该作者
回复 71# wlyqiqi
A+C当然可能等于0,假设你TIF文件有25条记录,
这25个记录的key($1$3)都不在training文件中,
就会出现A=0,B=25;然后如果你training文件中的
key($1$3)反过来在TIF文件中也找不到,则C=0,
这时候A+C=0;
另一种情况,你TIF总共有50条记录,你限制了n=25
只处理前面25条,如果这25条都是无效的记录,也会
出现分母为0。

论坛徽章:
769
金牛座
日期:2014-02-26 17:49:58水瓶座
日期:2014-02-26 18:10:15白羊座
日期:2014-04-15 19:29:52寅虎
日期:2014-04-17 19:43:21酉鸡
日期:2014-04-19 21:24:10子鼠
日期:2014-04-22 13:55:24卯兔
日期:2014-04-22 14:20:58亥猪
日期:2014-04-22 16:13:09狮子座
日期:2014-05-05 22:31:17摩羯座
日期:2014-05-06 10:32:53处女座
日期:2014-05-12 09:23:11子鼠
日期:2014-05-21 18:21:27
74 [报告]
发表于 2014-04-26 17:38 |只看该作者
回复 72# wlyqiqi
  1. awk 'NR==FNR{a[$1" "$3];c[$1];count[$1]++;next} {if($1" "$3 in a){APtmp[$1" "A[$1]]=++A[$1]/++$4}else B[$1]++;b[$1" "$3]} END{for(i in a){split(i,key," ");k=key[1];if(!(i in b))C[k]++};for(i in APtmp){split(i,key," ");k=key[1];AP[k]+=APtmp[i]} print "key\t准确率\t召回率\tF1\tAP";for(i in c){P=(A[i]+B[i])>0?A[i]/(A[i]+B[i]):0;R=(A[i]+C[i])>0?A[i]/(A[i]+C[i]):0;F1=(P+R)>0?2*P*R/(P+R):0;APi=AP[i]/count[i];printf "%s\t%.4f\t%.4f\t%.4f\t%.4f\n",i,P,R,F1,APi}}' training.qrels TF_IDF_0.res|sort -n -k1
复制代码
希望你能搞定吧,我基本很难再帮上了,
没办法运行看结果。
   

论坛徽章:
0
75 [报告]
发表于 2014-04-26 17:51 |只看该作者
回复 74# Herowinter
有结果出来了~! {:3_200:} Thank you!
win8应该也可以去安装个linux系统吧

   

论坛徽章:
769
金牛座
日期:2014-02-26 17:49:58水瓶座
日期:2014-02-26 18:10:15白羊座
日期:2014-04-15 19:29:52寅虎
日期:2014-04-17 19:43:21酉鸡
日期:2014-04-19 21:24:10子鼠
日期:2014-04-22 13:55:24卯兔
日期:2014-04-22 14:20:58亥猪
日期:2014-04-22 16:13:09狮子座
日期:2014-05-05 22:31:17摩羯座
日期:2014-05-06 10:32:53处女座
日期:2014-05-12 09:23:11子鼠
日期:2014-05-21 18:21:27
76 [报告]
发表于 2014-04-26 18:48 |只看该作者
回复 75# wlyqiqi
不想把工作带进生活,应该可以装个
cygwin之类的。
   
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP