免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: wlyqiqi
打印 上一主题 下一主题

[文本处理] awk相关问题 [复制链接]

论坛徽章:
0
41 [报告]
发表于 2014-04-23 18:26 |只看该作者
回复 40# Herowinter
AP用n=50

   

论坛徽章:
0
42 [报告]
发表于 2014-04-23 18:33 |只看该作者
回复 40# Herowinter


第一行 无效的-v ,是版本问题?

论坛徽章:
780
金牛座
日期:2014-02-26 17:49:58水瓶座
日期:2014-02-26 18:10:15白羊座
日期:2014-04-15 19:29:52寅虎
日期:2014-04-17 19:43:21酉鸡
日期:2014-04-19 21:24:10子鼠
日期:2014-04-22 13:55:24卯兔
日期:2014-04-22 14:20:58亥猪
日期:2014-04-22 16:13:09狮子座
日期:2014-05-05 22:31:17摩羯座
日期:2014-05-06 10:32:53处女座
日期:2014-05-12 09:23:11子鼠
日期:2014-05-21 18:21:27
43 [报告]
发表于 2014-04-23 18:35 |只看该作者
回复 42# wlyqiqi
有点吐血了。。。改成这样吧。
  1. awk 'BEGIN{n=10} NR==FNR{a[$1" "$3];next} {if(++c[$1]<=n)b[$1" "$3]} END{for(i in b){split(i,key," ");k=key[1];if(i in a){A[k]++}else B[k]++};for(i in a){split(i,key," ");k=key[1];if(!(i in b))C[k]++};print "key\t准确率\t召回率\tF1";for(i in c){P=A[i]/(A[i]+B[i]);R=A[i]/(A[i]+C[i]);F1=(P+R)>0?2*P*R/(P+R):0;printf "%s\t%.4f\t%.4f\t%.4f\n",i,P,R,F1;}}' training.qrels TF_IDF_0.res|sort -n -k1
复制代码

论坛徽章:
0
44 [报告]
发表于 2014-04-23 18:37 |只看该作者
回复 43# Herowinter
O~麻烦你了

   

论坛徽章:
0
45 [报告]
发表于 2014-04-23 20:31 |只看该作者
回复 43# Herowinter

额。。。最后一个AP很难吗
   

论坛徽章:
780
金牛座
日期:2014-02-26 17:49:58水瓶座
日期:2014-02-26 18:10:15白羊座
日期:2014-04-15 19:29:52寅虎
日期:2014-04-17 19:43:21酉鸡
日期:2014-04-19 21:24:10子鼠
日期:2014-04-22 13:55:24卯兔
日期:2014-04-22 14:20:58亥猪
日期:2014-04-22 16:13:09狮子座
日期:2014-05-05 22:31:17摩羯座
日期:2014-05-06 10:32:53处女座
日期:2014-05-12 09:23:11子鼠
日期:2014-05-21 18:21:27
46 [报告]
发表于 2014-04-23 22:13 |只看该作者
本帖最后由 Herowinter 于 2014-04-23 22:17 编辑

回复 45# wlyqiqi
要两维数组呀,比如说对001,
你读到当前这行的时候不知道这个是不是最后
一个001,要把所有001都读完,
然后求(AP["001"][1]=4/24,AP["002"][2]=3/3...)平均值呀,
中间还要计数,去另一个文件核对,算这些4 ,24,3什么的,
你总不能要求我加班帮你搞吧。


   

论坛徽章:
0
47 [报告]
发表于 2014-04-23 22:28 |只看该作者
回复 46# Herowinter
额。。。这个是挺麻烦的。  可以用另一种方法替代 Mean Reciprocal Rank,对于一个query,第一个结果匹配,分数为1,第二个匹配分数为0.5,第n个匹配分数为1/n,如果没有匹配的句子分数为0。最终的分数为所有得分之和。 这个是不是简单些。。。

辛苦了,谢谢。。。


   

论坛徽章:
780
金牛座
日期:2014-02-26 17:49:58水瓶座
日期:2014-02-26 18:10:15白羊座
日期:2014-04-15 19:29:52寅虎
日期:2014-04-17 19:43:21酉鸡
日期:2014-04-19 21:24:10子鼠
日期:2014-04-22 13:55:24卯兔
日期:2014-04-22 14:20:58亥猪
日期:2014-04-22 16:13:09狮子座
日期:2014-05-05 22:31:17摩羯座
日期:2014-05-06 10:32:53处女座
日期:2014-05-12 09:23:11子鼠
日期:2014-05-21 18:21:27
48 [报告]
发表于 2014-04-23 22:33 |只看该作者
回复 47# wlyqiqi
明天会帮你搞好的。

   

论坛徽章:
32
处女座
日期:2013-11-20 23:41:20双子座
日期:2014-06-11 17:20:43戌狗
日期:2014-06-16 11:05:00处女座
日期:2014-07-22 17:30:47狮子座
日期:2014-07-28 15:38:17金牛座
日期:2014-08-05 16:34:01亥猪
日期:2014-08-18 13:34:25白羊座
日期:2014-09-02 15:03:55金牛座
日期:2014-11-10 10:23:58处女座
日期:2014-12-02 09:17:52程序设计版块每日发帖之星
日期:2015-06-16 22:20:002015亚冠之塔什干火车头
日期:2015-06-20 23:28:22
49 [报告]
发表于 2014-04-23 22:49 |只看该作者
回复 48# Herowinter

不错,有我当年的干劲,永不满足的需求,不断修改的代码,相信你很快也会成长起来~{:2_168:}
   

论坛徽章:
780
金牛座
日期:2014-02-26 17:49:58水瓶座
日期:2014-02-26 18:10:15白羊座
日期:2014-04-15 19:29:52寅虎
日期:2014-04-17 19:43:21酉鸡
日期:2014-04-19 21:24:10子鼠
日期:2014-04-22 13:55:24卯兔
日期:2014-04-22 14:20:58亥猪
日期:2014-04-22 16:13:09狮子座
日期:2014-05-05 22:31:17摩羯座
日期:2014-05-06 10:32:53处女座
日期:2014-05-12 09:23:11子鼠
日期:2014-05-21 18:21:27
50 [报告]
发表于 2014-04-24 13:41 |只看该作者
回复 49# yestreenstars
多谢多谢,来论坛后承蒙大家关照,
获益良多,今后还要向你多多学习。


   
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP