一介村夫
发表于 2012-04-18 13:41
题库都是细枝末节,过了你那个门槛,不是一样为所欲为?
屁股发痒
发表于 2012-04-18 13:53
:$
一介村夫
发表于 2012-04-18 15:28
设门槛纯属没用。
门槛高了,新人不爱来;门槛低了,广告成本低。
比如10帖的门槛,转发个12星座本月运势就够了。
10分钟的copy+paste,晚上就能搞几百帖。
刘五十三
发表于 2012-04-18 17:15
一介村夫 发表于 2012-04-18 13:40 static/image/common/back.gif
正因为相似性判断算法不是你想象的那么容易,所以我才要估个好价钱。
自己想不到的东西,不见得世界上就不存在哦。
你这是理论派,不怕麻烦搞理论的。我是实用主义,只要能最简单最方便解决,怎么解决不在乎。
主题内容相似判断很容易绕过的,我随便就能想到3种方法 1 拆字 走召代表超,十八子是李 2 火星文 你吃了吗写成 妳哧勒麻 3 排列,比如一句话竖排表示,或倒序
关键字算法垃圾邮件过滤早有了,就是贝叶斯算法,通过学习ham和spam,打分机制来搞的。感觉又消耗cpu又意思不大。远不如行为模式法好使。根据我的实际测试,用上这算法处理速度下降10倍整整一个数量级。
完全封掉水军不现实,提高他们成本,逼他们用人工发帖就行了。看着他们辛辛苦苦发了半天,几下子就被删掉多爽。
一介村夫
发表于 2012-04-18 18:34
刘五十三 发表于 2012-04-18 17:15 static/image/common/back.gif
你这是理论派,不怕麻烦搞理论的。我是实用主义,只要能最简单最方便解决,怎么解决不在乎。
主题内 ...
用我的方法可以不设门槛,全时段封杀广告机器人,而且效率绝对比你的高。
这样既不影响新人加入,又起到了封杀的作用,而且对现系统的改动量很小。
emperor
发表于 2012-04-18 19:21
村村这狗屁算法也能挣30分,哥去年就提过了,而且貌似CU已经采用了,那10贴制度:outu:。。。。。
一介村夫
发表于 2012-04-18 20:33
emperor 发表于 2012-04-18 19:21 static/image/common/back.gif
村村这狗屁算法也能挣30分,哥去年就提过了,而且貌似CU已经采用了,那10贴制度。。。。。
CU要是采用了,就不会有那么多广告帖了。
关键是标题匹配比较算法,在CU显然是不存在的。
emperor
发表于 2012-04-18 20:44
回复 17# 一介村夫
如果没采用,会更惨。。。。。
emperor
发表于 2012-04-18 20:45
之前是浩浩荡荡好几页,现在一般超不过1-2页去。。。。
emperor
发表于 2012-04-18 20:46
比较算法,模糊算法有那么容易吗,相似度怎么匹配?很容易误伤的。。。。。。