免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
123下一页
最近访问板块 发新帖
查看: 3487 | 回复: 24
打印 上一主题 下一主题

我的防机器人广告算法能不能拍卖啊? [复制链接]

论坛徽章:
24
金牛座
日期:2013-10-18 21:35:56综合交流区版块每日发帖之星
日期:2015-08-15 06:20:00综合交流区版块每日发帖之星
日期:2015-09-30 06:20:00综合交流区版块每日发帖之星
日期:2015-10-16 06:20:03每日论坛发贴之星
日期:2015-10-16 06:20:03综合交流区版块每日发帖之星
日期:2015-10-24 06:20:00IT运维版块每日发帖之星
日期:2016-01-06 06:20:0015-16赛季CBA联赛之天津
日期:2016-02-25 16:28:04综合交流区版块每日发帖之星
日期:2016-06-12 06:20:00每日论坛发贴之星
日期:2016-06-12 06:20:00综合交流区版块每日发帖之星
日期:2016-06-13 06:20:00综合交流区版块每日发帖之星
日期:2015-06-22 22:20:00
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2012-04-17 12:11 |只看该作者 |倒序浏览
CU准备出多少分买?
我可以保证该算法不易被机器人学习和破解,且即使它知道了算法,想攻陷该算法也是得不偿失。

论坛徽章:
0
2 [报告]
发表于 2012-04-17 12:51 |只看该作者
搞定txt2jpg就可以了,然后找一堆的数学题和简单问题,比如随便两个数相加等于几,中国的首都是什么。后面就可以叫cu前台写题库,一个问题字段,一个答案字段放入数据库就可以了。新浪微博有时候关注就能碰上这种题目。

还可以用时段控制法,18:00-08:00 必须积分大于2000才允许在清茶发主贴,新ID允许半夜发主贴的论坛只有新手园地就行。新闻版从不被暴全靠这个。
或版主值班可以手工允许新id发主贴,就像红绿灯定时控制。但是交警有遥控器可以设为H就是hand手动,要它红灯就红灯,绿灯就绿灯。

简单密码可以采取反向破法,cu自己拿出数据库中全部id的txt文件,然后编个刺探密码程序用简单密码挨个试,找到简单密码帐号就封掉不允许发帖,必须修改密码后才能发主贴,修改密码过程多搞几个第一步中的txt2jpg问题,逼广告发送者手工做。

对应挖坟爱好者,也可以用txt2jpg法,回帖和最后一帖时间相差大于30天定义为挖坟,必须回答校验问题才能发帖。如此也能敲掉机器人,逼对方手工挖坟。

由此看txt2jpg是核心竞争力,外围还需要一个题库注入和删除程序,将来还可以开放允许cu用户写题目,比如谁想当版主,先贡献100个机器人校验问题,不准太难,不能重复以前的问题。感觉这玩意难度应该不大,要想省钱省事看那个想当版主的入版积极份子叫他写出来当投名状就行了。

最重要的,绝对不要给村夫积分,他是诈骗犯,当年诈骗我一个回帖,我现在都忘不掉,还差我10个真空包装特辣酱板鸭。建议叫村夫当码农写下这些程序赎罪,外加没收其全部财产,关入小黑屋劳教3年。

评分

参与人数 1可用积分 +30 收起 理由
fanglq04 + 30 很感谢提供的思路

查看全部评分

论坛徽章:
24
金牛座
日期:2013-10-18 21:35:56综合交流区版块每日发帖之星
日期:2015-08-15 06:20:00综合交流区版块每日发帖之星
日期:2015-09-30 06:20:00综合交流区版块每日发帖之星
日期:2015-10-16 06:20:03每日论坛发贴之星
日期:2015-10-16 06:20:03综合交流区版块每日发帖之星
日期:2015-10-24 06:20:00IT运维版块每日发帖之星
日期:2016-01-06 06:20:0015-16赛季CBA联赛之天津
日期:2016-02-25 16:28:04综合交流区版块每日发帖之星
日期:2016-06-12 06:20:00每日论坛发贴之星
日期:2016-06-12 06:20:00综合交流区版块每日发帖之星
日期:2016-06-13 06:20:00综合交流区版块每日发帖之星
日期:2015-06-22 22:20:00
3 [报告]
发表于 2012-04-17 13:20 |只看该作者
这个算法不便于在这里公开,谁也不能保证5毛会不会来偷看。
别到时候正算法还没搞出来上线,反算法或者其它的绕道算法先出来了。

论坛徽章:
24
金牛座
日期:2013-10-18 21:35:56综合交流区版块每日发帖之星
日期:2015-08-15 06:20:00综合交流区版块每日发帖之星
日期:2015-09-30 06:20:00综合交流区版块每日发帖之星
日期:2015-10-16 06:20:03每日论坛发贴之星
日期:2015-10-16 06:20:03综合交流区版块每日发帖之星
日期:2015-10-24 06:20:00IT运维版块每日发帖之星
日期:2016-01-06 06:20:0015-16赛季CBA联赛之天津
日期:2016-02-25 16:28:04综合交流区版块每日发帖之星
日期:2016-06-12 06:20:00每日论坛发贴之星
日期:2016-06-12 06:20:00综合交流区版块每日发帖之星
日期:2016-06-13 06:20:00综合交流区版块每日发帖之星
日期:2015-06-22 22:20:00
4 [报告]
发表于 2012-04-17 22:30 |只看该作者
比我的过滤条件粗多了。
这都能挣30分啊!

论坛徽章:
24
金牛座
日期:2013-10-18 21:35:56综合交流区版块每日发帖之星
日期:2015-08-15 06:20:00综合交流区版块每日发帖之星
日期:2015-09-30 06:20:00综合交流区版块每日发帖之星
日期:2015-10-16 06:20:03每日论坛发贴之星
日期:2015-10-16 06:20:03综合交流区版块每日发帖之星
日期:2015-10-24 06:20:00IT运维版块每日发帖之星
日期:2016-01-06 06:20:0015-16赛季CBA联赛之天津
日期:2016-02-25 16:28:04综合交流区版块每日发帖之星
日期:2016-06-12 06:20:00每日论坛发贴之星
日期:2016-06-12 06:20:00综合交流区版块每日发帖之星
日期:2016-06-13 06:20:00综合交流区版块每日发帖之星
日期:2015-06-22 22:20:00
5 [报告]
发表于 2012-04-17 22:46 |只看该作者
我也粗粗地说说思路,看看能不能挣点分。

1. 可以选择一个校验时段,比如18:00-09:00,校验条件只在该时段生效。(可选条件)

2. 指定一个时限,比如10分钟,对校验时段内的主题帖,要根据发帖人IP回溯同一IP在该时限内的所有主题帖进行比较。(注意是IP不是ID)

3. 主题的模糊比较规则是,当主题相似度超过一定比例时,需要额外输入验证码,或者禁止发帖。(可根据经验选择50%-80%的值)

4. 模糊比较算法,待收到足够分数后,以站内短信方式提供。(所谓足够分数,是指对管理员人工删帖劳动成本的合理评估)

评分

参与人数 1可用积分 +30 收起 理由
fanglq04 + 30 集思广益

查看全部评分

论坛徽章:
0
6 [报告]
发表于 2012-04-18 12:58 |只看该作者
主题相似度搞起来麻烦,而且发广告的很容易规避的。你这有点像垃圾邮件算法中的贝叶斯分析和打分机制,3次函数都用上了,太复杂了。

垃圾邮件发送者对应关键字分析的方法是故意拼错单词,比如viagra伟哥写成v1agra。

电脑爬虫和人的本质区别是人有理解能力。我想了下,其实txt2jpg都没必要,就用文本也差不多,只要题库给力,比如

1 走召弓虽是什么意思?

2 http://bbs.chinaunix.net/forum-115-1.html  是那个论坛?

3 http://bbs.chinaunix.net/thread-3719035-1-1.html 的帖子第一个字是什么?

4 http://bbs.chinaunix.net/data/at ... common_121_icon.png 图片里面是什么东西?

然后搞选择题,正常人解决都没问题。电脑搞的话,累死它,发广告的要解决了自然语言识别,自然语言语义理解,图形模式识别的话,那已经是教授级水平了,根本不用吃这碗水军饭了。题库找点小学生幼儿园语文题库,数学题库就差不多了。

为了方便可以允许第一个主题帖没有校验问题,第二个如果10分钟内发必须回答问题。或积分到多少允许发帖不用校验也行。这是另一条路了,不过选择太多也未必就一定好,还是看怎么做最简单。比如可以允许积分大于2000的评分,但是只能评负分,这个修改应该不难,这就可以靠群众精确打击广告,还没有刷分问题。

评分

参与人数 1可用积分 +5 收起 理由
fanglq04 + 5 赞一个!

查看全部评分

论坛徽章:
49
15-16赛季CBA联赛之福建
日期:2016-06-22 16:22:002015年亚洲杯之中国
日期:2015-01-23 16:25:12丑牛
日期:2015-01-20 09:39:23未羊
日期:2015-01-14 23:55:57巳蛇
日期:2015-01-06 18:21:36双鱼座
日期:2015-01-02 22:04:33午马
日期:2014-11-25 09:58:35辰龙
日期:2014-11-18 10:40:07寅虎
日期:2014-11-13 22:47:15申猴
日期:2014-10-22 15:29:50摩羯座
日期:2014-08-27 10:49:43辰龙
日期:2014-08-21 10:47:58
7 [报告]
发表于 2012-04-18 13:12 |只看该作者
刘五十三 发表于 2012-04-18 12:58
主题相似度搞起来麻烦,而且发广告的很容易规避的。你这有点像垃圾邮件算法中的贝叶斯分析和打分机制,3次函 ...


也是,下次做一两个复杂的题库,但是貌似现在的题目,垃圾信息发布机器是能绕过的?

论坛徽章:
0
8 [报告]
发表于 2012-04-18 13:14 |只看该作者
send_linux 发表于 2012-04-18 13:12
也是,下次做一两个复杂的题库,但是貌似现在的题目,垃圾信息发布机器是能绕过的?

要能绕过显然是程序有bug,要不就是你题库太无聊了,什么11-1等于几。

论坛徽章:
49
15-16赛季CBA联赛之福建
日期:2016-06-22 16:22:002015年亚洲杯之中国
日期:2015-01-23 16:25:12丑牛
日期:2015-01-20 09:39:23未羊
日期:2015-01-14 23:55:57巳蛇
日期:2015-01-06 18:21:36双鱼座
日期:2015-01-02 22:04:33午马
日期:2014-11-25 09:58:35辰龙
日期:2014-11-18 10:40:07寅虎
日期:2014-11-13 22:47:15申猴
日期:2014-10-22 15:29:50摩羯座
日期:2014-08-27 10:49:43辰龙
日期:2014-08-21 10:47:58
9 [报告]
发表于 2012-04-18 13:26 |只看该作者
刘五十三 发表于 2012-04-18 13:14
要能绕过显然是程序有bug,要不就是你题库太无聊了,什么11-1等于几。


但是机器是跳不过去的啊,我那个是1l-1o等于多少,这样的,可能是我们题库太小了,应该弄个50题。

论坛徽章:
24
金牛座
日期:2013-10-18 21:35:56综合交流区版块每日发帖之星
日期:2015-08-15 06:20:00综合交流区版块每日发帖之星
日期:2015-09-30 06:20:00综合交流区版块每日发帖之星
日期:2015-10-16 06:20:03每日论坛发贴之星
日期:2015-10-16 06:20:03综合交流区版块每日发帖之星
日期:2015-10-24 06:20:00IT运维版块每日发帖之星
日期:2016-01-06 06:20:0015-16赛季CBA联赛之天津
日期:2016-02-25 16:28:04综合交流区版块每日发帖之星
日期:2016-06-12 06:20:00每日论坛发贴之星
日期:2016-06-12 06:20:00综合交流区版块每日发帖之星
日期:2016-06-13 06:20:00综合交流区版块每日发帖之星
日期:2015-06-22 22:20:00
10 [报告]
发表于 2012-04-18 13:40 |只看该作者
刘五十三 发表于 2012-04-18 12:58
主题相似度搞起来麻烦,而且发广告的很容易规避的。你这有点像垃圾邮件算法中的贝叶斯分析和打分机制,3次函 ...

正因为相似性判断算法不是你想象的那么容易,所以我才要估个好价钱。
自己想不到的东西,不见得世界上就不存在哦。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP