免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: beerpapo
打印 上一主题 下一主题

[Mail] 请问大家是如何反图片垃圾邮件的? [复制链接]

论坛徽章:
0
101 [报告]
发表于 2007-03-15 12:05 |只看该作者
Abel,

从一开始也没有想和你辩论什么。其它人(公司)都是废物一堆。只有你不是。

可是从你的前几个帖子我就明白了,你研究反垃圾邮件仅仅是最初等的水平。
不是你水平不行,而是在30几个人的设备上无法研究。

你测试163的阻挡结果 0%, 你也敢说出来?不怕人笑话。

你发几个图片垃圾测试163,无论是否发到信箱都没有什么特别大的意义。

打个比喻,有人说海面是个球面,你非不相信,找来水平尺,经纬仪,标杆,甚至激光测距,划船测试,然后用几何计算,得出结论,海面就是平面。---- 这些测量计算是没有意义的。

论坛徽章:
1
荣誉会员
日期:2011-11-23 16:44:17
102 [报告]
发表于 2007-03-15 12:33 |只看该作者
原帖由 思一克 于 2007-3-15 12:05 发表
Abel,

从一开始也没有想和你辩论什么。其它人(公司)都是废物一堆。只有你不是。

可是从你的前几个帖子我就明白了,你研究反垃圾邮件仅仅是最初等的水平。
不是你水平不行,而是在30几个人的设备上无法研 ...

老大呀,你何必永遠忽略過去我做5萬人的經驗呢 ? 又是一堆斷章取義/顧左右而言他的方法
163  在我來看結果就是 0%, 這個結果沒有什麼問題,
如果我是初等,這裏許多朋友,包括你恐怕連初等都沒有吧
你好好把公安部的東西看過吧,你連增強型都沒達標,這東西五年前我做得到,
你到今天還沒有實現吧 ! 五年來我那可能還在原地

前面早就說過了,圖片做到 90% 以上就是看不過才吐你槽
人家用好的 Server (搞一推 zombie) 發圖片 (目的就是讓關鍵字放到圖片裏) 你欄得得到 ?
等你加了黑名單,幾十萬台讓你或百萬台讓你慢慢加吧,zombie 持續增加中,你也增加中
加到你跑不動再說

论坛徽章:
0
103 [报告]
发表于 2007-03-15 12:39 |只看该作者
那我问你,

要想90%阻挡图片垃圾,是不是一定要OCR识别出90%的文本字符才可以?如果OCR识别率不到90%,那么阻挡90%的图片垃圾一定是空想?

论坛徽章:
1
荣誉会员
日期:2011-11-23 16:44:17
104 [报告]
发表于 2007-03-15 12:55 |只看该作者
我認為就 OCR 中的字 90% 字認得出來也不可能做到 90%! 沒法全部認出就做不到像一般非圖片的結果!
而何況現實中 OCR 裏的東西跟本連50% 都做不到,經過精心處理的大概連5% 都沒有
如果做得到 ms 和 google 找就可以做到圖轉文,文轉圖了
你不用在講那些什麼檢查,有的沒有了,你連增強型都做不到還來說別人呀,


我看思兄總是言不及義呀,這兩年我們的交手你永遠都是老樣子呀
言不及義,顧左右言他

论坛徽章:
0
105 [报告]
发表于 2007-03-15 13:14 |只看该作者
Abel,

你完全错了。我不在和你谈这个问题了。我没有想到你竟然。。。

模式识别你知道?我问你,人们星期一早晨上班看自己INBOX中花化绿绿的垃圾(比如卖伟歌,股票的那种),立即删除了。人们是将图片中的文字详细读一遍(眼睛头脑中的OCR)才判定是垃圾的吗?
事实上,根本不需要详细读出。

退一步说,一个OCR将图片中文字仅仅识别了10%,比如将“A LALFS ABCDEFG STOCK OPTION”识别成了
??=+STO%%%%。

只要该10%的识别率是稳定的(对于目前的比较大部分垃圾图片可以找到稳定的部分),那么就根据该错误识别的字符串不就可以100%地阻挡该图片垃圾了?

也就是说,对于某类垃圾,10%的字符识别正确率,可以阻挡100%。

不和你费口舌了。没有想到在垃圾邮件问题上你的思维如此呆滞。





原帖由 abel 于 2007-3-15 12:55 发表
我認為就 OCR 中的字 90% 字認得出來也不可能做到 90%! 沒法全部認出就做不到像一般非圖片的結果!
而何況現實中 OCR 裏的東西跟本連50% 都做不到,經過精心處理的大概連5% 都沒有
如果做得到 ms 和 google 找就可 ...

论坛徽章:
1
荣誉会员
日期:2011-11-23 16:44:17
106 [报告]
发表于 2007-03-15 13:28 |只看该作者
你完全错了。我不在和你谈这个问题了。我没有想到你竟然。。。

因為你根本言不及義,拿公安部出來打你只是要形容你自己做出來的產品極其陽春

算了,都以你說的為準,只有一句話,千萬不要自己為是,自己專做 antispam 就認為別人非以 antispam 為主要工
作的人比不上你,你投入 80% 所做的事情在我自己來看不過投入了 20%,甚至做得比你好,比你早!

只要该10%的识别率是稳定的(对于目前的比较大部分垃圾图片可以找到稳定的部分),那么就根据该错误识别的字符串不就可以100%地阻挡该图片垃圾了?

你認為這句話解釋的過去 ? 這就是你的看法 ? 我看算了吧, "识别率" 這種東西想想 spamer 的心態吧
這也太牽強了吧,用 spamer 的角度去思考這個問題吧!

论坛徽章:
0
107 [报告]
发表于 2007-03-15 13:52 |只看该作者
有些垃圾为了不让OCR识别出稳定的部分,加了很多花边干扰。但这使得垃圾自己也不容易被接受者看清楚,广告效应就差了。

但是有很大比例种类的垃圾图片还是可以识别出稳定的部分。

----这仅仅是方法之一--- 是退一步讲的问题。方法是很多的。

论坛徽章:
1
荣誉会员
日期:2011-11-23 16:44:17
108 [报告]
发表于 2007-03-15 14:15 |只看该作者
原帖由 思一克 于 2007-3-15 13:52 发表
有些垃圾为了不让OCR识别出稳定的部分,加了很多花边干扰。但这使得垃圾自己也不容易被接受者看清楚,广告效应就差了。

但是有很大比例种类的垃圾图片还是可以识别出稳定的部分。

----这仅仅是方法之一---  ...

我看你的思考還是沒有進步呀, 前面早就說過了,灰階處理會讓人看不清楚 ? 粗體,斜體,變大變小(不差太多),班點...色調對換...文繞圖,圖繞文還不夠嗎 ?
再來,一個圖拆成3個給你 (目視像一個,但實際是三個) ,不夠? 一個字就是一個圖也行 ...
還不夠 ? 還有語系的問題,底圖的問題 ...一堆問題
(只要想想你住家的信箱廣告傳單的多樣性吧,你想的事只是一張白紙上寫上方方正正的字)
可是你巳經忙死了,因為應接不暇呀...

你只看到眼前的,卻不會思考到以後的,今天不是沒有這些例子,只是比例還很低而以
antispam 就是為了應付 spam , 而你就像標準做 antispam 的人,只看到眼前,
永遠都在應付 spam


如果一個圖片對字的識別率是 10%,就像一般的文字結果一般
如果你對文字內容只抽樣(不同的位置)10%,那就算原來 98% 的文字過濾技
術,平均理論值只會低於 1%,而不是最理想的 10%,那根本是作夢,高於 10% 那更是白日夢了
我看是你的推論才充滿了問題,和太多假設性,也不怪你,
因為你根本沒有內容過濾方案,所以無法體會

论坛徽章:
1
荣誉版主
日期:2011-11-23 16:44:17
109 [报告]
发表于 2007-03-15 14:20 |只看该作者
厉害 都讨论到100++ 的楼了

论坛徽章:
0
110 [报告]
发表于 2007-03-15 14:41 |只看该作者
你如何知道我的系统没有? 我还用找出几个人(也是CU人)证明才算数?

我一开始就没有让你相信我。现在也没有。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP