- 论坛徽章:
- 1
|
原帖由 思一克 于 2007-3-15 13:52 发表
有些垃圾为了不让OCR识别出稳定的部分,加了很多花边干扰。但这使得垃圾自己也不容易被接受者看清楚,广告效应就差了。
但是有很大比例种类的垃圾图片还是可以识别出稳定的部分。
----这仅仅是方法之一--- ...
我看你的思考還是沒有進步呀, 前面早就說過了,灰階處理會讓人看不清楚 ? 粗體,斜體,變大變小(不差太多),班點...色調對換...文繞圖,圖繞文還不夠嗎 ?
再來,一個圖拆成3個給你 (目視像一個,但實際是三個) ,不夠? 一個字就是一個圖也行 ...
還不夠 ? 還有語系的問題,底圖的問題 ...一堆問題
(只要想想你住家的信箱廣告傳單的多樣性吧,你想的事只是一張白紙上寫上方方正正的字)
可是你巳經忙死了,因為應接不暇呀...
你只看到眼前的,卻不會思考到以後的,今天不是沒有這些例子,只是比例還很低而以
antispam 就是為了應付 spam , 而你就像標準做 antispam 的人,只看到眼前,
永遠都在應付 spam
如果一個圖片對字的識別率是 10%,就像一般的文字結果一般
如果你對文字內容只抽樣(不同的位置)10%,那就算原來 98% 的文字過濾技
術,平均理論值只會低於 1%,而不是最理想的 10%,那根本是作夢,高於 10% 那更是白日夢了
我看是你的推論才充滿了問題,和太多假設性,也不怪你,
因為你根本沒有內容過濾方案,所以無法體會 |
|