Chinaunix

标题: 请问大家是如何反图片垃圾邮件的? [打印本页]

作者: beerpapo    时间: 2007-03-12 10:02
标题: 请问大家是如何反图片垃圾邮件的?
去年底以来我们公司的大量用户收到大量的图片垃圾邮件,请问大家是如何反图片垃圾邮件的?
作者: 思一克    时间: 2007-03-12 10:11
非图片垃圾你公司用什么?
作者: beerpapo    时间: 2007-03-12 10:22
RBL、RWL、SpamAssassin
作者: 思一克    时间: 2007-03-12 10:44
SA RBL反图片可以吗? 我的印象不行
作者: beerpapo    时间: 2007-03-12 10:49
嗯,RBL、RWL、SpamAssassin 不能反图片垃圾邮件,所以才问问大家
作者: 思一克    时间: 2007-03-12 10:58
建议换有费用的产品或服务
作者: beerpapo    时间: 2007-03-12 11:54
谢谢
作者: 思一克    时间: 2007-03-12 12:06
你用户数目是多少
作者: abel    时间: 2007-03-12 12:06
原帖由 思一克 于 2007-3-12 10:58 发表
建议换有费用的产品或服务

1. 現在有這種東西嗎 ? antispam within Picture ? 沒見過? 思兄有任何實作或參考到什麼產品嗎 ?
   什麼行為,協議反垃圾的,根本不敢涉及圖片這一磈
2. 反圖片 SA 中本來就有 FuzzyOCR 這個模組可用,但想用的人不多
因為
  1. 辨識率的問題,斜體或粗體或模糊處理...都會讓圖片中的字解到的比率降低
  2. 惡意的攻擊,你跑 OCR 我就給你一堆,操到你陣亡
  3. 反圖片有多少種圖片格式要處理 (現在看到的多數是 gif, 少數 jpg,但還有很多其他的格式) ? 處理起來恐怕更費事

這問題要多方思考副作用,功能面的東西連現實中 image to text 都作不好,更何況應用到 antispam 中
作者: 思一克    时间: 2007-03-12 12:12
TO abel,

怎么没有?
有产品或服务可以接近100%地阻挡掉各种图片垃圾。其它的非图片的普通垃圾也是一样。
接近100%就是》》90%,比如96,97,98,99%的意思。

没有什么奇怪的。
作者: abel    时间: 2007-03-12 12:23
原帖由 思一克 于 2007-3-12 12:12 发表
TO abel,

怎么没有?
有产品或服务可以接近100%地阻挡掉各种图片垃圾。其它的非图片的普通垃圾也是一样。
接近100%就是》》90%,比如96,97,98,99%的意思。

没有什么奇怪的。

這個打死我都不相信,不妨您舉個實例,什麼產品,資料在哪裏 ?
反圖片的 antispam 也不過是 parse 出來圖片中的字在回到原來的一般 rule 去處理而以,
原來的 rule 恐怕也不容易到 96% 吧,就算有這也不可能只是單純圖片反下來的結果

我只用 39 碼的條碼來處理傳真的圖檔,用盡各種方法也難以到達 50% 的境界
(當然,這和我個人功力有關),你知道一個傳真收下來是個圖檔,但這個圖檔會有很多變異,
就像一般現在的灰階處理,加深,斜體,灰點,白點,放大,縮小...各種情況都有,我只要 條碼
的 OCR 都到不了 50%,你說到得了 90% 還能認字(英文字,中文,甚至其他語文),我看得了,現在那些
網頁的圖片驗證碼都可以省省了

你可以說這是別人的產品說的,但是不經思考一刻,這恐怕也是不對的
作者: beerpapo    时间: 2007-03-12 12:34
800+
原帖由 思一克 于 2007-3-12 12:06 发表
你用户数目是多少

作者: 思一克    时间: 2007-03-12 12:36
To Abel,

我无法举例。否则就有做广告的嫌疑。
我就是专门做ANTI-SPAM的。我说的效果完全达到,说的比例还留有余地。

你说识别50%。对于反垃圾不行,85%都不行,必须95%以上。

如果使用的方法不对,就很难达到完美的效果,无论实现者水平有多高。
估计你的方法不对。

这和处理传真是不同的。识别FAX图,50%可能已经很好了。
作者: abel    时间: 2007-03-12 12:46
原帖由 思一克 于 2007-3-12 12:36 发表
To Abel,

我无法举例。否则就有做广告的嫌疑。
我就是专门做ANTI-SPAM的。我说的效果完全达到,说的比例还留有余地。

你说识别50%。对于反垃圾不行,85%都不行,必须95%以上。

如果使用的方法不对,就很 ...

如果你無法舉例,我想說服力恐怕是有問題的,這前面也是我一直問的 link 在哪裏,
不然你發訊息給我和樓主也可以

至於傳真問題,那不過就是舉一反三,圖片 spam 難到不能做像傳真那樣的處理 ?
那些 image spamer 如果真能這麼高的辨識率(還要不保證錯,不依賴白名單),
那 http 驗證碼為何今日會盛行 ?這東西不就是避 spam 用非人工的行為嗎 ?
作者: 思一克    时间: 2007-03-12 12:51
TO Abel,

你不是研究垃圾邮件的,或者刚开始研究不久。

我这样和你说吧(不是做广告),163.com, 263, 等他们研制的反垃圾(包括各种垃圾图片)的有效率也可以达到我说的比例. 不信,你自己实验.

也就是说95%以上地阻挡各种垃圾(包括图片)已经不是什么一个难的问题了.

我也不需要说服你或其他谁.
作者: abel    时间: 2007-03-12 13:10
算了,我認為你總是跳躍式的回答,天馬行空
就你的話, fax 能 50% 就很好了,不能套用到 image spam 去嗎 ?

講 antispam, 或是 mail 技術你見我弱於這裏那些朋友了 ?
不是專做 antispam 產品的人就不能講 ?  這就是你的邏輯 ?
從電信那篇 RBL 就可以看到你的思考邏輯,再往前的也不少,
本帖,你的邏輯在我來看就是沒有依據, yahoo,gmail,hotmail 都辨不到的事
你辨到了!

再說一次,如果你能辨識到 90%,那些 google , msn ...的圖片驗證早就失敗收場了
163 那些我也沒興趣試,幹嗎去用一個會經過過濾的網路,你只要給我一個 link 說 95%,90% 也好的數據不就得了,還要我去試 ? 我去試他們恐怕連 50% 都達不到 image spam 辨識率,錯誤率更是高的離譜吧 ?
我不能寄日文去當正常信, spam 信,買廣告傳真寄過去 ? 寫中文/英文大談買威而剛 (我想他們只會看到威而剛,而不是語意吧)
90% ,先除以2再來說,圖片,不變成字,大概就是靠其他手動而以,而那些手段本身和圖片無關,
一些跳梁把戲說多好聽而以
作者: abel    时间: 2007-03-12 13:14
也就是说95%以上地阻挡各种垃圾(包括图片)已经不是什么一个难的问题了.

我看你自己先心需,把圖片 90% 以上變成了 95%以上地阻挡各种垃圾 的語意了
沒有實證,你自己慢慢吹
作者: 思一克    时间: 2007-03-12 13:22
TO ABEL,

我没有让你相信. 你不要说吹不吹的. 对于各类垃圾来说, 图片反而是相对容易对付的垃圾. 因此阻挡比例肯定大大高于95%.

我已经告诉你了, 不止一个产品和服务可以的. 不信你自己实验吗.

你自己不要以自己的感觉来给什么东西下"打死也如何"的结论.
作者: abel    时间: 2007-03-12 13:31
原帖由 思一克 于 2007-3-12 13:22 发表
TO ABEL,

我没有让你相信. 你不要说吹不吹的. 对于各类垃圾来说, 图片反而是相对容易对付的垃圾. 因此阻挡比例肯定大大高于95%.

我已经告诉你了, 不止一个产品和服务可以的. 不信你自己实验吗.

你自己不 ...

你的邏輯就是錯的就避而不答而以,不做廣告,你發個訊息給個 link 那麼難嗎 ?
那家做得到不是天大的喜事嗎 ? 幹嗎不風光發表呢 ?
圖片就不過是那個邏輯,有圖的都檔,這種事我也做得到 99%,不檔是那白名單而以,
而本身檔的原則和圖片內容一點關係都沒有,不是嗎 ?

我是看不過去你瞎吹,才故意要吐你糟 (台灣話的意思就是反駁), 這麼高的辨識率
google 都可以直接做圖片 search 了 (google 現在做的是檔名和包圖片的 html 而以,和圖片內容完全無關)
作者: 思一克    时间: 2007-03-12 13:39
TO ABEL,

你以为阻挡95%以上各类垃圾(强调:图片垃圾更高于此比例)的反垃圾系统是世界难题了? 是什么伟大的发明?

我认为仅仅是一个普通的东西. 发表什么?

我已经告诉你了其他2个产品(和我毫无关系)或服务也可以达到这个比例. 你疑问什么? 自己实验吗.你自己在那里建立个帐号,看有垃圾邮件否?
作者: beerpapo    时间: 2007-03-12 13:53
嗯,两位大牛不要吵哦。讨论问题而已,不能伤和气吖。对于反垃圾的问题我也没怎么深入去测试过,只能听大家讨论,谢谢两位啦,我再Google一下
作者: abel    时间: 2007-03-12 14:21
原帖由 思一克 于 2007-3-12 13:22 发表
TO ABEL,

我没有让你相信. 你不要说吹不吹的. 对于各类垃圾来说, 图片反而是相对容易对付的垃圾. 因此阻挡比例肯定大大高于95%.

我已经告诉你了, 不止一个产品和服务可以的. 不信你自己实验吗.

你自己不 ...

我看省省吧
我寄了一個圖片 spam 結果還不是照常進 inbox
寄第二封信回我
l2C5r2JC029177-    1042 Mon Mar 12 13:53 <abel@abc.tw>
                 (Deferred: 450 DT:SPM mx24, wKjR5rDrb4HH6vRF4dyfAQ==.45767S2,)
                                         <abel@163.com>

這也真是夠了,誰看得懂寫什麼
我看也不過是 greylist , 和圖片有什麼關係 ? 值得你這麼吹噓 ?


天呀,這個爛東西竟值得你所說的 95%, 連 1% 都不到,10幾封 spam 信連一封也欄不到
圖片有兩個都沒有判斷到 ?

我看另外一個連 SPF 也沒有就更省省了,這就是你的例子 ?
這就是你的 95%,我得再給他200 封以上的 spam ,且封封命中才能到你說的 95%
真是夠了,申請帳號的畫面也讓人失望,我那打得進簡體字,那來的身份證 ID,結果還不是護照隨便填

我看思兄自己多實驗吧,不過是繁體中文就全部都 miss 了,這個表現就是做 antispam 的結局呀
完全看不到任何效果,更不用說什麼圖片 90% 了,你倒底自己有沒有實驗過呀?
浪費我的時間還不是證明你是錯的,那東西大概只能對付 gb2312 的笨蛋吧

163.jpg (120.62 KB, 下载次数: 47)

163 結果畫面

163 結果畫面

作者: abel    时间: 2007-03-12 14:25
原帖由 beerpapo 于 2007-3-12 13:53 发表
嗯,两位大牛不要吵哦。讨论问题而已,不能伤和气吖。对于反垃圾的问题我也没怎么深入去测试过,只能听大家讨论,谢谢两位啦,我再Google一下

我跟他有什麼和氣不和氣呢 ?
純粹看不過他在這主題所講的話而以,圖片做得到 90% 根本是天才會說的話
浪費無謂的時間也不過是跳來跳去證明 163 的無用論,而我所講的永遠都不會回答的斑主呀
認得出圖裏的字的 antispam 會認不出 "驗證碼" ? 從這反推不就知道言之無味嗎 !
作者: 思一克    时间: 2007-03-12 14:40
阻挡垃圾邮件不仅仅靠内容识别.
仅仅靠内容识别的系统不是好系统.我看也做不到90%.

所以你不要将图片内容识别率等同于图片垃圾的阻挡率.

那些花花绿绿的图片垃圾,你用眼睛一看就知道是垃圾,根本不需要读出其中的文字.
作者: 思一克    时间: 2007-03-12 14:49
TO Abel,

你实验163的? 做了没有意义的实验.

有你这样故意用一个好的系统(你的服务器我相信是好的,完备的邮件系统)发垃圾的?

你这样实验没有意义.

告诉你,你的好的服务器, 根本不被检查. 属于比白名单还好的服务器.

但你如果不是发一个,而是往里发大量的,人家将封锁你的信箱地址,甚至IP.

所以对于一个反垃圾系统,你用一个好的地址发垃圾实验是没有意义的.
这样的实验仅仅对于完全基于内容识别的系统才有意义.

真的有意义的实验是:
将你注册的地址公布出去,使用,看一周可以受到几个垃圾.
163的应该很少很少.
作者: abel    时间: 2007-03-12 14:58
原帖由 思一克 于 2007-3-12 14:49 发表
TO Abel,

你实验163的? 做了没有意义的实验.

有你这样故意用一个好的系统(你的服务器我相信是好的,完备的邮件系统)发垃圾的?

你这样实验没有意义.

告诉你,你的好的服务器, 根本不被检查. 属于比白名 ...

你永遠有千百個理由
我的內容就是圖片,都是 spam,
也有含 html spam 的,判斷不出來就找一堆理由
難道只要是"好的" 內容有問題就沒有關係 ?
是夠了,多是一堆和附件一樣的 spam !
好的 server  163 就癈了,這就是你的例子 ?
內容可是問題一堆呀,這就是你做 antispam 的程度 ?
給自己找千百個理由 ? 我不過把我最近20封  spam 給它,而他卻像白吃全吃到信箱去了
然後你說因為我是好的,這就是你 antispam 的想法而以 ?
我看極其膚淺呀,因為它跟本不認 BIG5 spam
圖片 spam 更是認不出來,就因為 好的 server ?
只不是呼應我的前文,而你自打嘴巴嗎 ? 很顯然的他跟本不看圖片的內容?
95% 開根號的結果都不如

!cid_000701c76304$426b3650$00000000@wst2.gif (4.54 KB, 下载次数: 53)

spam sample

spam sample

作者: abel    时间: 2007-03-12 15:01
原帖由 思一克 于 2007-3-12 14:49 发表
TO Abel,

你实验163的? 做了没有意义的实验.

有你这样故意用一个好的系统(你的服务器我相信是好的,完备的邮件系统)发垃圾的?

你这样实验没有意义.

告诉你,你的好的服务器, 根本不被检查. 属于比白名 ...

實在不想和你說什麼了,只要是論證,你永遠離題,
我只討論 圖片 spam 的問題,你非得講什麼 total spam 的結果
永遠抓不到什麼重心,這種做 antispam 的態度比我這剛入門 的人還不如呀
作者: abel    时间: 2007-03-12 15:06
原帖由 思一克 于 2007-3-12 12:12 发表
TO abel,

怎么没有?
有产品或服务可以接近100%地阻挡掉各种图片垃圾。其它的非图片的普通垃圾也是一样。
接近100%就是》》90%,比如96,97,98,99%的意思。

没有什么奇怪的。

你自己把自己和我的話好好看一遍好嗎 ?
你說圖片 90%, 結果最後我看 163 是 0%
如果你硬要說 163 是講 total 的,連個 5% 都沒有,只是因為我的是好的 server,
這種就是你的 antispam 觀點那也夠令人佩服的了,那些內容就算拿去一個剛裝好的 spamassassin 來判斷
(就是未調整過的分數值)都知道是 spam, 可鄰的 163 連個 SA 都比不上
圖片 我看你就裝作視而不見吧,免得再給自己找一堆理由
作者: 思一克    时间: 2007-03-12 15:11
TO Abel,

你在163上开一个信箱(他们免费的是否和收费的一样我不知道),将地址公布出去,看是否收到图片垃圾.

SA,能做什么? 你仅仅用SA? 还处于反垃圾的低级阶段.
作者: uxu    时间: 2007-03-12 15:11
提示: 作者被禁止或删除 内容自动屏蔽
作者: 思一克    时间: 2007-03-12 15:12
那就不叫"反垃圾"系统了.

必须不影响正常的带图片的邮件!

原帖由 uxu 于 2007-3-12 15:11 发表
我可以100%反图片垃圾邮件
那就是所有带图片的邮件统统干掉

嘿嘿

作者: abel    时间: 2007-03-12 15:15
原帖由 思一克 于 2007-3-12 14:40 发表
阻挡垃圾邮件不仅仅靠内容识别.
仅仅靠内容识别的系统不是好系统.我看也做不到90%.

所以你不要将图片内容识别率等同于图片垃圾的阻挡率.

那些花花绿绿的图片垃圾,你用眼睛一看就知道是垃圾,根本不需要读出 ...

你自己就再找理由吧,
這個主題本來就在討論圖片 spam,自己現在又講 你不要将图片内容识别率等同于图片垃圾的阻挡率.
人家也是好的 server/pc (helo,rdns,not in rbl, mail from..這些 check 大概就是你所謂好的 server 吧) 被中木馬,relay 就 pass 你的 rules 了 ?
我看這個 antispam 還是少用的好,因為它只能根據先天的條件來做 antispam
我不做產品,不賣產品,只服務自己 30 人公司的 mail admin,比起你那些一堆 jump/long jump 的人來說
重心抓得準了些,樓主就是卡在內容上,這也是我的問題,我也做不到樓主的需求
但絕不會顧左右而言他,用別的,商用的就有解 ?  其實還不過是吹吹而以,一彈就破
作者: abel    时间: 2007-03-12 15:20
原帖由 思一克 于 2007-3-12 15:11 发表
TO Abel,

你在163上开一个信箱(他们免费的是否和收费的一样我不知道),将地址公布出去,看是否收到图片垃圾.

SA,能做什么? 你仅仅用SA? 还处于反垃圾的低级阶段.

人家 SA 還可以外掛 OCR,至少還有點方法,
比起你的高談來得實際些

講一堆也沒有什麼內容的東西,這邊講得又不是 total 方案的 antispam ,
僅僅是圖片而以! 自己非得擴展到全部,真服了你

照引言你的想法也不過是一些 smtp 的 check , 這就是你的想法也太簡單了
所以根本就看不到圖片的程次,那些發的進來的都巳經是你所謂的 好的 server 了
作者: abel    时间: 2007-03-12 15:25
原帖由 uxu 于 2007-3-12 15:11 发表
我可以100%反图片垃圾邮件
那就是所有带图片的邮件统统干掉

嘿嘿

這也是一種方法,只要你公司的政策允許
含圖片不是好事,一些 0-day patch 的 exploit 圖片甚至可以讓你的電腦被入侵
作者: 思一克    时间: 2007-03-12 15:35
商业的早有解决方案. 图片垃圾阻挡比例大于95%.

你问问XXX的企业油箱用户是否还收到图片垃圾?

不要自己认为不行的别人也就一定不行.

还有一个美国的产品也可以达到这个阻挡比例.

我告诉LZ用商业的没有错误.
作者: vyouzhi    时间: 2007-03-12 15:52
其实管理自己公司的邮件系统和一个专门提供邮箱服务有点不同
以我管理邮箱的情况看,
如果只管理自己公司的邮件系统的
只你的建立一个白名单的
就基本可以过滤90%以上的垃圾邮件了,
这个白名单就是把你们公司所有的邮件地址都放进去
只要符合这个白名单的就放过
不符合就过滤
这样不用花时间去考虑什么图片的垃圾邮件了
当然这个更新可能要花点时间
但可以说是最简单不过的了
如果是管理专门提供邮件服务的
那可能就麻烦一点
白名单是一定要的
只要不在这个白名单只才进行检查
在图片上面我进行的处理是
不检查图片内容
只检查是否有

  1. “<IMG alt=3D"" hspace=3D0 src=3D"cid....>"
复制代码

cid的标志,再检查这个图片在哪一个位置
符合了我就把它作为垃圾邮件处理
你们可以测试1000封图片垃圾邮件和正常邮件
都带图片的
看看这些图片一般都是如何放置的
我现在过滤图片的垃圾邮件基本可以达到90%
当然出错也有点高
但只要出错一次
我就把这个地址加到白名单中
所以现在我的情况是比较好的
作者: 枫影谁用了    时间: 2007-03-12 15:56
原帖由 abel 于 2007-3-12 15:25 发表

這也是一種方法,只要你公司的政策允許
含圖片不是好事,一些 0-day patch 的 exploit 圖片甚至可以讓你的電腦被入侵


ABel

可以測試下俺的機器不?私底下發幾十封垃圾郵件給我,行不?謝謝?

可以我把地址告訴你哈。
作者: 思一克    时间: 2007-03-12 15:57
相信并同意vyouzhi.


可以想象, 即使这么简单的做法都可以达到90%, 专业的产品或服务达到95%,96%就没有什么奇怪的了.

可以有人就是不相信, 非认为大于95%阻挡图片垃圾就是一个世界级别的难题.

不是的.
作者: vyouzhi    时间: 2007-03-12 15:58
我现在用的是spamassassin,但我的过滤率可以达到90%以上
但出错率是1万封邮件有10封左右的出错
这个应该比较高
但只要时间越长
我的白单积累的地址就越多
出错率也会变得越少
现在我们都是讨论如何对图片进行识别来判断垃圾邮件
我觉得这个方法会出入一个死胡同
而且CPU的效率也会变得低下
如果转发另一种方法来判断图片的垃圾邮件
可能会更好
作者: 思一克    时间: 2007-03-12 16:14
ZL可以用vyouzhi 的做法看看.
作者: abel    时间: 2007-03-12 16:25
原帖由 思一克 于 2007-3-12 15:57 发表
相信并同意vyouzhi.


可以想象, 即使这么简单的做法都可以达到90%, 专业的产品或服务达到95%,96%就没有什么奇怪的了.

可以有人就是不相信, 非认为大于95%阻挡图片垃圾就是一个世界级别的难题.

不是的.

圖片 spam 可是只有 cid 的 ?
方法來看是根本不管圖片中的內容,只要有 cid 就檔了,
檔錯了再設白名單 , 這是好方法 ?

那不如有圖檔附件全檔了,再一個個補救來得快
這和我前面早提到(9 樓和 19 樓) 的有什麼差別 ?
純粹被動而以
根本上就是對圖片的無奈才會用這種方法而以
這本身和圖片辨識一點關係都沒有,只是思兄所謂的低級內容判斷而以,不是嗎 ?
作者: 思一克    时间: 2007-03-12 16:29
TO ABEL,

这是他的方法. 也是相当有效的. 你如果用SA, 可以学习一下.

我不用SA, 所以不会. 但我相信他的结果.

从此也就可以看出, 人会各种各样的方法. 不会就局限在你的考虑的范围内.
作者: abel    时间: 2007-03-12 16:37
原帖由 思一克 于 2007-3-12 16:29 发表
TO ABEL,

这是他的方法. 也是相当有效的. 你如果用SA, 可以学习一下.

我不用SA, 所以不会. 但我相信他的结果.

从此也就可以看出, 人会各种各样的方法. 不会就局限在你的考虑的范围内.

SA 只是我的一個方法而以,並不是全部
這種東西5年前我就明白了,並沒有什麼了不起呀,先全殺,再一個一個開放我認為這只是直覺的做法
更何況 cid= 也不是全部
作者: vyouzhi    时间: 2007-03-12 16:37
to abel大哥

请检查一下,带图片的附件和在html镶入图片的邮件
是不是只有cid相差呢
作者: vyouzhi    时间: 2007-03-12 16:43
在此给大家一个最简单的反垃圾邮件的mailfilter
是用在maildrop上面的


  1. VHOME=`/home/vpopmail/bin/vuserinfo -d $EXT@$HOST`
  2. SPAMVHOME=`/deke/vpopmail/bin/vuserinfo -d spam@yourdomain.com`
  3. if ( /^From:\s*(.*)/ && lookup( $MATCH, "/etc/from.dat" ))
  4. {
  5.        log "ok !!!!!!!!!!!!!! you use "
  6.        exception {
  7.                 to "$VHOME/Maildir/"
  8.                 exit
  9.         }
  10. }
  11. else{
  12.                  exception {
  13.                                    to "$SPAMVHOME/Maildir/"
  14.                 }
  15.                 exit
  16. }
复制代码


这样只要你的from.dat是足够的多
别的垃圾邮件都不用管
如果出错了
你可以从spam@youdoma.com这个账号取回来
如果你的from.dat是足够的多
过滤100%也不是吹的
这个也用不到什么杀病毒软件,什么SA之类的了
效率可以说是绝对的高
作者: vyouzhi    时间: 2007-03-12 16:49
原帖由 abel 于 2007-3-12 16:37 发表

SA 只是我的一個方法而以,並不是全部
這種東西5年前我就明白了,並沒有什麼了不起呀,先全殺,再一個一個開放我認為這只是直覺的做法
更何況 cid= 也不是全部


to abel  大哥
如果对自己公司,先全杀,再一个一个放
这种效率是最高
也是最好的
用我上面的程式
只要你再写一个shel来捕捉发出去的邮件地址
这个from.dat就可以自动加上去了
作者: 思一克    时间: 2007-03-12 16:52
"捕捉发出去的邮件地址", BOUNCE的怎么办? 用户设休假自动恢复的呢?
作者: vyouzhi    时间: 2007-03-12 16:57
原帖由 思一克 于 2007-3-12 16:52 发表
"捕捉发出去的邮件地址", BOUNCE的怎么办? 用户设休假自动恢复的呢?


这个看你如何写了
写得好的,可以很好,差的,可能有反作用
不过无论如何
我觉得也不用计较
只要能进from.dat的
都不是垃圾邮件的地址
就行了
别的不用管
作者: 思一克    时间: 2007-03-12 16:58
问题是垃圾邮件也可以冒充你的正确的from地址
作者: vyouzhi    时间: 2007-03-12 17:03
原帖由 思一克 于 2007-3-12 16:58 发表
问题是垃圾邮件也可以冒充你的正确的from地址


这个没错
但你有没有统计
会有多少的垃圾邮件来冒充的
除非别人对你有针对性的
否则这个原因太小了

[ 本帖最后由 vyouzhi 于 2007-3-12 17:04 编辑 ]
作者: 思一克    时间: 2007-03-12 17:07
我知道. 冒充的几率非常小.

但你这种还是不好.一律拒绝,然后一个一个放.

人的管理工作多, 如果一个大些的贸易公司, 因为联系几乎无穷多, 白名单也太大.

(我丝毫不否认对你的情况很有效).
作者: vyouzhi    时间: 2007-03-12 17:22
是的
这个白名单真的会让人搞怕
特别是对方第一次发邮件给你的时候
按上面的程式都会跑到spam@yourdomain.com这个账号里去
这个也是我的程式的最大的缺点
作者: abel    时间: 2007-03-12 17:26
原帖由 vyouzhi 于 2007-3-12 17:03 发表


这个没错
但你有没有统计
会有多少的垃圾邮件来冒充的
除非别人对你有针对性的
否则这个原因太小了

這的確不大,我自己也是統計 user 發過的名單自動形成白名單

另回答前面的問題, image spam 不是只有 cid 而以
若以 cid 而論,它可以是 QP
所以可能形成 =43=49=44
也可以是斷行形式
=44=
=49=
=44=
HEX....

也可以空 N 行
=43
=
=
=49
=
=
=
=
=
=
=
=44

它也可以再做一次 multipart,轉成 base64...
明天再說,今天要下班了,
還有不同的變化,或附件形式,今天 cid 最多,但日後肯定再變 !
作者: 思一克    时间: 2007-03-13 09:04
TO abel,

昨天没有详细看你的帖子。刚才比较细的浏览了。

LZ问的是如何才能反图片垃圾邮件的问题。我回答的是用专业的收费产品和服务,完全正确。
我再说一次,专业的收费产品和服务是有(不止一个)可以做到95%以上阻挡各种垃圾,包括图片。
如果仅仅是图片,有些产品的比例会更高。因为图片对于有些算法讲阻挡比其他某种类型的垃圾更容易。

根据你的帖子看可以知道你认为:
要想100%阻挡图片垃圾,
1)必须先OCR 100%将图片的文字识别出来
2)根据识别出来的文字用关键词(如SA那样)匹配来确定是否是垃圾
3)如果OCR只能识别出50%的文字,那么阻挡图片垃圾最多只能达到50%的有效比例。

你这种想法很可笑。是刚刚接触反垃圾的人才会有的想法。

至于163的实验问题,163有不是我所在公司,我和它没有关系。他在WEB PAGE上说阻挡垃圾96%以上我相信。虽然我没有用过他们的信箱,但那么一个大的公司公开的声明---因此我信。

至于你你直接发图片进去实验,就得出结论人家是0%,很可笑。
我要说明:
1)直接发图片进去实验仅仅对根据邮件文本内容或OCR出来的文本内容识别垃圾的系统才有效果。
而这样的反垃圾方法是原始的和效果不好的。我不相信163是用这样的方法。
2)直接发图片进去实验没有意义。垃圾发送者的发送行为(IP,PTR,FROM,等)也就是模式和你区别太大了。
3)那么如何实验呢?答:建立一个邮箱。正常使用,看垃圾邮件多少。

我会写另外一个帖子--关于用各种技术综合包括SMTP行为识别阻挡垃圾邮件的帖子。
作者: abel    时间: 2007-03-13 09:21
原帖由 abel 于 2007-3-12 17:26 发表

這的確不大,我自己也是統計 user 發過的名單自動形成白名單

另回答前面的問題, image spam 不是只有 cid 而以
若以 cid 而論,它可以是 QP
所以可能形成 =43=49=44
也可以是斷行形式
=44=
=49=
=44=
H ...


以上,我們知道這是 QP 作法,那也可以有 base64 做法,也就是所有的
Content-Transfer-Encoding: quoted-printable

都換成
Content-Transfer-Encoding: base64

那 cid 就至少會有四種變化出現,這個在實作上都太容易去避開 cid:

不然就是多重 multi-part , A-part 包 B ,C part, 接 D part  (看不懂就是對這些沒有概念),如此也不會出現 cid: 的關鍵字

當然現在問題還沒有到這個程度(是沒有這麼多,但不是完全沒有),但不代表以後不會有,最後的解法肯定會
變成還原這些 multi-part,再來找關鍵字 (仍然不是找圖中的 keyword),但是很可惜的, html 的 URI
也可以有 N 種寫法來表示同一件描述.或以不同的 charset 來變化,再不然就是用 javascript/rss/css 等來
控制 (這個就更牛了), 也可以 embeded 一個外部的 uri ....你們慢慢想吧,不然來個 flash 也不錯!

不然也可以全不要文字,就是一張圖,這個東西很原始,只要來自 好的 (弄一個好的 Server 有什麼難的,spamer 有的都還有 DomainKeys 或是 SPF ,搞得比你還要好, rdns,helo,mail/rcpt 那些檢查對專門的根本就是癈材)的 Server 大概就能 break 你的 rule 了

好了,夠複雜了,但還有更進化形的! 不過 mail 的 multi-part + html 變化 排列組合巳經夠看了
cid 在我來看根本是沒有用的,也只能應付一時而以,但再一陣子就會再變了,那些對 cid: 後的 hex 值做
Scoring 的也沒有用, Spamer 發現他的信被 Block 太多很簡單就可以變形的
作者: xautofzx    时间: 2007-03-13 09:30
现在垃圾邮件还真是烦人。
作者: abel    时间: 2007-03-13 09:32
原帖由 思一克 于 2007-3-13 09:04 发表
TO abel,

昨天没有详细看你的帖子。刚才比较细的浏览了。

LZ问的是如何才能反图片垃圾邮件的问题。我回答的是用专业的收费产品和服务,完全正确。
我再说一次,专业的收费产品和服务是有(不止一个)可以做 ...

思兄,你真的看懂我的話了 ? 不要讓我笑好不好,我的話重點只在於對圖片 spam 的無奈 !
從頭開始的回帖就是這樣!

再看上一樓我回的,你以為 spamer 不會搞 smtp 呀,那麼簡單的事你用那些一般的檢查對
全部就一體適用 ? spamer 幹嗎搞圖片 ? 我前面都可以 pass 你的 smtp check,甚至我自己(spamer)
都做的比你好, 就是因為你可以對 keyword 檔,我才搞圖片讓你抓不到或不好抓
搞圖片浪費 spamer 的 resource, spamer 也不想,就是因為內容而以,要 pass 你那些 smtp check,
就像 163 那白吃一樣,搞個好的 Server,弄個成萬上百萬僵屍電腦你防得了
太多 antispam 產品總是說自己多好,說明白了也不過是一些 smtp check 和內容檢查(有些白吃 的
antispam還會做 smtp callback check),自己搞一堆像專有名詞的四不像
作者: 思一克    时间: 2007-03-13 09:45
To Abel,

我不会给别的公司做广告。仅仅说明问题而已。

你说的“白痴”的ANTISPAM会有的。我从来没有否认。
但不是全部。我说过,有些产品是不白吃的。比如美国的XXXXXXX
人家一个专业做反垃圾的公司近10年的许多专业人的工作,怎么全都变为白吃了。

不要轻易低估了别人的智商。

我的一个朋友实验过XXXXXXXX,说还可以。图片垃圾肯定阻挡大于95%。我相信。

还有,国内的XXX的企业油箱,自己研制的产品,图片垃圾阻挡率也95%大于。

搞反垃圾,95%是一个目标,也是一个已经实现了的事实。



"
再看上一樓我回的,你以為 spamer 不會搞 smtp 呀,那麼簡單的事你用那些一般的檢查對
全部就一體適用 ? spamer 幹嗎搞圖片 ? 我前面都可以 pass 你的 smtp check,甚至我自己(spamer)
都做的比你好, 就是因為你可以對 keyword 檔,我才搞圖片讓你抓不到或不好抓
搞圖片浪費 spamer 的 resource, spamer 也不想,就是因為內容而以,要 pass 你那些 smtp check,
就像 163 那白吃一樣,搞個好的 Server,弄個成萬上百萬僵屍電腦你防得了
太多 antispam 產品總是說自己多好,說明白了也不過是一些 smtp check 和內容檢查(有些白吃 的
antispam還會做 smtp callback check),自己搞一堆像專有名詞的四不像 "
作者: abel    时间: 2007-03-13 09:57
誰在和你說什麼 95%,total 的 95% 有什麼難的,在我這我用自己的99% 都可以,那些 pass 進來的
1% 中 100% 都是圖片,被檔下來的才不管你是 好的 Server 發的 ,就像你舉的例 163, 只因
為我是好的 server 它就像白吃一樣的 all pass, 這種 antispam 我看極其陽春, 我做的 antispam 架構不給別人服務,但是可以做到一台收信,多台 Round Robin 過濾,當然我們這種小公司只要全弄在一台上就好了

不需要吹噓什麼 9x%, 那些東西對於像我這種人根本是沒有用的,我用好的 Server 加上 pack/unpack 的一
些技術隨便都可以繞過你的過濾,對於技術更高的專業 spam 根本沒有什麼作用, 9x% 只是那些笨蛋的結果
而以
作者: 思一克    时间: 2007-03-13 10:16
TO ABEL,

我说的TOTAL 95%,而图片本身比95%还高。

你老用笨蛋,白吃,X, 这些词干什么? 无论说谁也没有意义呀
作者: abel    时间: 2007-03-13 10:36
原帖由 思一克 于 2007-3-13 10:16 发表
TO ABEL,

我说的TOTAL 95%,而图片本身比95%还高。

你老用笨蛋,白吃,X, 这些词干什么? 无论说谁也没有意义呀

因為只因為我只要搞一個 好的 Server 他們就癈了,不是笨蛋嗎 ?
你以為只有你懂 smtp 的技術呀 ? 我最近一週內收到 160 個 image spam
其中 143 個被檔下來了,而有 17 個 pass 過去了,這些被檔下來的因素只是因為非圖片的因素,
pass 過去的是因為沒有使用 cid , 17 個 passwd 過去的 ehlo 是標準的, IP 有反解,沒有在 RBL 裏
mail/rcpt 也都是對的,也對應了 Header 中的 From/To .... , 這 17 個還有 12 個有 SPF record,
你在那裏牛什麼 ? 這些東西你檔得下來 ? 一直講一堆叫人試,我試了 163 結果是笨蛋結果,對沒有圖片的
BIG5 Spam 還不是照樣 pass 過去

把你吹的產品拿來試看看呀,我從好的 Server  給你 1000 封 Spam 看看你能做到多少,再來吹吧
我說過了, 95% 只是一堆笨蛋 Spamer 的集合,對我這種人你能做到 70% 我看你就該偷笑了
作者: vyouzhi    时间: 2007-03-13 10:39
原帖由 abel 于 2007-3-13 09:21 发表


以上,我們知道這是 QP 作法,那也可以有 base64 做法,也就是所有的
Content-Transfer-Encoding: quoted-printable

都換成
Content-Transfer-Encoding: base64

那 cid 就至少會有四種變化出現,這個在實 ...




to abel 大哥

你忘了一件事,你研究的都是垃圾邮件的,你可能没有研究过正常邮件
如果正常邮件中都是html镶入图片的,那么cid又是如何变化的呢?
这个你应该没研究过吧,就好像我自己的规则一条,我把html的邮件中包含有 iframe 标签
的邮件都打很高的分,因为正常邮件中出现iframe的标签实在太小了,所以客户中邮件用到
java做的,就现在来说实在太小了吧,或者以后会.
而且你说的cid可以变成不同的编码,这个在SA中可以解开

http://spamassassin.apache.org/tests_3_0_x.html

rawbody 这个就可以解开base64的编码了
作者: 思一克    时间: 2007-03-13 11:01
ABEL,

你连基本的SPAM原理都没有搞懂。

一个好的SERVER正常情况下会发垃圾吗?如果你不断发垃圾,好的SERVER也就变成了坏的,对方不阻挡你的FROM甚至IP地址? 还会让你继续“实验”?

一个在公司的正常人会用自己的油箱不断发图片1000封?你公司不开除了你?

sohu.com都有此功能。如果可户机器有病毒了,不断发,人家给你整个服务器BLOCK了。你还实验什么?

还有频率控制。允许你这样实验?





”你吹的產品拿來試看看呀,我從好的 Server  給你 1000 封 Spam 看看你能做到多少,再來吹吧
我說過了, 95% 只是一堆笨蛋 Spamer 的集合,對我這種人你能做到 70% 我看你就該偷笑了 “
作者: vyouzhi    时间: 2007-03-13 11:08
to 思一克 大哥
好的server也会发垃圾邮件
当然如果这台server是只对自己公司的比较好管理
如果是提供mail服务的
这个就难说了
作者: 思一克    时间: 2007-03-13 11:17
youzhi,

我是说通常情况不会。2种情况会
1)专门做的发广告的SERVER。----------- 对反垃圾系统简单。一封了之
2)正常的SERVER被CLIENT端闹病毒了,发很多。------ 速率控制对付,然后封FROM,封IP
3)免费注册在大的服务商上发广告。封FROM。继续注册,继续封
4)除此之外,就是故意恶意实验了/ 几乎不可能

一个好的SERVER管理员要对用户有发件数量限制的。不能无穷发。比如100个/天,因人而变
作者: high222003    时间: 2007-03-13 11:23
我公司的邮箱每天都有垃圾邮件,能不能在自己的电脑上装个反垃圾邮件的软件?推荐一下
作者: vyouzhi    时间: 2007-03-13 11:53
刚才我把我的服务判断为垃圾邮件的11246封邮件
进行了统计
其中包含有cid的邮件为4057封
而cid中把正常邮件判断为垃圾邮件的为3封
没有判断出来的
现在我无法统计
作者: yulc    时间: 2007-03-13 11:58
这个贴子热闹,留个名。
谈到反垃圾邮件,我记得在www.verycd.com的某个网页底部有这样的话:
xxx@xxx.com  (注:此mail地址在此守株待兔,发往此信箱的地址将全部列入黑名单)

虽然是被动的,但当时还是被震惊了一下,好办法呀!哈哈
作者: abel    时间: 2007-03-13 12:01
原帖由 vyouzhi 于 2007-3-13 10:39 发表




to abel 大哥

你忘了一件事,你研究的都是垃圾邮件的,你可能没有研究过正常邮件
如果正常邮件中都是html镶入图片的,那么cid又是如何变化的呢?
这个你应该没研究过吧,就好像我自己的规则一条,我把 ...

1. 我認為正常的 html 含圖片郵件根本就不太會出現 cid: 這種東西
2. 你認為正常的郵件就是真正的 spamer 要做的事,他就是要讓你覺得正常,這也是常見的手法
3. SA rawbody 這些我了解,但是如果加上 multi-part ,html 的變化或換行控制,那就不一定了,而且一些
s/mime 的技巧也可以 break 這個東西,那是因為你前面說不用 SA 只用一般的 pattern 所以我才講
multi-part 的東西
Example:
在 SA 中加入

  1. rawbody IMG_CID         /img.*cid/i
  2. describe IMG_CID        image src use cid
  3. score IMG_CID           100.0
  4. # "CRITICAL INVESTOR ALERT!" image spam - added dynamic image size
  5. rawbody __IMG_CID1      /img /i
  6. rawbody __IMG_CID2      /src.*cid/i
  7. meta LOCAL_CRIT_INVEST_IMG (__IMG_CID1 && __IMG_CID2)
  8. score LOCAL_CRIT_INVEST_IMG 100.0
  9. describe LOCAL_CRIT_INVEST_IMG BODY: Contains image cid pattern
  10. full IMG_CID3           /img.*cid/i
  11. describe IMG_CID3       image src use cid
  12. score IMG_CID3          100.0

  13. body IMG_CID4           /img.*cid/i
  14. describe IMG_CID4       image src use cid
  15. score IMG_CID4          100.0

复制代码

Spam Pattern:

  1. -----=_NextPart_001_0011_01C7641A.6A5BD900
  2. Content-Type: text/html;
  3.         charset="windows-1250"
  4. Content-Transfer-Encoding: quoted-printable

  5. <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN">
  6. <HTML><HEAD>
  7. <META http-equiv=3DContent-Type content=3D"text/html; charset=3Dwindows-125=
  8. 0">
  9. <META content=3D"MSHTML 6.00.2900.1106" name=3DGENERATOR>
  10. <STYLE></STYLE>
  11. </HEAD>
  12. <BODY bgColor=3D#ffffff>
  13. <DIV><FONT FACE=3D"Arial, Verdana" size=3D2>Hullo, Peter, she replied faint=
  14. ly, squeezing herself as small as blew open as of old, and Peter dropped on=
  15. the floor. think of anything to say, she simply bowed, and took the thimbl=
  16. e, dotage, knowing neither the crime imputed her, nor its punishment;</FONT=
  17. ></DIV>
  18. <DIV><FONT size=3D2><IMG alt=3D"" hspace=3D0 src=3D"=43=
  19. =
  20. =
  21. =
  22. =49
  23. =
  24. =44:0013=
  25. 01c7641a$6a5bd9=
  26. 00$086a7544@nolo" align=3Dbaseline border=3D0></FONT></DIV>
  27. <DIV><FONT FACE=3D"Arial, Verdana" size=3D2>By this time she had found her =
  28. way into a tidy little room with antipathy of her brother; the similarity o=
  29. f their dispositions made with an inherent brightness; the greater stars we=
  30. re burning in their began to cry again, for she felt very lonely and low-sp=
  31. irited.</FONT></DIV>

复制代码


which one matchs the rules ?
結果是沒有

Report:

  1. pts rule name              description
  2. ---- ---------------------- --------------------------------------------------
  3. 1.1 EXTRA_MPART_TYPE       Header has extraneous Content-type:...type= entry
  4. -2.6 BAYES_00               BODY: Bayesian spam probability is 0 to 1%
  5.                             [score: 0.0071]
  6. 0.0 HTML_MESSAGE           BODY: HTML included in message
  7. 1.9 DNS_FROM_RFC_BOGUSMX   RBL: Envelope sender in bogusmx.rfc-ignorant.org
  8. 5.0 RCVD_IN_T1_RBL         RBL: this IP listed by t1.dnsbl.net.au
  9.                             [190.44.109.134 listed in t1.dnsbl.net.au]
  10. 3.9 RCVD_IN_XBL            RBL: Received via a relay in Spamhaus XBL
  11.                             [190.44.109.134 listed in sbl-xbl.spamhaus.org]

复制代码

後兩個是我自己加上去的 RBL, 所以這個例子才能被檔下來,其他的什麼 smtp check (這也不過是思兄或
163 的做法而以)它都通過了才來到SA 的部份,如果照一般的 預設的 SA,就算加了 cid 那段也檔不下來
這封 spam 還有 SPF 記錄呢 ! (這個壇子誰有建 SPF 呀,我看不超過個位數),連 263 都沒有,這也算專業?

  1. orbweb.net "v=spf1 ip4:38.113.1.0/24 ip4:38.113.20.0/24 ip4:65.254.224.0/19 ?all"
复制代码



4. js/css 的 spam 控制方法以後一定會出現,因為這個可以有效對抗常用的 pattern match 手段, 用程式
來控制肯定讓你連 match 的機會都沒有
作者: abel    时间: 2007-03-13 12:19
原帖由 思一克 于 2007-3-13 11:01 发表
ABEL,

你连基本的SPAM原理都没有搞懂。

一个好的SERVER正常情况下会发垃圾吗?如果你不断发垃圾,好的SERVER也就变成了坏的,对方不阻挡你的FROM甚至IP地址? 还会让你继续“实验”?

一个在公司的正常 ...

我看你跟本不懂得什麼叫跟著時代走! 現在大卡的 spam vendor 多是走 zombie 路線,你封的了呀 ?
spamer 搞一堆 zombie  computer 搞什 smtp 認為的 好的 Server 有什麼困難呀!
誰在和你用自己公司的發,你以為現在那些 image spam 不照 smtp 走呀 ? 他都照了,講半天你還看不到重點呀
好的 不是就是我現在用的,而是一個照著 RFC 及慣用習慣的 smtp server , Spam tools 要搞成這樣都
巳經有現成工具,還跟你慢慢搞一個 MTA ? 得了吧

你的邏輯和 vyouzhi  有什麼差別 ? 你是封黑的,他是開白的, 原則上並沒有什麼不同
今天你還做 rate control, 花了一年後你總算從這一篇解脫了
http://bbs.chinaunix.net/viewthr ... 3Ddigest&page=2
早四年前 sendmail 早就實現了!

在我來看,你的做法極其原始呀,不照 smtp 來走封了這沒有什麼困難,那家 antispam 沒做 ? 我個人都做了這
有什麼了不起? 黑名單白名單更無可言,誰不是這樣,內容不檢查才是 163 最大的敗筆,你的 ST-MAPS 也沒有
檢查內容,碰到好的僵屍大軍不也是照單全收
6 年前我就做得到 99%,各種控制措施都做得很好,那個年代還沒有 SA 呢! 內容對我更不是問題
因為我的作法就和 SA 差不多!
作者: 思一克    时间: 2007-03-13 12:45
TO abel,

我大概知道你不相信原因了---- 因为你SERVER太小了。我原来就说过,一个30几个用户的SERVER无法看到全局的情况。3000个用户就可以。

你一周160个图片垃圾。人家1个小时也比你多。根据如此少的垃圾你永远也得不到正确的反垃圾方法。
垃圾邮件都是由专门机器不断发,大量发的。量大了,统计规律就出来了。还有RATE CONTROL等技术对于太小的SERVER,太少的垃圾也不起太大作用。

这里有一个统计学的问题。比如我说从高空一个点扔沙子,95%的沙子都会落到一个固定大小的圆中。前提是沙子必须多。如果太少,规律不成立。

你一周160个,根据这个研究识别,不是说绝对不可以,但是很难得到正确的方法和结果。如同扔了10个沙子,说,你看不符合规律呀。

其它的不需要争辩什么了。我一开始就没有说要说服你。但是我必须重复说明的是:

现在有反垃圾系统(肯定超过一个)产品或服务,阻挡垃圾邮件有效率(包括图片的)达到95%。如果全是图片垃圾也一样达到)反垃圾的如果象你说的70%就什么也别做了。回家玩去吧。世界上许多公司的反垃圾工程师的智商没有你想象的那样低。

95%的比例是留有余地的。是保守些说的话。



“因為只因為我只要搞一個 好的 Server 他們就癈了,不是笨蛋嗎 ?
你以為只有你懂 smtp 的技術呀 ? 我最近一週內收到 160 個 image spam
其中 143 個被檔下來了,而有 17 個 pass 過去了,這些被檔下來的因素只是因為非圖片的因素,
pass 過去的是因為沒有使用 cid , 17 個 passwd 過去的 ehlo 是標準的, IP 有反解,沒有在 RBL 裏
mail/rcpt 也都是對的,也對應了 Header 中的 From/To .... , 這 17 個還有 12 個有 SPF record,
你在那裏牛什麼 ? 這些東西你檔得下來 ? 一直講一堆叫人試,我試了 163 結果是笨蛋結果,對沒有圖片的
BIG5 Spam 還不是照樣 pass 過去”
作者: vyouzhi    时间: 2007-03-13 12:56
to abel 大哥
我测试过你的 Spam Pattern: 部份,SA真的是认不出来

呵呵,看来我还得好好的学习才行
作者: abel    时间: 2007-03-13 13:10
原帖由 vyouzhi 于 2007-3-13 12:56 发表
to abel 大哥
我测试过你的 Spam Pattern: 部份,SA真的是认不出来

呵呵,看来我还得好好的学习才行

但是那些變異的行為是可以正常顯示原來的那封郵件的,一點影響都沒有
這個例子只是一個基本的 QP 變異而以,還沒有看到其他的結果
作者: abel    时间: 2007-03-13 13:26
原帖由 思一克 于 2007-3-13 12:45 发表
TO abel,

我大概知道你不相信原因了---- 因为你SERVER太小了。我原来就说过,一个30几个用户的SERVER无法看到全局的情况。3000个用户就可以。

你一周160个图片垃圾。人家1个小时也比你多。根据如此少的垃圾 ...



我一個人一週 160 圖片是進到 SA 的,其他非圖的 SA 一天就不只 300 個,
在 smtp 階段被 reject 的更是這個的兩倍(這些就不知和圖是否相關了),同樣的東西以前我也跑過
5w user 的,你不需要斷章取義吧,這事你也很清楚呀,

你以為規模大說的話就大聲 ? 別說笑話了,能力,見解,驗證上從過去到現在也看過你出了不少醜呀
我們單位的屬性面對是世界性的交流,不是 local 的單純語系, 英文郵件 (spam or ham)遠比中文多,面對的
廣度更不像一般 Local 性質 mta.

就像上個給 vyouzhi 兄的舉例,人家樣樣符合 smtp 規範. 你那一條 rules 可以檔到人家 ?
最後還不是舉報或手動的方法去做? 這和 2000 年的做法有什麼差別 ?
你以為好的 server 就不會送,連新的趨勢都不注意
作者: abel    时间: 2007-03-13 13:30
話說回來,講一堆,思兄數了一堆 % , 所言實在和圖片 spam 沒有什麼關係,
前一兩帖還是,後面就顧左右而言他了,以前帖子,過去的討論就是這個風格了
作者: w4ngdc    时间: 2007-03-13 13:58
和abel一样,我对image spam的catch rate持悲观态度,不过我相信个别场景可以获得较高的catch rate,记得上边有个极端的操作,把包含image的邮件全部过滤掉,那样catch rate就达到100%,不过false positive可能就出来了。查了个资料,http://biz.yahoo.com/iw/061115/0184588.html, 有一句:
IronPort's Patent-Pending Technology Stops 98% of Image Spam; Twice the Catch Rate of Any Other Enterprise Class Spam Product
IronPort这个公司被cisco收购了,从这个数据看,它的是98%(不排除吹牛的成分),两倍于其他产品,其他也就50%。
总的spam,我相信大多数商业软件都可以90+%的catch rate,并且false positive可以保持在一个很低的水平。
作者: abel    时间: 2007-03-13 14:01
你是運營商,那不如開個帳號給我再說吧
讓我這個大反派試過了再說,希望這個結果是基於內容的,而不是什麼黑名單這種成年技術
作者: abel    时间: 2007-03-13 14:17
原帖由 w4ngdc 于 2007-3-13 14:11 发表
还是我上边提到那片文章,2006年10月,image spam的比例大约是25%:
Image spam reached a new high of 25% of total spam volume in October 2006 compared to 4.8% in October 2005, an increase of 421%.

謝謝 w4 兄的資訊,這個我倒是沒有看過實際的數字,
但很明顯的這個成長是明顯的,成長的原因應該就是成功寄達 user mailbox 的有效性比傳統的 spam 提高
作者: 思一克    时间: 2007-03-13 15:55
Abel,

95%图片垃圾邮件阻挡,我说比例应该是留有余地的。也就是说比95%这应该高。

没有什么可讨论的。
作者: 思一克    时间: 2007-03-13 16:11
Abel,

1)完全基于内容文本图形识别的反垃圾不可能有好的效果---这才是过时的成年技术--要被淘汰的
2)不基于内容仅仅根据IP FROM等信息阻挡垃圾的系统也不是一个好系统--甚至不算一个完备的反垃圾系统
3)好的系统必须是各种技术的完美的结合。


“你是運營商,那不如開個帳號給我再說吧
讓我這個大反派試過了再說,希望這個結果是基於內容的,而不是什麼黑名單這種成年技術

作者: 思一克    时间: 2007-03-13 16:18
TO Abel,

你实验个啥? 5万用户,你晓得每小时进入多少垃圾邮件吗?
你发进来那几个图片即使发到用户信箱了也不影响什么。何况人家系统还会自动将你的IP封掉。

这种实验基本没有意义的。要看结果,是要使用他的邮箱看有无垃圾。

"
你是運營商,那不如開個帳號給我再說吧
讓我這個大反派試過了再說,希望這個結果是基於內容的,而不是什麼黑名單這種成年技術"
作者: 思一克    时间: 2007-03-13 16:40
W4你好,

你说极端的情况将图片一律BLOCK掉不是一个反垃圾系统的做法。如果这样,我可以100%阻挡图片垃圾---没有意义的。

正常的系统阻挡显然说的是不影响正常的邮件。反垃圾就是不能错误阻挡。一个系统运行起来不应该错挡。宁可放过,也不能有错误。
作者: abel    时间: 2007-03-13 16:47
原帖由 思一克 于 2007-3-13 16:11 发表
Abel,

1)完全基于内容文本图形识别的反垃圾不可能有好的效果---这才是过时的成年技术--要被淘汰的
2)不基于内容仅仅根据IP FROM等信息阻挡垃圾的系统也不是一个好系统--甚至不算一个完备的反垃圾系统
3)好 ...

想不到你永遠這麼斷章取義呀,
回頭看看我寫的東西吧,別再這麼言之無味了
作者: abel    时间: 2007-03-13 16:49
原帖由 思一克 于 2007-3-13 16:18 发表
TO Abel,

你实验个啥? 5万用户,你晓得每小时进入多少垃圾邮件吗?
你发进来那几个图片即使发到用户信箱了也不影响什么。何况人家系统还会自动将你的IP封掉。

这种实验基本没有意义的。要看结果,是要使 ...

在我的眼理,根本就做不到,何必找一堆理由呢?
實踐是最好的真理,明眼人一看就知道怎麼做的
作者: 思一克    时间: 2007-03-13 17:13
Abel,

是的实践是最好的检验。可是你实践的了吗?你发几个图片实验叫实践吗?你如果是垃圾发送公司就可以实践了。

仅仅发几个自己的实验垃圾别人系统可能都不理睬。比如有人在sohu.com注册一个帐号,发几个培训广告,系统可能都放过去了(如果发1000个就不行了)。

放过去也不影响阻挡垃圾的百分比。每天那么多垃圾(2000用户系统周六周日两天可以有2万多平均每人10多个),你发那几个不影响什么。更何况,基本没有人这么实验的。

关键就在这里。你实验163的0%阻挡率的原因也在这里。你实验多了,人家就挡掉你的IP了。




“在我的眼理,根本就做不到,何必找一堆理由呢?
實踐是最好的真理,明眼人一看就知道怎麼做的”
作者: 枫影谁用了    时间: 2007-03-13 17:59
AbEl

不玩啦

咱还在收呢?
你用的发垃圾的程序是啥呢?

11.JPG (198.42 KB, 下载次数: 28)

11.JPG

作者: 枫影谁用了    时间: 2007-03-13 18:40
停了!

676 VS 31

55.GIF (26.48 KB, 下载次数: 36)

55.GIF

作者: xingcw    时间: 2007-03-14 08:51
色情邮件发送率降至历史最低点 IT世界网 2007-3-13 09:58
对二月份的垃圾邮件进行了测算,在整个邮件总数当中,垃圾邮件占了百分之七十。而在这些垃圾邮件当中,有百分之三十八的垃圾邮件是以图片的形式向外传播,这是对目前最先进的反垃圾邮件软件的一个挑战,同时也增大了打击垃圾邮件的难度。 来自邮件过滤公司(该公司对二月份的垃圾邮件作了一项调查,... >>2条相同新闻

http://www.it.com.cn/f/network/073/13/392854.htm

[ 本帖最后由 xingcw 于 2007-3-14 08:55 编辑 ]
作者: beerpapo    时间: 2007-03-14 11:31
大家讨论了那么多,对于反图片垃圾邮件有什么可行的解决办法吖?除了商业的应用外,难道目前就只能
1.封all IP,然后用RWL
2.过滤所有带图片的邮件
......

[ 本帖最后由 beerpapo 于 2007-3-14 11:35 编辑 ]
作者: abel    时间: 2007-03-14 13:42
我認為沒有什麼好辨法
雖然多數的 spam 都可以被判斷到,但漏網的多是 images spam
作者: abel    时间: 2007-03-14 13:47
原帖由 枫影谁用了 于 2007-3-13 17:59 发表
AbEl

不玩啦

咱还在收呢?
你用的发垃圾的程序是啥呢?

我發的程序很簡單:

  1. echo "select FILE_NAME from SPAM where FILE_NAME<>''  order by CREATE_TIME desc limit 1000" | mysql SPAM -u abel -pXXXX  | grep -v FILE_NAME | while read f
  2. do
  3. cat $f | formail -I "To: XXXX@yourdomain.com" | \
  4.       sendmail -oi XXXX@yourdomain.com -f abel@mydomain.net
  5. done
复制代码


這個程序發出來的信會 Trace Field 有帶有 localhost 字眼,
這個我沒有去調他,估計調了他進去的比例會更高些

[ 本帖最后由 abel 于 2007-3-14 13:49 编辑 ]
作者: vyouzhi    时间: 2007-03-14 14:34
我简单总结一下
LZ的问题为: 如何反图片垃圾邮件,mail 服务器只提供自己公司用
下面为大家讲座的结果:
  一、思一克 兄提出采用商业的反垃圾邮件系统,这些系统对图像识别能力可以达到90%以上
  二、abel 兄作出反对商业系统还不可能达到90%以上的图像识别能力
  三、我和别的兄弟提出另一些的解决方案
      (1)uxu 兄(30楼)提出附件中不能带图片
      (2)我提出以白名单的形式,(如果公司用户不多,或者可以捕获足够多的邮件地址)
      (3)我提出在SA中测试cid的方式,最后abel兄提出base64 , qp编码的垃圾邮件SA无力测试,这个我也证实
  
  上面,一点,在整个过程没有给出足够多的例子证明,二点,abel兄用163.com之类的邮箱证明163.com没检查图像内容,
  三点,或者提出一些方法,但缺点也大。
  (完)
  
  看看大家还有什么要补充的
作者: 红雨    时间: 2007-03-14 20:01
我现在换用IMSS,基本解决图片垃圾邮件问题。
作者: beerpapo    时间: 2007-03-15 00:12
趋势科技的 InterScan Messaging Security Suite for SMTP ?
作者: 思一克    时间: 2007-03-15 10:44
使用商业的关键是测试。你不用让他们给你安装,仅仅给你一个反垃圾GATEWAY(他们十分容易地用他们的反垃圾系统构造一个反垃圾GATEWAY供测试用----他们可能有永久的做测试的)。然后将你的MX指向GW,他做设置。

实验一个月(实际不用这么长时间)。你一定知道他的结果。实验几个,看哪个效果好。

不要听SALES的自我吹的比例。要自己感觉,自己判断。
作者: ctuyoung    时间: 2007-03-15 11:04
思一克,你现在是不是被敏讯招安了啊?假如是的话那就好玩了,敏讯不是整天宣扬它的行为识别么?其实说白了就是根据mail from域名解析出来的MX或A记录的IP网段来和SMTP会话IP地址作比较,以此来判断是否是垃圾邮件,然后再加一些诸如yahoo.com之类的特殊处理以及IP地址反解查询的东东规避误判。哈哈,我说得没错吧?你说sales给试用对吧?那敏讯在企业邮箱上使用的效果怎么样啊?给点运营商级别的案例出来看看哦
作者: 思一克    时间: 2007-03-15 11:23
to ctuyong,

你好。我只是在网络上看过有什么敏公司。没有任何招安的问题。在说即使认识,也决不做这事情。

我自己有我自己开发的系统。我说的效果是根据自己系统的判断,而不是任何其他的。但是我相信其他的也可以达到很好的效果(比如图片垃圾阻挡95%,等)。因为我有朋友用过,因为我相信人家开发的东西--比如那个863项目XXX系统的服务,比如163自己的邮件系统等。因为我认为他们都很有水平。

至于行为识别的问题。不是你说的那样简单的。或骗人的。
1)仅仅根据文本内容(包括OCR出的)识别来阻挡垃圾的系统一定是无法达到高有效率的和将要过时的。
2)仅仅靠行为识别而不识别内容的系统也一定不是一个好的完善系统。

一个好系统必须综合现有的各种技术。而且综合的要巧妙。
作者: abel    时间: 2007-03-15 11:53
僅僅 ?
誰在用這種僅僅方法呀 ?
不需要在這裏吹吧 ? 你用的方法和我的方法有什麼差別 ? 沒有呀
我看那些 antispam 不過就是名詞翻新而以,做法還不都是差不多,最後就是看誰的黑名單多而以,
這有什麼了不起的方法 ?

大家作法都一樣,但是你沒有內容檢查,在 公安部 "信息安全技術反垃圾郵件客戶端產品檢驗規範" 第4節和
增強型的要求上你做不到,我自己還做得到,那份要求要5年前我就都做到了,比起專做 antispam 你的
ST-MAPS 還要早,還要好上許多!只是我不做產品而以

不是我愛批評,而是你老是曲解別人的話,有本事拿來給我測 (還得看我有沒有時間),就像ctuyoung 講得那些什麼
行為識別還不是癈物一個
作者: 思一克    时间: 2007-03-15 12:05
Abel,

从一开始也没有想和你辩论什么。其它人(公司)都是废物一堆。只有你不是。

可是从你的前几个帖子我就明白了,你研究反垃圾邮件仅仅是最初等的水平。
不是你水平不行,而是在30几个人的设备上无法研究。

你测试163的阻挡结果 0%, 你也敢说出来?不怕人笑话。

你发几个图片垃圾测试163,无论是否发到信箱都没有什么特别大的意义。

打个比喻,有人说海面是个球面,你非不相信,找来水平尺,经纬仪,标杆,甚至激光测距,划船测试,然后用几何计算,得出结论,海面就是平面。---- 这些测量计算是没有意义的。
作者: abel    时间: 2007-03-15 12:33
原帖由 思一克 于 2007-3-15 12:05 发表
Abel,

从一开始也没有想和你辩论什么。其它人(公司)都是废物一堆。只有你不是。

可是从你的前几个帖子我就明白了,你研究反垃圾邮件仅仅是最初等的水平。
不是你水平不行,而是在30几个人的设备上无法研 ...

老大呀,你何必永遠忽略過去我做5萬人的經驗呢 ? 又是一堆斷章取義/顧左右而言他的方法
163  在我來看結果就是 0%, 這個結果沒有什麼問題,
如果我是初等,這裏許多朋友,包括你恐怕連初等都沒有吧
你好好把公安部的東西看過吧,你連增強型都沒達標,這東西五年前我做得到,
你到今天還沒有實現吧 ! 五年來我那可能還在原地

前面早就說過了,圖片做到 90% 以上就是看不過才吐你槽
人家用好的 Server (搞一推 zombie) 發圖片 (目的就是讓關鍵字放到圖片裏) 你欄得得到 ?
等你加了黑名單,幾十萬台讓你或百萬台讓你慢慢加吧,zombie 持續增加中,你也增加中
加到你跑不動再說




欢迎光临 Chinaunix (http://bbs.chinaunix.net/) Powered by Discuz! X3.2