免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: beerpapo
打印 上一主题 下一主题

[Mail] 请问大家是如何反图片垃圾邮件的? [复制链接]

论坛徽章:
0
111 [报告]
发表于 2007-03-15 15:08 |只看该作者
.....

[ 本帖最后由 ctuyoung 于 2007-3-26 11:18 编辑 ]

论坛徽章:
1
荣誉会员
日期:2011-11-23 16:44:17
112 [报告]
发表于 2007-03-15 17:49 |只看该作者
原帖由 思一克 于 2007-3-15 14:41 发表
你如何知道我的系统没有? 我还用找出几个人(也是CU人)证明才算数?

我一开始就没有让你相信我。现在也没有。

你自己回頭看看自己寫的東西,你否定過去自己所說的話 ?
你根本沒有花什麼時間在圖片的問題上,什麼行為識別 面對的也只是笨蛋的 spamer 而以


至於 cty 兄的看法,
我对思一克的一些观点还是蛮赞同的,比如说邮件在入队前就识别是否是垃圾邮件并直接拒绝,而不是等入队以后再来分拣

這做法有什麼疑問呢 ?
我自己的例子來說,
http://211.72.210.251/list.html

smtp check 不過就 rejection, 過去的就 Scoring, Scroing 只要一次,而分發時再依個人設定
我們自己內部的版本連分數值都可以線上改(個人的 Require 或是單項的值)
不符合 RFC 規範的 Rejection 我認為天經地義,這也沒有什麼特別好說的

我的疑问是你这么多的反垃圾逻辑放在一张perl脚本中你能将他们管理好吗?

cty 兄不知我的風格,程式化的目的重點之一是要讓資料和程式分離,東西 (data)是用到的時候再去 DB 讀,
不是全寫在程式裏,當然有些固定的東西是可以寫在程式中,如 ehlo check 的 regexp ,但像動態 IP 的反解
suffixs 全球都不同,我收集了數十個,都放在 DB 中只要反解是這個的就檔掉
什麼人做 gmail 收或發備份的條件從網頁上設一設,也是進 DB, 程式再讀出來而以
什麼行為識別,白名單,黑名單都做完,最後再做 SA 工作, 做完了才進
Local Delivery ,再進行分類之歸檔,程式和資料的抽離,再多加考慮效率問題,其實這些東西並沒有什麼
我的 perl 程式實作 SPF Check, Domain Keys sign/verify ,  總長度還不超過 200 行呢!
但是microsoft style的boundary string是有隐藏规律的

你知道的事 spamer 也是會知道了,你能演算,他也能演算,這不可能是個好方法

论坛徽章:
0
113 [报告]
发表于 2007-03-15 18:31 |只看该作者

回复 112楼 abel 的帖子

......

[ 本帖最后由 ctuyoung 于 2007-3-26 11:17 编辑 ]

论坛徽章:
1
荣誉会员
日期:2011-11-23 16:44:17
114 [报告]
发表于 2007-03-15 19:25 |只看该作者
了解,我的代碼有數個版本,也有 procmail 實現的版本,也有開發中的,實戰型的通常是以 DB 化為主的版本 (這種版本不易讀,因為要看 DB 結構),不過真的怒我不知道您指的是我曾公布的那個版本? 因為我現在的版本跑得是 DB 和 DK+SPF 的結合,不過原則都是一樣的,效率的調控在我的系統上目前還不重要(因為日進5萬左右的 mail 實在還很優閒,另外還跑許多程式)



至於 SA 就要看每個人使用什麼手段及郵件系統整個架構了,
不過 perl 的效率是不如 C 來得快 (那也得看算法及精簡度),任何 content scan 都會
吃 resource, perl 在 regexp 為體現表現的速度及效率都還是相當高的
C 的我以前也有寫過,不過實在難以 maintain ,隨便一個 DomainKeys 都要上千行程式 , 不如 perl 來得直觀,
效率不是我目前要考慮的問題,當然,如果真的要考慮,也是在使用加速模組及 OBJ 化後無效後才要想的,目前我則
尚未遇到,因為我根本上就不做產品


至於您提到的 "各种手段之间的相互绝缘吗?" 這句話我不太清楚,您可以稍微解釋一下嗎 ?
antispam 是追著 spam 跑,但對於少數特殊化的 spam mail (像我前面舉的一些例子) 往往還是不夠力
因為那些可能才剛發生, antispam 的方案還沒追上,或還未被重視,
MUA 並不只有 MS Outlook,, MS 不是只有 2000 ,XP..版本 ,Thumdbird, Netscape, foxmail 但這些豈
有規律可言, Linux 上的呢 (我不知道,所以請教您) ?
Outlook 2007 即將面世,支援 IDN 的 puny email address ,這在你們 (做 antispam 為本業的朋友) 來
看都可能會是挑戰,不知您們如何面對呢 (通常都是先有 spam, 產品,才會有對策)?
以後 (估計兩年後), Local-Part , Header Value 都可以是 UTF8 ...


至於您其他的觀點我都相當同意,MS OE 有規律我知道,不過我不清楚其算法


附件是我的 MTA 運作情形(這也是自己寫的,而不是用套裝的,更不會花錢去買,支援 MAIL,SMS,MSN
等 alert,午夜0時有較多排程,所以 CPU 稍高,但連接並沒有多大的變動)

[ 本帖最后由 abel 于 2007-3-15 19:38 编辑 ]

mail.jpg (42.26 KB, 下载次数: 13)

mail.jpg

论坛徽章:
0
115 [报告]
发表于 2007-03-15 20:45 |只看该作者
......

[ 本帖最后由 ctuyoung 于 2007-3-26 11:17 编辑 ]

论坛徽章:
1
荣誉会员
日期:2011-11-23 16:44:17
116 [报告]
发表于 2007-03-16 16:15 |只看该作者
To abel:
  其实我所谓的“各种手段之间的相互绝缘”意思就是说么一种反垃圾逻辑都是独立的,举个例子来说,有一种垃圾邮件特征比较明显,

Message-ID: <674a01c763d2$15add154$a4a52c16@etang.com>
From: HGHLife <bglenna@etang.com>
To: lucindax@citiz.net
Subject: Decrease fat reserves
Date: Sun, 11 Mar 2007 14:40:31 +0300
MIME-Version: 1.0
Content-Type: multipart/alternative;
    boundary="----=_NextPart_000_0000_0E1EF4BF.B3F3987D"
X-Priority: 3
X-MSMail-Priority: Normal
X-Mailer: Microsoft Outlook Express V6.00.2900.2180
X-MimeOLE: Produced By Microsoft MimeOLE V6.00.2900.2180

这个MIME head中的所谓的boudary string看上去好像是符合MS Outlook Express生成的
邮件特征的,但实际上真正的MS OE是不可能产生第二段的"_0000_"的,一般都是类似于
"_0034_"的,当然还会有其它的一些特征啦,我们一般会将这种特征识别逻辑 coding在
一个plugin之中,不同的plugin之间是没有任何联系,这样的话source code就能够按照
plugin来进行classify了,就像你说的很好地maintain了。以后假如这种类型的spam消失
的话,那么我们就将这个 plugin作废,就像你所说的追着spam跑
不同的X-Mailer特征都不一样的,我们能做到的就是尽量寻找那些数量比较庞大的spam的特
征,一般不会去对特定的MUA的做限制的,因为指不定哪天这种MUA就变更了。所以你说的
office 2007, vista的windows mail确实对我们是很大的挑战,不过没关系,船到桥头自然
直,方法是人想出来的,不是吗?

苦呀~我本來打了好多要回給您,可沒想到 NB 竟然給我當機  =-=
確實,我並沒有實作 Modules/Plugin ,不過這種東西您看過的程式裏,應該可以注意到,
多數的東西我是從第一層開始 'if' 的,前後的東西都儘量不寫在一個大的 if 中, 絕緣
問題我在寫時有想過,只是沒有想到要實現他,畢竟它並不是產品,只是一套自己使用的東
西而以. 不過我這輩子還沒有做過什麼產品,工作七年幾乎就都是在現在的公司
不過人不能停滯不前,努力接收新知還是要的

不同的X-Mailer特征都不一样的,我们能做到的就是尽量寻找那些数量比较庞大的spam的特
征,一般不会去对特定的MUA的做限制的,因为指不定哪天这种MUA就变更了。所以你说的
office 2007, vista的windows mail确实对我们是很大的挑战,不过没关系,船到桥头自然
直,方法是人想出来的,不是吗?

這裏有些看法不錯,不過就我的經驗來看,X-Mailer 不見得會出現,也可能以其他的 header
name 出現 (Ex: User-Agent), X-Mailer 可能不是 MUA, 而是 PHP 或 Perl 的一些模組
等等, 而像不同的 openwebmail 版本其 boundary 算法可能都不同,如果這個東西能整理
出來,那巳經是不小的工作了,所以只能針對大量使用的 MUA 來進行判讀,可是像 yahoo 或
gmail 的判讀可能又不太相同,看來來似乎是一件不小的工程 (我沒做過,所以不知工程大小
及實作性程度,但對 OE 應該是有一定的效果的)
不過這裏一個個人的疑問,對於 folding/unfolding , 像一般您們做 antispam 是如何看待的 ?
是像 DKIM 那樣做 relaxed 或 simple 類的判斷 ? 或是根本不理會? (我想後者的可能性居多)
(這問題就像我前面提過的變形,內容可以有很大的變化,但是還是表示同一件事情),
以一般 SA 觀念 DCC 算法早晚恐怕也會有問題,因為它是假設在大量發送相同的內容,如果內容
有變異,那 checksum 結果也會不一樣,我知道市面上有些 antispam 產品是有類似的做法


做运营商级别的海量企业邮箱反垃圾最让人头大的就是misjudge,所以我们一般奉行的是无罪推
断,也就是说只有找到足够的特征,才能将这封邮件block掉,否则用户就要抱怨“怎么回事
情,XXX给我发邮件怎么发不进来”所以一般SA的score机制我们不大采用,不过也不绝对

我認為 block 有來種實現方法,一種是 rejection (r), 一種是 quarantine (q), 一般用到 SA
(或其他評分方案)都是後者 (q),行為識別則通常是 (r), 後者消耗資源這是公認的,理論上想要
愈準確就會消耗更多資源(Ex: MUA + X-Mailer + boundary 識別),最後的取捨都要經過微調
通常郵件量愈大的,通常就愈不考慮內容,不是不想做,而是副作用太多

有一种方法其实很好的,我们也是借鉴了某个非常知名的anti-spam provider的做法,好像
现在采用这种方法的gateway不是很多,具体的做法就是当gateway获得的spam特征不充分的
时候(例如: helo myxp),在\r\n.\r\n之后,gateway返回4xx system is busy now,
please try later ...之类的消息,让remote side进行retry,差劲一点的spam program是
不会进行retry的,其实就是grey-list的一种扩展啦,不过实际情况下效果却是蛮好的,对
于降低misjudgement是很有好处的。

我認為 grey-list (under mis-configuration) 是會有問題的, 以像我們單位而言,信件有
很大的比例是客戶服務,這個 grey delay 的動作會影響問題處理速度 (客戶端感覺),尤其在
mis-configuration 時,信件會根本無法傳送,暫時沒有退信,會讓 user 誤以為自己的信件巳
經寄出了,而若此時 grey-list MTA 有做 rate control, 那這種 delay 情況恐怕會更嚴重,
即使 admin 巳經 fixed 問題了,但信件恐怕仍無法及時投送完成.當然,對於 spam-ware 的東
西,這個是有用的,因其無 retry 機制

spam的locality是比较强的,比virus还要强。所以美国的好的产品到中国来就不一定有效了,
相信台湾的产品到大陆来也是差不多的,不过感觉上现在的zombie可能威胁更大,所以很多大的
系统动不动就down掉了,为了这个我们还专门开发了一个mail system专用的watch dog,监控后
端邮件系统的队列,我发现你的这几个chart很漂亮的说,是你自己画的吗?(Y)我们也有类似的
东东,不过你知道这种运行商级别的海量系统一般会要求看real state的,所以我们用widget做
了个实时的东东。以后多多交流哦

非常同意,
我們的 Server 做很多監控 (也是我一個人寫,人少就是這樣),就 mail 來說就不下十來項,畫圖
只是讓自己好看,重點在於情況的判斷準備度,誤報會讓人麻木,就像狼來了一樣,所以我在這方
面花了不少心力(不過這也不算我的主力業務),基本上可以控制誤報在 5% 以下,某些類別的警
告誤報率更可以低於 1%,圖我是用 rrdtool 畫的, 一般來說,  threshold check & alert 是最難的
而看 mail 的連接除了用一些貴貴的設備外,其實 cisco 的 netflow 就很好用了,若搭配 GeoIP,
可以做的非常 fancy (我還沒做,主要是沒有時間).

與ctuyoung兄討論確實不錯,就事論事,觀點特別

论坛徽章:
0
117 [报告]
发表于 2007-03-16 21:31 |只看该作者
争论过程都看过了
有些东西不能光凭嘴皮子说达到多少,真正能让人信服的是事实数据(测试数据和实战数据),真正能以理服人。说实在,在这里说哪个产品拦截率是%多少,我也不信。用过一些厂家的产品,功能花哨,吹得天花乱坠,真正对于spam的识别,还真是惨不忍睹。图片spam我们单位当初对这个也是苦不堪言,后来干脆把所有gif suffix全部干掉,算是清净了。如果有什么好的产品或者方法可以阻止这些spam,请大家继续讨论,小弟洗眼恭听!!!!

论坛徽章:
0
118 [报告]
发表于 2007-03-17 21:40 |只看该作者
TO starbear,

理解你说的.

不能光凭嘴皮子说达到多少. 的确不少产品声称自己拦截率达到多少多少, 但实际一试用根本不是那么回事. 尤其是有些Sales为了推销, 将80%说成90%甚至98%. 如果你试用,比例没有那么高,他们可能说,"自学习"还没有学好,用一年后比例就高了. 你如果相信了,购买了,那么以后发觉受骗了或者想换一种产品,想退货是没有任何可能的. 十几完到几十万再不好用也只勉强继续用了.

但是,也不排除有产品和服务可以达到他们说的比例. 你可以通过给你提供反垃圾GATEWAY实验来了解真实性. 我也明白,一个流行了很久的疾病,如果有相当有效的药物出来了,一般人包括水平很好的人都不会相信的.

一个建议: 购买反垃圾产品如果防止受欺骗,可以
1) 要求免费提供拦截服务几个月,自己看效果是否真实
2) 即使觉得真实了,要求提供服务的服务一年,付一年款. 再服务一年,付第二年费用.






原帖由 starbear 于 2007-3-16 21:31 发表
争论过程都看过了
有些东西不能光凭嘴皮子说达到多少,真正能让人信服的是事实数据(测试数据和实战数据),真正能以理服人。说实在,在这里说哪个产品拦截率是%多少,我也不信。用过一些厂家的产品,功能花哨, ...

论坛徽章:
0
119 [报告]
发表于 2007-03-19 08:58 |只看该作者
.....

[ 本帖最后由 ctuyoung 于 2007-3-26 11:17 编辑 ]

论坛徽章:
0
120 [报告]
发表于 2007-03-19 15:44 |只看该作者
ctuyoung:  另外我想请教一下现在我发现很多的台湾yahoo过来的垃圾邮件,是有人利用yahoo发送的,下面是我截取的一个样本,你有什么好的对付这些spam的办法吗?

我已预料到了这些SPAM会增加,请看
http://www.xingcw.com/vsvl/develop/spam-free-account.html
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP