1 ... 5 6 7 8 9 10 111213 / 13 页下一页

[Mail] 请问大家是如何反图片垃圾邮件的？ [复制链接]

ctuyoung

白手起家

论坛徽章:: 0

111楼 [报告]

发表于 2007-03-15 15:08 |只看该作者

.....

[ 本帖最后由 ctuyoung 于 2007-3-26 11:18 编辑 ]

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

abel

家境小康

论坛徽章:: 1

112楼 [报告]

发表于 2007-03-15 17:49 |只看该作者

原帖由 思一克 于 2007-3-15 14:41 发表
你如何知道我的系统没有？我还用找出几个人（也是CU人）证明才算数？

我一开始就没有让你相信我。现在也没有。

你自己回頭看看自己寫的東西,你否定過去自己所說的話 ?
你根本沒有花什麼時間在圖片的問題上,什麼行為識別 面對的也只是笨蛋的 spamer 而以

至於 cty 兄的看法,

我对思一克的一些观点还是蛮赞同的，比如说邮件在入队前就识别是否是垃圾邮件并直接拒绝，而不是等入队以后再来分拣

這做法有什麼疑問呢 ?
我自己的例子來說,
http://211.72.210.251/list.html

smtp check 不過就 rejection, 過去的就 Scoring, Scroing 只要一次,而分發時再依個人設定
我們自己內部的版本連分數值都可以線上改(個人的 Require 或是單項的值)
不符合 RFC 規範的 Rejection 我認為天經地義,這也沒有什麼特別好說的

我的疑问是你这么多的反垃圾逻辑放在一张perl脚本中你能将他们管理好吗？

cty 兄不知我的風格,程式化的目的重點之一是要讓資料和程式分離,東西 (data)是用到的時候再去 DB 讀,
不是全寫在程式裏,當然有些固定的東西是可以寫在程式中,如 ehlo check 的 regexp ,但像動態 IP 的反解
suffixs 全球都不同,我收集了數十個,都放在 DB 中只要反解是這個的就檔掉
什麼人做 gmail 收或發備份的條件從網頁上設一設,也是進 DB, 程式再讀出來而以
什麼行為識別,白名單,黑名單都做完,最後再做 SA 工作, 做完了才進
Local Delivery ,再進行分類之歸檔,程式和資料的抽離,再多加考慮效率問題,其實這些東西並沒有什麼
我的 perl 程式實作 SPF Check, Domain Keys sign/verify , 總長度還不超過 200 行呢!

但是microsoft style的boundary string是有隐藏规律的

你知道的事 spamer 也是會知道了,你能演算,他也能演算,這不可能是個好方法

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

ctuyoung

白手起家

论坛徽章:: 0

113楼 [报告]

发表于 2007-03-15 18:31 |只看该作者

回复 112楼 abel 的帖子

......

[ 本帖最后由 ctuyoung 于 2007-3-26 11:17 编辑 ]

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

abel

家境小康

论坛徽章:: 1

114楼 [报告]

发表于 2007-03-15 19:25 |只看该作者

了解,我的代碼有數個版本,也有 procmail 實現的版本,也有開發中的,實戰型的通常是以 DB 化為主的版本 (這種版本不易讀,因為要看 DB 結構),不過真的怒我不知道您指的是我曾公布的那個版本? 因為我現在的版本跑得是 DB 和 DK+SPF 的結合,不過原則都是一樣的,效率的調控在我的系統上目前還不重要(因為日進5萬左右的 mail 實在還很優閒,另外還跑許多程式)

至於 SA 就要看每個人使用什麼手段及郵件系統整個架構了,
不過 perl 的效率是不如 C 來得快 (那也得看算法及精簡度),任何 content scan 都會
吃 resource, perl 在 regexp 為體現表現的速度及效率都還是相當高的
C 的我以前也有寫過,不過實在難以 maintain ,隨便一個 DomainKeys 都要上千行程式 , 不如 perl 來得直觀,
效率不是我目前要考慮的問題,當然,如果真的要考慮,也是在使用加速模組及 OBJ 化後無效後才要想的,目前我則
尚未遇到,因為我根本上就不做產品

至於您提到的 "各种手段之间的相互绝缘吗？" 這句話我不太清楚,您可以稍微解釋一下嗎 ?
antispam 是追著 spam 跑,但對於少數特殊化的 spam mail (像我前面舉的一些例子) 往往還是不夠力
因為那些可能才剛發生, antispam 的方案還沒追上,或還未被重視,
MUA 並不只有 MS Outlook,, MS 不是只有 2000 ,XP..版本 ,Thumdbird, Netscape, foxmail 但這些豈
有規律可言, Linux 上的呢 (我不知道,所以請教您) ?
Outlook 2007 即將面世,支援 IDN 的 puny email address ,這在你們 (做 antispam 為本業的朋友) 來
看都可能會是挑戰,不知您們如何面對呢 (通常都是先有 spam, 產品,才會有對策)?
以後 (估計兩年後), Local-Part , Header Value 都可以是 UTF8 ...

至於您其他的觀點我都相當同意,MS OE 有規律我知道,不過我不清楚其算法

附件是我的 MTA 運作情形(這也是自己寫的,而不是用套裝的,更不會花錢去買,支援 MAIL,SMS,MSN
等 alert,午夜0時有較多排程,所以 CPU 稍高,但連接並沒有多大的變動)

[ 本帖最后由 abel 于 2007-3-15 19:38 编辑 ]

mail.jpg (42.26 KB, 下载次数: 13)

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

ctuyoung

白手起家

论坛徽章:: 0

115楼 [报告]

发表于 2007-03-15 20:45 |只看该作者

......

[ 本帖最后由 ctuyoung 于 2007-3-26 11:17 编辑 ]

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

abel

家境小康

论坛徽章:: 1

116楼 [报告]

发表于 2007-03-16 16:15 |只看该作者

To abel：
其实我所谓的“各种手段之间的相互绝缘”意思就是说么一种反垃圾逻辑都是独立的，举个例子来说，有一种垃圾邮件特征比较明显，

Message-ID: <674a01c763d2$15add154$a4a52c16@etang.com>
From: HGHLife <bglenna@etang.com>
To: lucindax@citiz.net
Subject: Decrease fat reserves
Date: Sun, 11 Mar 2007 14:40:31 +0300
MIME-Version: 1.0
Content-Type: multipart/alternative;
boundary="----=_NextPart_000_0000_0E1EF4BF.B3F3987D"
X-Priority: 3
X-MSMail-Priority: Normal
X-Mailer: Microsoft Outlook Express V6.00.2900.2180
X-MimeOLE: Produced By Microsoft MimeOLE V6.00.2900.2180

这个MIME head中的所谓的boudary string看上去好像是符合MS Outlook Express生成的
邮件特征的，但实际上真正的MS OE是不可能产生第二段的"_0000_"的，一般都是类似于
"_0034_"的，当然还会有其它的一些特征啦，我们一般会将这种特征识别逻辑 coding在
一个plugin之中，不同的plugin之间是没有任何联系，这样的话source code就能够按照
plugin来进行classify了，就像你说的很好地maintain了。以后假如这种类型的spam消失
的话，那么我们就将这个 plugin作废，就像你所说的追着spam跑
不同的X-Mailer特征都不一样的，我们能做到的就是尽量寻找那些数量比较庞大的spam的特
征，一般不会去对特定的MUA的做限制的，因为指不定哪天这种MUA就变更了。所以你说的
office 2007, vista的windows mail确实对我们是很大的挑战，不过没关系，船到桥头自然
直，方法是人想出来的，不是吗？

苦呀~我本來打了好多要回給您,可沒想到 NB 竟然給我當機 =-=
確實,我並沒有實作 Modules/Plugin ,不過這種東西您看過的程式裏,應該可以注意到,
多數的東西我是從第一層開始 'if' 的,前後的東西都儘量不寫在一個大的 if 中, 絕緣
問題我在寫時有想過,只是沒有想到要實現他,畢竟它並不是產品,只是一套自己使用的東
西而以. 不過我這輩子還沒有做過什麼產品,工作七年幾乎就都是在現在的公司
不過人不能停滯不前,努力接收新知還是要的

不同的X-Mailer特征都不一样的，我们能做到的就是尽量寻找那些数量比较庞大的spam的特
征，一般不会去对特定的MUA的做限制的，因为指不定哪天这种MUA就变更了。所以你说的
office 2007, vista的windows mail确实对我们是很大的挑战，不过没关系，船到桥头自然
直，方法是人想出来的，不是吗？

這裏有些看法不錯,不過就我的經驗來看,X-Mailer 不見得會出現,也可能以其他的 header
name 出現 (Ex: User-Agent), X-Mailer 可能不是 MUA, 而是 PHP 或 Perl 的一些模組
等等, 而像不同的 openwebmail 版本其 boundary 算法可能都不同,如果這個東西能整理
出來,那巳經是不小的工作了,所以只能針對大量使用的 MUA 來進行判讀,可是像 yahoo 或
gmail 的判讀可能又不太相同,看來來似乎是一件不小的工程 (我沒做過,所以不知工程大小
及實作性程度,但對 OE 應該是有一定的效果的)
不過這裏一個個人的疑問,對於 folding/unfolding , 像一般您們做 antispam 是如何看待的 ?
是像 DKIM 那樣做 relaxed 或 simple 類的判斷 ? 或是根本不理會? (我想後者的可能性居多)
(這問題就像我前面提過的變形,內容可以有很大的變化,但是還是表示同一件事情),
以一般 SA 觀念 DCC 算法早晚恐怕也會有問題,因為它是假設在大量發送相同的內容,如果內容
有變異,那 checksum 結果也會不一樣,我知道市面上有些 antispam 產品是有類似的做法

做运营商级别的海量企业邮箱反垃圾最让人头大的就是misjudge，所以我们一般奉行的是无罪推
断，也就是说只有找到足够的特征，才能将这封邮件block掉，否则用户就要抱怨“怎么回事
情，XXX给我发邮件怎么发不进来”所以一般SA的score机制我们不大采用，不过也不绝对

我認為 block 有來種實現方法,一種是 rejection (r), 一種是 quarantine (q), 一般用到 SA
(或其他評分方案)都是後者 (q),行為識別則通常是 (r), 後者消耗資源這是公認的,理論上想要
愈準確就會消耗更多資源(Ex: MUA + X-Mailer + boundary 識別),最後的取捨都要經過微調
通常郵件量愈大的,通常就愈不考慮內容,不是不想做,而是副作用太多

有一种方法其实很好的，我们也是借鉴了某个非常知名的anti-spam provider的做法，好像
现在采用这种方法的gateway不是很多，具体的做法就是当gateway获得的spam特征不充分的
时候（例如： helo myxp），在\r\n.\r\n之后，gateway返回4xx system is busy now,
please try later ...之类的消息，让remote side进行retry，差劲一点的spam program是
不会进行retry的，其实就是grey-list的一种扩展啦，不过实际情况下效果却是蛮好的，对
于降低misjudgement是很有好处的。

我認為 grey-list (under mis-configuration) 是會有問題的, 以像我們單位而言,信件有
很大的比例是客戶服務,這個 grey delay 的動作會影響問題處理速度 (客戶端感覺),尤其在
mis-configuration 時,信件會根本無法傳送,暫時沒有退信,會讓 user 誤以為自己的信件巳
經寄出了,而若此時 grey-list MTA 有做 rate control, 那這種 delay 情況恐怕會更嚴重,
即使 admin 巳經 fixed 問題了,但信件恐怕仍無法及時投送完成.當然,對於 spam-ware 的東
西,這個是有用的,因其無 retry 機制

spam的locality是比较强的，比virus还要强。所以美国的好的产品到中国来就不一定有效了，
相信台湾的产品到大陆来也是差不多的，不过感觉上现在的zombie可能威胁更大，所以很多大的
系统动不动就down掉了，为了这个我们还专门开发了一个mail system专用的watch dog，监控后
端邮件系统的队列，我发现你的这几个chart很漂亮的说，是你自己画的吗？(Y)我们也有类似的
东东，不过你知道这种运行商级别的海量系统一般会要求看real state的，所以我们用widget做
了个实时的东东。以后多多交流哦

非常同意,
我們的 Server 做很多監控 (也是我一個人寫,人少就是這樣),就 mail 來說就不下十來項,畫圖
只是讓自己好看,重點在於情況的判斷準備度,誤報會讓人麻木,就像狼來了一樣,所以我在這方
面花了不少心力(不過這也不算我的主力業務),基本上可以控制誤報在 5% 以下,某些類別的警
告誤報率更可以低於 1%,圖我是用 rrdtool 畫的, 一般來說, threshold check & alert 是最難的
而看 mail 的連接除了用一些貴貴的設備外,其實 cisco 的 netflow 就很好用了,若搭配 GeoIP,
可以做的非常 fancy (我還沒做,主要是沒有時間).

與ctuyoung兄討論確實不錯,就事論事,觀點特別

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

starbear

丰衣足食

论坛徽章:: 0

117楼 [报告]

发表于 2007-03-16 21:31 |只看该作者

争论过程都看过了
有些东西不能光凭嘴皮子说达到多少，真正能让人信服的是事实数据（测试数据和实战数据），真正能以理服人。说实在，在这里说哪个产品拦截率是%多少，我也不信。用过一些厂家的产品，功能花哨，吹得天花乱坠，真正对于spam的识别，还真是惨不忍睹。图片spam我们单位当初对这个也是苦不堪言，后来干脆把所有gif suffix全部干掉，算是清净了。如果有什么好的产品或者方法可以阻止这些spam，请大家继续讨论，小弟洗眼恭听！！！！

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

思一克

白手起家

论坛徽章:: 0

118楼 [报告]

发表于 2007-03-17 21:40 |只看该作者

TO starbear,

理解你说的.

不能光凭嘴皮子说达到多少. 的确不少产品声称自己拦截率达到多少多少, 但实际一试用根本不是那么回事. 尤其是有些Sales为了推销, 将80%说成90%甚至98%. 如果你试用,比例没有那么高,他们可能说,"自学习"还没有学好,用一年后比例就高了. 你如果相信了,购买了,那么以后发觉受骗了或者想换一种产品,想退货是没有任何可能的. 十几完到几十万再不好用也只勉强继续用了.

但是,也不排除有产品和服务可以达到他们说的比例. 你可以通过给你提供反垃圾GATEWAY实验来了解真实性. 我也明白,一个流行了很久的疾病,如果有相当有效的药物出来了,一般人包括水平很好的人都不会相信的.

一个建议: 购买反垃圾产品如果防止受欺骗,可以
1) 要求免费提供拦截服务几个月,自己看效果是否真实
2) 即使觉得真实了,要求提供服务的服务一年,付一年款. 再服务一年,付第二年费用.

原帖由 starbear 于 2007-3-16 21:31 发表
争论过程都看过了
有些东西不能光凭嘴皮子说达到多少，真正能让人信服的是事实数据（测试数据和实战数据），真正能以理服人。说实在，在这里说哪个产品拦截率是%多少，我也不信。用过一些厂家的产品，功能花哨， ...

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

ctuyoung

白手起家

论坛徽章:: 0

119楼 [报告]

发表于 2007-03-19 08:58 |只看该作者

.....

[ 本帖最后由 ctuyoung 于 2007-3-26 11:17 编辑 ]

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

xingcw

白手起家

论坛徽章:: 0

120楼 [报告]

发表于 2007-03-19 15:44 |只看该作者

ctuyoung: 另外我想请教一下现在我发现很多的台湾yahoo过来的垃圾邮件，是有人利用yahoo发送的，下面是我截取的一个样本，你有什么好的对付这些spam的办法吗？

我已预料到了这些SPAM会增加，请看
http://www.xingcw.com/vsvl/develop/spam-free-account.html

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

1 ... 5 6 7 8 9 10 111213 / 13 页下一页

返回列表

Chinaunix › 论坛 › IT运维 › 服务器应用 › 请问大家是如何反图片垃圾邮件的？

[Mail] 请问大家是如何反图片垃圾邮件的？ [复制链接]

回复 112楼 abel 的帖子

浏览过的版块