Chinaunix
标题:
CCERT Anti-Spam 中文规则用后感想
[打印本页]
作者:
海鹰
时间:
2004-10-20 08:40
标题:
CCERT Anti-Spam 中文规则用后感想
虽然不错,SA扫描速度大升,消耗资源大减。
可是中文规则不完善,连上海、广州等很多地方名都有。而一些处女、圣女、偷拍之类的就没有
最后还得要自定义
作者:
svm
时间:
2004-10-20 13:24
标题:
CCERT Anti-Spam 中文规则用后感想
非常感谢你反馈的宝贵意见。我们会不断地完善这个规则集。
暂时我先解释一下为什么你提出的一些词被选中,以“上海”为例:
目前在我们的测试中使用2万垃圾邮件和10万正常邮件,
“上海”这个词在垃圾邮件的Subject上出现的次数占垃圾邮件总数的1.4%,
而在正常邮件的Subject上出现的次数占正常邮件总数的0.1%。
就因为这样所以他被选中了。不过,如果这个决策导致误判的话,我们会采取一定的优化。
同时,你提出的一些词如“处女”等,我们会尽快更新。
下面是规则集当前版本的测试结果(供参考):
门限值 垃圾邮件的查全率 正常邮件的错误率(误判占正常邮件总数)
0.000 1.000 1.000
0.500 0.851 0.151
1.000 0.769 0.064
1.500 0.714 0.044
2.000 0.651 0.024
2.500 0.617 0.017
3.000 0.575 0.012
3.500 0.528 0.010
4.000 0.484 0.008
测试过程不用中文规则以外的任何规则。以后该测试结果会在我们的网站上和规则集的更新同时公布,见:
http://www.ccert.edu.cn/spam/sa/Chinese_rules.htm
CCERT
作者:
aicoa
时间:
2004-10-20 13:38
标题:
CCERT Anti-Spam 中文规则用后感想
我用后的感觉:有点过于严格
或者说,有些条目定义的分值过高。
感觉这个规则集比较适合一般应用,
如果是对商业公司,比较容易造成一些业务邮件的误判。
尤其是一些报价单,产品列表类似的邮件。
后来手工降低了一些关键字的分值定义,感觉好多了
作者:
aicoa
时间:
2004-10-20 13:44
标题:
CCERT Anti-Spam 中文规则用后感想
忘了说了,我用的是 2004 Sept 14 的
作者:
svm
时间:
2004-10-20 13:46
标题:
CCERT Anti-Spam 中文规则用后感想
OK, 我们会考虑总体调整分数,这样会降低误判率。
作者:
liusn2000
时间:
2004-10-20 16:51
标题:
CCERT Anti-Spam 中文规则用后感想
中文规则集也很好用,
作者:
海鹰
时间:
2004-10-20 17:33
标题:
CCERT Anti-Spam 中文规则用后感想
原来老大来了
作者:
aicoa
时间:
2004-10-21 09:47
标题:
CCERT Anti-Spam 中文规则用后感想
还有一个问题,
对网络杂志与普通垃圾邮件 应该做一下 适当的 区分,
因为在现在的实际环境中,员工订阅网络杂志已经是非常普遍的事情了
另外,希望能完成这个规则集之后,综合考虑一下其他规则集的限定,
比如推荐一个适当的阀值什么的。
我看了这个中文规则,做判定只是依据 subject 与 body ,
还是在实际情况中,仅仅依靠这两个也是不行的,
其他的规则也是要综合考虑。
我在使用中,局限与生产系统的正常运行,不能做频繁的调整,
所以也没有得出一个合适的结果;
而我的测试系统上,邮件样本又太少,也不能正常反映真实工作环境。
最后,非常感谢 CCERT 提供的这个规则,确实有很不错的效果,
也提供了很大的方便。
欢迎光临 Chinaunix (http://bbs.chinaunix.net/)
Powered by Discuz! X3.2