免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 1755 | 回复: 7
打印 上一主题 下一主题

[Mail] CCERT Anti-Spam 中文规则用后感想 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2004-10-20 08:40 |只看该作者 |倒序浏览
虽然不错,SA扫描速度大升,消耗资源大减。

可是中文规则不完善,连上海、广州等很多地方名都有。而一些处女、圣女、偷拍之类的就没有

     最后还得要自定义

论坛徽章:
0
2 [报告]
发表于 2004-10-20 13:24 |只看该作者

CCERT Anti-Spam 中文规则用后感想

非常感谢你反馈的宝贵意见。我们会不断地完善这个规则集。

暂时我先解释一下为什么你提出的一些词被选中,以“上海”为例:

目前在我们的测试中使用2万垃圾邮件和10万正常邮件,
“上海”这个词在垃圾邮件的Subject上出现的次数占垃圾邮件总数的1.4%,
而在正常邮件的Subject上出现的次数占正常邮件总数的0.1%。
就因为这样所以他被选中了。不过,如果这个决策导致误判的话,我们会采取一定的优化。

同时,你提出的一些词如“处女”等,我们会尽快更新。

下面是规则集当前版本的测试结果(供参考):

门限值   垃圾邮件的查全率  正常邮件的错误率(误判占正常邮件总数)
0.000   1.000   1.000
0.500   0.851   0.151
1.000   0.769   0.064
1.500   0.714   0.044
2.000   0.651   0.024
2.500   0.617   0.017
3.000   0.575   0.012
3.500   0.528   0.010
4.000   0.484   0.008

测试过程不用中文规则以外的任何规则。以后该测试结果会在我们的网站上和规则集的更新同时公布,见:

http://www.ccert.edu.cn/spam/sa/Chinese_rules.htm

CCERT

论坛徽章:
0
3 [报告]
发表于 2004-10-20 13:38 |只看该作者

CCERT Anti-Spam 中文规则用后感想

我用后的感觉:有点过于严格
或者说,有些条目定义的分值过高。

感觉这个规则集比较适合一般应用,
如果是对商业公司,比较容易造成一些业务邮件的误判。
尤其是一些报价单,产品列表类似的邮件。


后来手工降低了一些关键字的分值定义,感觉好多了

论坛徽章:
0
4 [报告]
发表于 2004-10-20 13:44 |只看该作者

CCERT Anti-Spam 中文规则用后感想

忘了说了,我用的是 2004 Sept 14 的

论坛徽章:
0
5 [报告]
发表于 2004-10-20 13:46 |只看该作者

CCERT Anti-Spam 中文规则用后感想

OK, 我们会考虑总体调整分数,这样会降低误判率。

论坛徽章:
0
6 [报告]
发表于 2004-10-20 16:51 |只看该作者

CCERT Anti-Spam 中文规则用后感想

中文规则集也很好用,

论坛徽章:
0
7 [报告]
发表于 2004-10-20 17:33 |只看该作者

CCERT Anti-Spam 中文规则用后感想

原来老大来了

论坛徽章:
0
8 [报告]
发表于 2004-10-21 09:47 |只看该作者

CCERT Anti-Spam 中文规则用后感想

还有一个问题,
对网络杂志与普通垃圾邮件 应该做一下 适当的 区分,
因为在现在的实际环境中,员工订阅网络杂志已经是非常普遍的事情了


另外,希望能完成这个规则集之后,综合考虑一下其他规则集的限定,
比如推荐一个适当的阀值什么的。
我看了这个中文规则,做判定只是依据 subject 与 body ,
还是在实际情况中,仅仅依靠这两个也是不行的,
其他的规则也是要综合考虑。
我在使用中,局限与生产系统的正常运行,不能做频繁的调整,
所以也没有得出一个合适的结果;
而我的测试系统上,邮件样本又太少,也不能正常反映真实工作环境。



最后,非常感谢 CCERT 提供的这个规则,确实有很不错的效果,
也提供了很大的方便。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP