免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: starzhestarzhe
打印 上一主题 下一主题

求高效算法过滤非法词。。。 [复制链接]

论坛徽章:
0
11 [报告]
发表于 2011-07-13 15:25 |只看该作者
我有,不过是版权代码,不能公开,剥开HTTP协议,直接处理2G流量

论坛徽章:
0
12 [报告]
发表于 2011-07-13 15:26 |只看该作者
而且这玩意有点损!

论坛徽章:
2
程序设计版块每日发帖之星
日期:2015-06-17 22:20:00每日论坛发贴之星
日期:2015-06-17 22:20:00
13 [报告]
发表于 2011-07-13 15:43 |只看该作者
提示: 作者被禁止或删除 内容自动屏蔽

论坛徽章:
0
14 [报告]
发表于 2011-07-13 22:10 |只看该作者
《黑客与画家》
page 124 防止垃圾邮件的一种方法

论坛徽章:
0
15 [报告]
发表于 2011-07-14 09:07 |只看该作者
回复 8# starzhestarzhe


    我是用字典树做的,你可以搜索一下双数组字典树。

论坛徽章:
0
16 [报告]
发表于 2011-07-14 14:57 |只看该作者
我以前写过一个PHP的扩展,使用的是双数组字典树,你可以参考一下:

http://blog.anbutu.com/php/php-ext-trie-filter

论坛徽章:
0
17 [报告]
发表于 2011-07-14 15:43 |只看该作者
本帖最后由 liexusong 于 2011-07-14 15:45 编辑

回复 16# anbutu


    潜水帝?

我也看过你这个扩展,用libdatrie库的,不过不支持中文,要把alpha_map_add_range(alpha_map, 0x00, 0xff);改成alpha_map_add_range(alpha_map, 0x00000000, 0xffffffff);才支持。

论坛徽章:
0
18 [报告]
发表于 2011-07-14 17:52 |只看该作者
回复 17# liexusong


中文支持是有的,其实程序本身处理的是字节流,不存在编码的问题,如果用GBK编码,每个汉字是两个字节,那么这两个字节分别是一个树的节点。唯一的限制是词库和待过滤的文本编码需要一致。

论坛徽章:
0
19 [报告]
发表于 2013-01-21 16:26 |只看该作者
anbutu,你好,请问从哪里能下载到您写的tire-filter 扩展呢?这个网址已经失效了:http://blog.anbutu.com/php/php-ext-trie-filter回复 16# anbutu


   

论坛徽章:
4
水瓶座
日期:2013-09-06 12:27:30摩羯座
日期:2013-09-28 14:07:46处女座
日期:2013-10-24 14:25:01酉鸡
日期:2014-04-07 11:54:15
20 [报告]
发表于 2013-01-21 17:49 |只看该作者
考虑贝叶斯.
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP