免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
123下一页
最近访问板块 发新帖
查看: 10519 | 回复: 25

求高效算法过滤非法词。。。 [复制链接]

论坛徽章:
0
发表于 2011-07-09 10:42 |显示全部楼层
各有大神有现成的吗?

评分

参与人数 1可用积分 -1 收起 理由
shang2010 -1 不解释

查看全部评分

论坛徽章:
1
CU十二周年纪念徽章
日期:2013-10-24 15:41:34
发表于 2011-07-09 10:45 |显示全部楼层
正则 or 字符串匹配

论坛徽章:
0
发表于 2011-07-09 10:48 |显示全部楼层
关键词一多,效率太差了,考虑文本的分词,然后关键词分类...不知道可行不?

论坛徽章:
0
发表于 2011-07-09 11:31 |显示全部楼层
{:3_189:}{:3_189:}什么是非法词?目地?

论坛徽章:
0
发表于 2011-07-09 13:03 |显示全部楼层
最近我也做这个,自己写了个服务端过滤

论坛徽章:
0
发表于 2011-07-09 17:08 |显示全部楼层
目的就是阻止我们这帮P民,乱搜太上皇啥的!

论坛徽章:
0
发表于 2011-07-09 20:49 |显示全部楼层
开链hash,先hash,然后字符串匹配。或者在前面还可以放一个bloom filter,命中的到hash里面去找

论坛徽章:
0
发表于 2011-07-11 12:15 |显示全部楼层
最近我也做这个,自己写了个服务端过滤
liexusong 发表于 2011-07-09 13:03



    求分享{:3_187:}

论坛徽章:
0
发表于 2011-07-11 16:37 |显示全部楼层
简单的脏词过滤, 做个字典就可以了。


用一个tiretree, 每个tree有256个节点(每个代表一个字符),

吧脏词构造出来, 然后过滤的时候, 就直接一个字符一个字符比较就可以了, 如果匹配了, 就是非法词。

没匹配, 就不非法。


复杂的做法就不介绍了, 一般用上述方法做简单的脏词过滤足以。

论坛徽章:
0
发表于 2011-07-13 13:45 |显示全部楼层
把关键词给Google,返回reset就非法,否则就不非法。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP