免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
1234
最近访问板块 发新帖
楼主: spike8800

URL过滤 内核空间还是用户空间 [复制链接]

论坛徽章:
3
金牛座
日期:2014-06-14 22:04:062015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:49:45
发表于 2009-12-17 17:23 |显示全部楼层
原帖由 spike8800 于 2009-12-16 16:34 发表
我目前想做一个URL过滤功能,URL黑名单和白名单存放在mysql数据库中。内核抓包,提取出URL,有两个想法:
1. 内核态抓包,提取出URL,用户态系统调用出URL,在数据库中匹配,然后在传递给内核(系统调用)采取 ...


我不知道你过滤的是完整的URL,还是仅仅是path,而不包含query string
要在内核做需要注意很多问题,比如说大小写,URL编码,都要考虑全面,否则会有漏网之鱼。

论坛徽章:
0
发表于 2009-12-18 11:45 |显示全部楼层
都已经有人说出目前成熟的用得很广的方案了: Bloom Filter

竟然还在jjww的讨论怎么造一个容易坏的车轮

论坛徽章:
0
发表于 2009-12-18 11:46 |显示全部楼层
如果从效率的角度上来考虑,这个我个人认为应该在内核用hash来解决:
http://hi.baidu.com/windameister ... 55f9ada40f521b.html
只是URL还要考虑到编码的问题。

如果是域名的话,还可以事先建立一个地址到域名的缓存项,用于加速的目的。定时在CPU空闲时更新一下。

论坛徽章:
0
发表于 2009-12-18 12:58 |显示全部楼层
原帖由 njubee 于 2009-12-18 11:45 发表
都已经有人说出目前成熟的用得很广的方案了: Bloom Filter

竟然还在jjww的讨论怎么造一个容易坏的车轮

低调低调....
看看大侠们的讨论也是可以学不少东西的....
毕竟Bloom Filter是在可以接受一定误差(0.001%^_^)的情况下才能用的.... 虽然现在爬虫 垃圾邮件过滤都用这个...

论坛徽章:
36
IT运维版块每日发帖之星
日期:2016-04-10 06:20:00IT运维版块每日发帖之星
日期:2016-04-16 06:20:0015-16赛季CBA联赛之广东
日期:2016-04-16 19:59:32IT运维版块每日发帖之星
日期:2016-04-18 06:20:00IT运维版块每日发帖之星
日期:2016-04-19 06:20:00每日论坛发贴之星
日期:2016-04-19 06:20:00IT运维版块每日发帖之星
日期:2016-04-25 06:20:00IT运维版块每日发帖之星
日期:2016-05-06 06:20:00IT运维版块每日发帖之星
日期:2016-05-08 06:20:00IT运维版块每日发帖之星
日期:2016-05-13 06:20:00IT运维版块每日发帖之星
日期:2016-05-28 06:20:00每日论坛发贴之星
日期:2016-05-28 06:20:00
发表于 2009-12-18 13:57 |显示全部楼层
如果是域名的话,还可以事先建立一个地址到域名的缓存项,用于加速的目的

九贱兄说的是啊。个人觉得平时所谓的URL过滤,可能更多的是域名过滤,或者深一些的二级域名

论坛徽章:
0
发表于 2009-12-24 14:12 |显示全部楼层
学习中

论坛徽章:
0
发表于 2009-12-31 15:17 |显示全部楼层
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP