免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 2949 | 回复: 5
打印 上一主题 下一主题

linux下高效率查询文件的方法欢迎各位探讨 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2011-05-13 15:40 |只看该作者 |倒序浏览
近期接收到一个要求需要查询一个存储下以.flv/.MP4等结尾的文件并统计出来总个数,该目录下所有子目录总容量200T左右。
需要利用最快的时间找到这些文件。

使用工具不限 如locate、find 等等欢迎各位支招。
系统环境: centos 5.3 x86_64
网络存储总容量:500T
要查询的目录下容量:200T
要查询的目录下文件数粗略计算为:2000w个
目录深度介绍如 /data/flv/0513/2011/05/13/01/15/15/37/hash.flv/mp4 等等多种文件格式。

需求:快速的查出以.flv /.mp4结尾的文件。

欢迎兄弟们发表下你们在海量数据下的查询文件的方法。

论坛徽章:
0
2 [报告]
发表于 2011-05-13 16:44 |只看该作者
回复 1# black-hat


     看过 IBM GPFS策略查询和find  一个实验比较   那才8000多个目录有400万多文件   策略查询查找包含的文件名为 abc 的文件前面是3分多   find 相当于6分  包含abc名的文件数量4000左右

     文件数量的增加,find 效率下降, GPFS 引擎的搜索用时是线性增长  

      实际得接触到这海量文件才能了解  , 我也求知识 。。。

论坛徽章:
0
3 [报告]
发表于 2011-05-13 18:10 |只看该作者
lz土豆网的?

论坛徽章:
0
4 [报告]
发表于 2011-05-13 19:24 |只看该作者
用的是什么文件系统?

论坛徽章:
0
5 [报告]
发表于 2011-05-14 19:23 |只看该作者
本帖最后由 black-hat 于 2011-05-14 19:34 编辑

公司就不透露了呵呵。咱们言归正传,
使用的是北京龙存科技的龙存分布式文件系统,服务器上需要安装他们的内核模块来挂载,具体的底层细节不是很清楚。
属于全权外包给他们,我们只负责使用这套系统。
前端有元数据 和客户端进行通信调度等功能。

论坛徽章:
0
6 [报告]
发表于 2011-05-17 11:40 |只看该作者
6间房吧。。哈哈。。。他们的元数据那端貌似有索引结构,直接用find应该就能保证速度了。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP