免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: Gray1982
打印 上一主题 下一主题

【讨论】电商/搜索/广告架构中的分布式文件系统(c) [复制链接]

论坛徽章:
0
31 [报告]
发表于 2012-03-29 10:55 |只看该作者
不熟悉存储 进来学习

论坛徽章:
0
32 [报告]
发表于 2012-03-29 13:27 |只看该作者
其实分布式文件系统实现原理都是类似的,master+chunk,元数据和真实数据分开存储,真实数据(文件)最后都是以64M的块存在于各个存储之上,文件可以通过“copy”因子来设置多份。由于块为64M,因此分布式文件系统一般都适合用于存储大文件(大于64M),而不适合存小文件(比如图片,数据库)。因此淘宝的TFS虽然也是分布式文件系统,但由于自己做了定制,因此变成了适用于淘宝存储小文件的文件系统。

论坛徽章:
0
33 [报告]
发表于 2012-03-29 18:35 |只看该作者
大文件多以块的传输,当然在这样的网络里,交换等硬件要求比较高。
很多开源的分布式都是有自己的公司二次开发以适应公司的实际需要。
选择不同的硬件存储,设置不同参数来配合公司的业务也是有必要的。

论坛徽章:
1
辰龙
日期:2014-05-15 19:37:15
34 [报告]
发表于 2012-03-30 14:24 |只看该作者
用 MogileFS 吧.全分布,支持多 IDC,支持异构的服务器和硬盘.多份文件来保证性能和安全性,使用的公司也多,还很成熟.

论坛徽章:
5
丑牛
日期:2014-01-21 08:26:26卯兔
日期:2014-03-11 06:37:43天秤座
日期:2014-03-25 08:52:52寅虎
日期:2014-04-19 11:39:48午马
日期:2014-08-06 03:56:58
35 [报告]
发表于 2012-03-31 08:01 |只看该作者
进来学习学习分布式文件系统

论坛徽章:
1
天蝎座
日期:2013-12-06 18:23:58
36 [报告]
发表于 2012-03-31 08:39 |只看该作者
要想优化系统,首先要分析一下,我们的系统在哪里遇到了瓶颈,可以利用一些系统命令来查看一下系统的状态,
比如 用vmstat、iostat观察CPU,用free、vmstat检测内存的使用情况,iostat查看一下磁盘IO,netstat检测网络带宽的。
然后在对症下药

论坛徽章:
1
天蝎座
日期:2013-12-06 18:23:58
37 [报告]
发表于 2012-03-31 09:55 |只看该作者
vmstat 命令报告关于内核线程、虚拟内存、磁盘、陷阱和 CPU 活动的统计信息。由 vmstat 命令生成的报告可以用于平衡系统负载活动。

vmstat 命令生成的报告示例包含栏标题及其描述:

kthr: 内核线程状态在采样间隔期间每秒钟更改一次。

r         置于运行队列中的内核线程数目。
b         置于等待队列(等待资源、等待输入/输出)的内核线程数目。
内存 :关于使用虚拟内存和实内存的信息。如果虚拟页已经被访问的话,虚拟页可以被认为是活动的。一页为 4096 个字节。

avm         活动虚拟页。
fre         空闲列表的大小。
注:大部分实内存都用作文件系统数据的高速缓存。对于保持较小的空闲列表,这是很正常的。
页 :关于缺页故障和调页活动的信息。这些是间隔的平均值,以秒为单位给出。

re         页面调度程序输入/输出列表。
pi         从调页空间调度进的页面。
po         调出到调页空间的页面。
fr         释放的页(页面替换)。
sr         通过页替换算法扫描的页面。
cy         按页替换算法的时钟周期。
故障 :采样间隔平均每秒的捕获和中断率。

in         设备中断
sy         系统调用。
cs         内核线程上下文切换。
Cpu :CPU 使用时间故障百分比。

us         用户时间。
sy         系统时间。
id         CPU 空闲时间。
wa        CPU 空闲时间,在此期间系统有未完成的磁盘/NFS I/O 请求。

论坛徽章:
0
38 [报告]
发表于 2012-03-31 09:56 |只看该作者
不知道solr对于分布式搜索有没有优化的必要,我们公司用这个东西做搜索,感觉速度很快!

论坛徽章:
0
39 [报告]
发表于 2012-03-31 10:46 |只看该作者
napoleon516 发表于 2012-03-31 09:56
不知道solr对于分布式搜索有没有优化的必要,我们公司用这个东西做搜索,感觉速度很快!


Java5开发的那玩意?还真没用过,后台的数据你那用啥来做的?

论坛徽章:
0
40 [报告]
发表于 2012-03-31 10:48 |只看该作者
crazyhadoop 发表于 2012-03-31 08:39
要想优化系统,首先要分析一下,我们的系统在哪里遇到了瓶颈,可以利用一些系统命令来查看一下系统的状态, ...


一般用分布式来做数据分析的,我感觉大部分都是内存方面是瓶颈,尤其是JAVA来做的话,如果不调整的话,小于16G内存会不会很吃力了呢······
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP