Chinaunix

标题: 【讨论】电商/搜索/广告架构中的分布式文件系统(c) [打印本页]

作者: Gray1982    时间: 2012-03-26 13:59
标题: 【讨论】电商/搜索/广告架构中的分布式文件系统(c)
获奖名单已公布,详情请看:http://bbs.chinaunix.net/thread-3727562-1-1.html

随着电商的增多,网购的趋势已经形成。企业要针对海量的数据进行分析,处理。比如,能时时显示出物品的相关信息,快速的查询等等。这些都是电商应该考虑的问题。而做为运维、架构设计的我们,能为企业设计出海量数据高效读取,并保障数据的完整性的架构是责无旁贷的。在处理海量数据方面,一个成熟的应用也不仅仅是软件的选型和配置,在系统层级也有着不少的改动。所以今天我们就各种分布式文件系统以及运行其的linux系统进行一下讨论,不仅仅在部署,在配置方面的优化也是很有必要的。

讨论话题:
1、Linux/unix系统级优化
2、各种分布式文件系统的了解
3、针对海量数据的分布式文件系统优化

活动要求:
1,针对以上话题进行讨论分享
2,网友可以提出问题,答疑解惑
           
邀请嘉宾:
周淼 (gavinzhm) 株式会社MTI 系统工程师
余洪春(yuhongchun)集群和高可用版块版主 高级运维工程师
老男孩(老男孩linux培训)老男孩Linux实战运维培训中心总裁
wenzizone 某游戏网站 高级架构师
happy_fish100   CU社区分布式文件系统版块资深版主

活动时间:2012.3.26-2012.4.20

活动有奖:我们为积极参与讨论的网友准备了乐扣乐8件套(三套),奖励给积极参与活动的网友(有意义回复超过三贴)。


作者: 无风之谷    时间: 2012-03-26 14:10
欢迎大家积极参与
作者: afeicool    时间: 2012-03-26 14:13
...支持一下。。
作者: chenyx    时间: 2012-03-26 14:13
支持下.
没用过海量数据的架构.对Hadoop仅仅知道有这么个东西而已
作者: zhaoke0128    时间: 2012-03-26 14:15
hadoop对于海量数据分析与存储具有较大优势,而平时我们接触最多的还是MFS,GFS等
作者: gutentagswh    时间: 2012-03-26 14:18
我也先来占个位置,慢慢聊技术
作者: zhaoke0128    时间: 2012-03-26 14:20
回复 5# zhaoke0128


    分布式文件系统,一般情况下,文件系统管理的物理存储资源不一定本机上存储,而是通过网络与其它节点通信
作者: pomtch    时间: 2012-03-26 14:24
必须顶的,为了饭盒也必须的。
作者: 小版主杀手    时间: 2012-03-26 14:25
分布式文件系统大的电商公司用得比较多,hadoop这玩意很精深,小的项目nfs也可以  露个脸
作者: zhaoke0128    时间: 2012-03-26 14:38
NFS,也是C/S文件系统的一种,NFS允许一个系统在网络上与他人共享目录和文件,通过使用NFS,用户和程序可以像访问本地文件系统一样访问远端系统上的文件
好处:
    1、linux内核支持,配置方便
    2、可以减少本机存储的空间,通常存放在一台机器上即可(单点)
    3、用户不必在每个节点上建目录,这样的目录可以放在NFS上在网络中访问
缺点:
    1、可扩展性差,对于大量的存储节点和客户端的集群模式难以应对
    2、不支持数据复制,很容易出现系统的性能瓶颈
    3、有时候会出现,文件不一致的情形
    4、对于异地服务的支持能力不行
欢迎各位拍砖
作者: strivers    时间: 2012-03-26 14:38
我们是主要是做电商项目的,目前还没有用到分布式,很想听听大公司是如何用分布式的,然后可以借鉴过来。
作者: Gray1982    时间: 2012-03-26 14:39
而且hadoop安装也不难,主要是在调优方面可能比较麻烦。类似Mysql的调优一样,需要做很多的测试以后才可以得到相关的一个最佳数值
NFS不多说了,基本会Linux的都会
MFS以前一直在用,很不错的东西。
作者: fruler    时间: 2012-03-26 15:19
虽然我不能提出强力的个人见解,但是还是很支持!刚刚接触一个电商的项目,值得学习!
作者: gavinzhm    时间: 2012-03-26 15:24
awk + grep的组合或是perl之类的语言脚本可以完成很多日志分析的需求,当然日志的前提是每天十几G或是几十G以内

如果上百G的话hadoop会更有效率,hadoop至信已经发展近10年,有很多成熟的插件,可以减少二次开发的成本

Gray1982 发表于 2012-03-26 14:39
而且hadoop安装也不难,主要是在调优方面可能比较麻烦。类似Mysql的调优一样,需要做很多的测试以后才可以得 ...



作者: 南非蚂蚁    时间: 2012-03-26 15:50
用过集群文件系统gfs和ocfs2,对于中小数据量的应用环境,两种集群文件系统的性能还是可以的,但是随着数据量的增大,性能逐渐下降,ocfs2性能缺陷尤为明显,数据在达到1T时,经常出现节点间数据不同步、文件系统变为只读等现象,而gfs性能略好,但是gfs稍微复杂,之前版本需要rhcs相关组件支持。

我对mfs的应用并不多,对大量小文件读写支持不错,但是单个MDS,存在单点故障和瓶颈。
作者: lansyh    时间: 2012-03-26 16:03
Gray1982 发表于 2012-03-26 14:39
而且hadoop安装也不难,主要是在调优方面可能比较麻烦。类似Mysql的调优一样,需要做很多的测试以后才可以得 ...


我用过MFS。MFS的缺点在于master是单点,我以前用HA+drbd+MFS做过热备,单点问题是解决了,但引申出了另外一个问题,drbd会产生脑裂问题,脑裂的最终结果就是热备环境中两台master不停切换,造成数据文件损坏,而且不可恢复。(当初惨痛的教训啊!!!)后来发现是dell的网卡驱动问题造成drbd脑裂,升级驱动同事通过脚本可对drbd脑裂进行监控并修复的。

作者: Gray1982    时间: 2012-03-26 16:31
lansyh 发表于 2012-03-26 16:03
我用过MFS。MFS的缺点在于master是单点,我以前用HA+drbd+MFS做过热备,单点问题是解决了,但引申出了另 ...


DELL的机器网卡驱动一直是问题,升级是必需的。
脑裂的问题在写脚本的时候加上sleep就可以了
LS的脚本可以共享下嘛,一起学习一下
作者: yuhongchun    时间: 2012-03-26 16:49
提示: 作者被禁止或删除 内容自动屏蔽
作者: Gray1982    时间: 2012-03-26 16:52
hadoop是一个分布式系统基础架构,主要是充分利用集群的威力高速运算和存储。
所以在海量计算的时候用Hadoop还是很方便,统计数据由多台服务器来计算。
因为用JAVA来编写的,所以相当吃内存,不知道谁有好的方法介绍一下。
作者: zh_ch_l    时间: 2012-03-26 17:00
必须支持一下
作者: zh_ch_l    时间: 2012-03-26 17:02
用过nfs glusterfs hdfs gfs 。 配置比较方便快捷还是nfs,性能和nfs也差不多。有没有人搞过pnfs?
作者: Gray1982    时间: 2012-03-26 18:05
pnfs还真没搞过,现在在网站架构中,MFS比较多一些。
在后台海量数据的处理中,Hadoop比较多一些
作者: fire_cpp    时间: 2012-03-26 19:21
进来学习。
作者: zhaoke0128    时间: 2012-03-26 19:42
回复 20# Gray1982
其实hadoop支持多语言,用python也是可以的


   
作者: Gray1982    时间: 2012-03-27 10:35
用PYthon开发的话,会节省很多时间滴
原来用Python写过MR
作者: gavinzhm    时间: 2012-03-27 14:47
glusterfs被红帽收了之后感觉前景会更好一些
没直接放到过生产环境中,不知道可用性怎么样,有待研究


zh_ch_l 发表于 2012-03-26 17:02
用过nfs glusterfs hdfs gfs 。 配置比较方便快捷还是nfs,性能和nfs也差不多。有没有人搞过pnfs?

作者: yuhongchun    时间: 2012-03-27 15:12
提示: 作者被禁止或删除 内容自动屏蔽
作者: Gray1982    时间: 2012-03-27 15:26
其实MFS也是有很多配置需要更改的,比如块大小,是吧酒哥
作者: morris2600    时间: 2012-03-27 16:36
俺是流媒体方向的, 之前用过NFS, 性能不够, 主要是压力一大之后读延迟增加, 不符合要求。

有谁了解hadoop是否适合流媒体方面? 没有接触过, 但是听说延迟也比较大, 从架构上看似乎也有此问题

作者: Gray1982    时间: 2012-03-28 13:26
Hadoop在群集计算方面还是有一定优势的,如果你只是为了存储,不建议你用Hadoop来做
NFS在读写方面是有瓶颈的,不论3还是4版本,在大数据量下都是这样。
如果可以的话,你可以改用MFS,GFS,这些都是一个不错的选择文字。

作者: 秦汉唐宋元    时间: 2012-03-29 10:55
不熟悉存储 进来学习
作者: taotao1240    时间: 2012-03-29 13:27
其实分布式文件系统实现原理都是类似的,master+chunk,元数据和真实数据分开存储,真实数据(文件)最后都是以64M的块存在于各个存储之上,文件可以通过“copy”因子来设置多份。由于块为64M,因此分布式文件系统一般都适合用于存储大文件(大于64M),而不适合存小文件(比如图片,数据库)。因此淘宝的TFS虽然也是分布式文件系统,但由于自己做了定制,因此变成了适用于淘宝存储小文件的文件系统。
作者: Gray1982    时间: 2012-03-29 18:35
大文件多以块的传输,当然在这样的网络里,交换等硬件要求比较高。
很多开源的分布式都是有自己的公司二次开发以适应公司的实际需要。
选择不同的硬件存储,设置不同参数来配合公司的业务也是有必要的。
作者: iakuf    时间: 2012-03-30 14:24
用 MogileFS 吧.全分布,支持多 IDC,支持异构的服务器和硬盘.多份文件来保证性能和安全性,使用的公司也多,还很成熟.
作者: pitonas    时间: 2012-03-31 08:01
进来学习学习分布式文件系统
作者: crazyhadoop    时间: 2012-03-31 08:39
要想优化系统,首先要分析一下,我们的系统在哪里遇到了瓶颈,可以利用一些系统命令来查看一下系统的状态,
比如 用vmstat、iostat观察CPU,用free、vmstat检测内存的使用情况,iostat查看一下磁盘IO,netstat检测网络带宽的。
然后在对症下药

作者: crazyhadoop    时间: 2012-03-31 09:55
vmstat 命令报告关于内核线程、虚拟内存、磁盘、陷阱和 CPU 活动的统计信息。由 vmstat 命令生成的报告可以用于平衡系统负载活动。

vmstat 命令生成的报告示例包含栏标题及其描述:

kthr: 内核线程状态在采样间隔期间每秒钟更改一次。

r         置于运行队列中的内核线程数目。
b         置于等待队列(等待资源、等待输入/输出)的内核线程数目。
内存 :关于使用虚拟内存和实内存的信息。如果虚拟页已经被访问的话,虚拟页可以被认为是活动的。一页为 4096 个字节。

avm         活动虚拟页。
fre         空闲列表的大小。
注:大部分实内存都用作文件系统数据的高速缓存。对于保持较小的空闲列表,这是很正常的。
页 :关于缺页故障和调页活动的信息。这些是间隔的平均值,以秒为单位给出。

re         页面调度程序输入/输出列表。
pi         从调页空间调度进的页面。
po         调出到调页空间的页面。
fr         释放的页(页面替换)。
sr         通过页替换算法扫描的页面。
cy         按页替换算法的时钟周期。
故障 :采样间隔平均每秒的捕获和中断率。

in         设备中断
sy         系统调用。
cs         内核线程上下文切换。
Cpu :CPU 使用时间故障百分比。

us         用户时间。
sy         系统时间。
id         CPU 空闲时间。
wa        CPU 空闲时间,在此期间系统有未完成的磁盘/NFS I/O 请求。
作者: napoleon516    时间: 2012-03-31 09:56
不知道solr对于分布式搜索有没有优化的必要,我们公司用这个东西做搜索,感觉速度很快!
作者: Gray1982    时间: 2012-03-31 10:46
napoleon516 发表于 2012-03-31 09:56
不知道solr对于分布式搜索有没有优化的必要,我们公司用这个东西做搜索,感觉速度很快!


Java5开发的那玩意?还真没用过,后台的数据你那用啥来做的?
作者: Gray1982    时间: 2012-03-31 10:48
crazyhadoop 发表于 2012-03-31 08:39
要想优化系统,首先要分析一下,我们的系统在哪里遇到了瓶颈,可以利用一些系统命令来查看一下系统的状态, ...


一般用分布式来做数据分析的,我感觉大部分都是内存方面是瓶颈,尤其是JAVA来做的话,如果不调整的话,小于16G内存会不会很吃力了呢······
作者: napoleon516    时间: 2012-03-31 11:35
我们有专门的公司提供数据格式,然后根据数据的字段导入这些数据,不是从数据库生成!
作者: napoleon516    时间: 2012-03-31 11:36
回复 40# Gray1982


    我们有专门的公司提供数据格式,然后根据数据的字段导入这些数据,不是从数据库生成!
作者: crazyhadoop    时间: 2012-03-31 14:51
回复 39# napoleon516


    你们的数据量应该不大,那玩意太费内存了
作者: crazyhadoop    时间: 2012-03-31 14:51
回复 39# napoleon516


    你们的数据量应该不大,那玩意太费内存了
作者: 老男孩linux培训    时间: 2012-03-31 22:27
本帖最后由 老男孩linux培训 于 2012-03-31 23:36 编辑

回复 10# zhaoke0128

老男孩点评   
NFS其实蛮好的,原因是:
1)NFS也可以集群,高可用,如果了解了分布式的系统的原理自己就可以模拟把NFS组装成分布式文件系统。
2)数据量特别大,可以做数据拆分分组集群(前期数据存储规划好)
3)还可以在前端程序实现双写,底层做同步。
4)硬件,NFS调优,文件系统的选择都有讲究。

总之,方案大把。相对某些分布式文件系统,NFS更让你用着心里更有底,否则新软件的一个程序BUG,你就晕菜了。

起码国内中等及以内企业够用了(简单、方便,稳定、可靠)

老男孩曾经的4000万PV(国内排名30左右)的兼职公司当时仍在大量用NFS)。

不过华回来,一个好的网站靠的是整体的架构。比如:老男孩曾经发布过的原创文章,高并发7层访问模型
   http://blog.chinaunix.net/uid-26131888-id-3034987.html  

光靠存储解决问题的互联网公司,显然架构是有问题的,而且靠存储解决问题,效率是最低下的,用户体验也是最差的。

国内前10的网站是确实没办法了。刀法前面基本功(架构)炼精了,刀法又练绝了还是满足不了需求,只能换飞机大炮。

老男孩的观点:简单的工作练到极致,就是绝招。对于一般的公司,这条都是管用的。

把NFS玩明白了,一样OK。简单、易用、安全、可靠。


最重要的是需求,其实想想,国内过千万PV的网站又有多少,大部分公司还是小白。。技术一般,说的很高,用的很低。

   
作者: 老男孩linux培训    时间: 2012-03-31 22:52
本帖最后由 老男孩linux培训 于 2012-04-01 11:15 编辑

回复 16# lansyh

我用过MFS。MFS的缺点在于master是单点,我以前用HA+drbd+MFS做过热备,单点问题是解决了,但引申出了另外一个问题,drbd会产生脑裂问题,脑裂的最终结果就是热备环境中两台master不停切换,造成数据文件损坏,而且不可恢复。(当初惨痛的教训啊!!!)后来发现是dell的网卡驱动问题造成drbd脑裂,升级驱动同事通过脚本可对drbd脑裂进行监控并修复的。

老男孩点评:  
  
裂脑的解决方法有多种:
1.使用Stonith 、fence。
2.最简单的办法就是写个脚本做判断(监控及时自动处理)。
3.心跳线可以双条直连。就很少发生了。即使发生了,损失可控(需求之内的)。
4.不HA也可以的,直接DRBD,然后做好监控出问题手动脚本处理也是可以考虑的(大公司的业务也会有单点,如sina sae,可控、满足需求即可)。

mfs+drbd+ha的分布式方案在早期也是老男孩的培训课程内容之一(现在的所有改进,使用了双主互为主从主主都可见的做法),维护相对复杂,数据有风险,尤其是大数据量缺乏应用场景。

说来说去还是分析需求,和有没有能HOLD住的方案。思路决定出路,有时完全靠技术不好解决,换个思路就解决了。
    大家都会用刀,可是高手的刀法(如雪山飞狐的胡家刀法)和低手(乱砍的刀法)差别巨大。这二者工具相同,水平不同,why? 解答:思路思想。到了一个比较高的高位后,首先是思想,其次是技术本身。两条腿缺一条都会累死。
我还是想给兄弟们建议,站的高看的远或者说有前瞻性是对的,但是多想想,你能否HOLD得住,解决需求的前提下,能HOLD住是最关键的,存储的数据就是公司的命门,丢失意味着倒闭。所以,简单测试OK就上线埋下了定时炸弹。
--------------------------------
依然坚持,“简单做到极致就是高招。”,因此,在给企业做技术顾问方案时,我还会经常推荐NFS负载均衡加读写分离的方案(负载均衡调度器)方案。
原因就是企业的运维人员能自己维护,我提了解决方案,企业就能自己HOLD住。

一点愚见,供同仁们参考。欢迎继续探讨。
作者: yuhongchun    时间: 2012-04-01 10:37
提示: 作者被禁止或删除 内容自动屏蔽
作者: Gray1982    时间: 2012-04-01 13:45
老男孩linux培训 发表于 2012-03-31 22:27
回复 10# zhaoke0128

老男孩点评   


NFS存在这么多年也是有一定的道理的,而且很多企业也是在生产环境中使用它。不过就像你说的,很多企业只是打着口号、在生产中运用所谓的高新技术,他们不懂什么叫合适,他们不懂什么叫专业,只是盲目的追求。一切都是口号。
我记得NFS的V3版本存在读写的瓶颈,据说V4已经OK,不过一直没怎么用。
像你说的,公司的数据不能仅仅依靠存储,一个合适的架构是主要的。所以我们需要知道什么样的软件合适什么样的业务,什么样的架构,合适未来的发展。
作者: Gray1982    时间: 2012-04-01 13:53
老男孩linux培训 发表于 2012-03-31 22:52
回复 16# lansyh

我用过MFS。MFS的缺点在于master是单点,我以前用HA+drbd+MFS做过热备,单点问题是解决 ...


mfs+drbd+ha这个方案,当初在电商的时候也用过,而且MFS对数据文件的读取,备份还是不错的。整个这套热备的方案在生产环境中也是一套成熟的方案。
当初遇到“脑裂”的问题是通过调整时间来解决的,当时还真没想到用互为主从、主主的方式来做。现在的LVS都已经互为主从、主主来做,也是为了保险。

高手的境界,除了招式(各种软件的应用)还需要有心境(各种解决方案),这样才能成为真正的高手
作者: long904    时间: 2012-04-01 14:23
最近也在关注glusterfs。同样想在生产环境中应用,个人感觉这是个轻量级的分布式文件系统。不知应用情况如何
gavinzhm 发表于 2012-03-27 14:47
glusterfs被红帽收了之后感觉前景会更好一些
没直接放到过生产环境中,不知道可用性怎么样,有待研究

作者: eclipse_2    时间: 2012-04-01 19:02
我想学习一下分布式文件系统的内部原理
现在有那个文件系统比较适合学习呢?
轻量的 经典的 方便阅读的
作者: Gray1982    时间: 2012-04-04 00:03
eclipse_2 发表于 2012-04-01 19:02
我想学习一下分布式文件系统的内部原理
现在有那个文件系统比较适合学习呢?
轻量的 经典的 方便阅读的


现在比较合适的分布式文件系统是MFS

简单的说下原理
1、高可靠性
2、轻松动态扩容
3、可以设置删除文件的空间回收时间
4、优越的性能


它的组成的几个部分:
1、元数据服务器。
在整个体系中负责管理文件系统,维护这元数据。目前版本只支持单个Master服务器,存在单点故障的风险,建议采用性能稳定的服务器充当。
2、元数据日志服务器(MetaLogger)
备份Master服务器的变化日志文件,文件类型为:changelog_ml.*.mfs 。当master服务器数据丢失或者损坏,可以从日志服务器中取得文件恢复。
3、数据存储服务器(Chunk Server)
真正存储数据的服务器。存数文件时,会把文件分块保存,并在数据服务器之间复制,数据服务器越多,能使用的“容量”就越大,可靠性就越高,性能越好。
4、客户端。
可以像挂载NFS一样挂载MFS文件系统,操作一样。

它的处理过程:
1、客户端向元数据服务器发出读请求。
2、元数据服务器把所需数据存放的位置(Chunk Server的IP地址和chunk编号)告知客户端。
3、客户端向已知的Chunk Server请求发送数据。
4、Chunk Server向客户端发送数据。
5、Chunk Server与其他Chunk Server进行数据同步。
6、Chunk Server之间同步成功。
7、Chunk Server告知客户端数据写入成功。
8、客户端告知元数据服务器本次写入完毕。

配置起来还是比较简单的,可以参考下我的作品(我的签名)
作者: eclipse_2    时间: 2012-04-04 18:21
回复 53# Gray1982


    找了几天的资料 确实感觉MFS比较合适 多谢指点
作者: napoleon516    时间: 2012-04-04 18:23
回复 44# crazyhadoop

我们是3G的数据,而且分成十几个字段来查询,是挺耗内存的,调试机4G的内存,运行所有服务,也就剩200M物理内存了。
   
作者: Gray1982    时间: 2012-04-05 09:49
eclipse_2 发表于 2012-04-04 18:21
回复 53# Gray1982


客气,这不就是大家一起学习嘛。)
作者: Gray1982    时间: 2012-04-05 09:51
回复 56# napoleon516


JAVA的一般都比较消耗内存,建议16G以上跑,这样效果也会好一些。)
   
作者: crazyhadoop    时间: 2012-04-06 08:32
分布式文件如何保持一致性也是一个难点撒~当某些节点出了故障,数据存储如何分配,数据如何恢复很让人头疼啊。
作者: Gray1982    时间: 2012-04-06 09:56
crazyhadoop 发表于 2012-04-06 08:32
分布式文件如何保持一致性也是一个难点撒~当某些节点出了故障,数据存储如何分配,数据如何恢复很让人头疼啊 ...


尤其是经常有问题的硬盘故障。不过,一般情况下,平台应该是自动分配的,比如Hadoop就是。
作者: renxiao2003    时间: 2012-04-06 22:21
前面我们说了下Windows系统的优化,今天我接着给大家说说Linux系统的优化,具体如下;
一:Linux系统的升级
今天我们说说yum系统,我们知道linux系统自带的工具up2date可以用来升级,却要用yum呢。其实大家知道,up2date 慢且经常失去响应;死机的情况。所以我们还是试一试yum来进行更新下载。yum是yellowdog updater modified 的缩写。yellowdog是一个Linux 的distributionRH 将这种升级技术利用到自己的distribution 形成了现在的yum。
我来说说yum系统的选项与参数
选项:       -y                                               自动回答yes
                --installroot=/路径                       指定安装路径
参数:    yum install 包名                          指定安装包
              yum update 包名                         升级包
              yum –y update                           更新系统所有的包
              yum search 包名                         查询这个包依赖的所有包
              yum remove 包名                        删除某个包
              yum clean                                  清楚已安装过下载包
工具集的安装;
                    yum grouplist                                    查询系统工具集
                 yum groupinstall  “工具集名”               安装工具集
                 yum groupinfo     “工具集名”               查询工具集中有哪些包
二:禁用Linux系统不必要的服务
我们先查看一下自启动状态;chkconfig –list

查询结果,

接下来就可以禁止不必要的服务了。。。
1》chkconfig –level 2345 服务器守护进程名 off (rpm包安装的,源码包安装的不支持)
那么有人问了2345是?呵呵,这里就给简单串讲一下linux系统中的云新级别
0——————停机
1——————单用户模式,用于root用户对系统进行维护
2——————多用户模式,此模式下不能使用NFS
3——————完全多用户模式,主机作为服务器使用时通常在此运行级别
4——————未分配使用
5——————图形登录的多用户模式,用户在该模式下可进行图形界面登录
6——————重新启动
2》在命令行中键入“setup”在system services中进行设置

进去看看,具体的服务列表

查看也可以用netstat –an

做了更改之后记得重新启动机器。下面是我淘的一些具体服务讲解,给大家列举出来~~
服务列表(按字母顺序排列)
服务名
必需(是/否)
用途描述
注解
acon

语言支持
特别支持左手书写语言:阿拉伯语,波斯语和希伯莱语
acpi

电源管理
手提电脑电池电扇监控器
acpid

监听精灵进程
此进程监听并分配内核中的acpi事件
adsl

内部ADSL开关控制
只有你的计算机内部有互联网连接adsl开关时才用到此服务
alsa

高级Linux声音构件
这个单独的声音系统实际包含在内核中
anacron

周期命令调度程序
一个任务调度工具
apmd

电源管理
手提电脑电源管理
apmiser

电源管理
另一手提电脑电池延长器
arpwatch

以太网IP地址配对监控器
用主机名监控并记录远程IP地址
atd

周期命令调度程序
一个任务调度工具
autofs

自动安装服务
几个命令服务文件系统自动安装之一.一些此类服务专门针对发行配套软件,如果你使用的发行配套软件拥有自己的自动安装系统,不要用这一个.
bluetooth

蓝牙技术核心
用于所有蓝牙服务
bootparamd

导入服务
以前导入无盘客户端/瘦客户端的方法.最新型的方法为零配置系统(zeroconf system).
canna

日语转换引擎
capi4linux

基本CAPI子系统
cpqarrayd

硬件服务
康柏独立冗余磁盘阵列(Raid Array)监控器
cpufreq

硬件服务
控查并配置CPU频率精灵程序模块
cpufreqd

硬件服务
此服务自动衡量CPU频率来减少过热情况.在超频时有用.
crond

周期命令调度程序
一个任务调度工具
Cups-lpd

使旧式Lunux或商业Unix系统连接到打印主机上.
只有在允许旧式系统访问打印机时才有用
cups

公共Unix打印系统
进行打印的必要功能
cvs

并发版本系统
用于管理多用户文档
devfsd

系统维护
此服务只清除动态桌面目录,除非你的系统经常崩溃,否则不需要此服务.
dhcpd

DHCP服务器
你的网络足够大,使用静态IP很麻烦吗?此项服务对你的网络进行DHCP IP配置,方便网络应用.
diald

拨号网络智能自动拨号器
此服务一经请求,即连接上网络.你一旦输入电子邮件,点击发送,它就自动连接,发送电邮并断开.
dkms

DKMS自安装导入
发行配套软件专用工具,用于OEM类型安装.它允许管理员密码的最初导入设置以及常规应用的用户名密码,系统的最后配置.
dm

显示管理器
X服务器的核心,使用图形用户界面(GUI)时必需.
dnbc

数字网络绑定Chrooter
这是一个简单的bash脚本,它将一个BIND服务器放入一个chroot牢笼中.安装BIND,发布脚本并重启.
Drakxtools-http

小型服务管理服务器
远程系统管理的发行配套软件专用工具.
dund

蓝牙拨号网络
fam

文件系统变更监控器
文件系统所有改变的记录器
finger

数据远程访问
此服务允许你远程访问用户登录日期,最后登录日期与时间.用于不在办公室时监控雇员的工作习惯,主要的安全违反,因为你正有效地在线发布公司机密数据.
freshclam

ClamAV更新器
用于自动更新ClamAV
gpm

鼠标
鼠标驱动器控制台模式
haldaemon

硬件监控系统
此服务监控硬件改变,为你改变新的或更改过的硬件.
harddrake

硬件服务
发行配套软件专用硬件探测与配置
heartbeat

高可用性服务
此服务旨在增加重要服务与服务器的优先级
hidd

蓝牙H.I.D.服务器
hplip

惠普Linux打印与成像
旧版惠普整成产品供应驱动器
hpoj

Pital?init,惠普办公喷墨打印机驱动器
惠普办公喷墨打印机旧式驱动器.新式驱动器包含在打印机的打印驱动器内.
httpd

Apache网络服务器
在系统上应用此服务有两个原因,一是要用它作为网络服务器,二是用它作为网址开发器.如果没有此二项,则不必安装Apache.
hylafax?server

企业传真机?调制调解器服务
此服务仅用于1类与2类传真机.如果你想用hylafax通过调制调解器发送传真,必须运行此服务.它并不是唯一有效的传真工具.
ibod

按需ISDN MPPP带宽
与拨号网络一同使用,按需连接到网络.
identd

TCP连接鉴定
imaps

安全IMAP服务器
imaps

IMAP服务器
iplog

用主机名或远程主机记录TCP,UDP,ICMP.
有用的网络监控工具
ipop2

POP2邮件服务器
ipop3

POP3邮件服务器
ipsec

加密与验证通信
KLIPS为内核一半,PLUTO为用户空间一半.在远程访问情况下十分有用.
iptables

基于Packet过滤防火墙内核
所有优秀的Linux防火墙都基于此项服务
ipvsadmin

Linux核心IP虚拟服务器
最早的Linux网络系统之一,已不常用.
irda

红外线设备界面
以前的无线设备支持
keytable

键盘映射
此服务明确告诉系统你正在使用哪种键盘
kheader

导入服务
此服务自动重建内核头导入
lads

登录异常探测系统
跟踪登录企图并警告入侵企图的工具
laptop mode

电源管理
减少电力耗费,延长手提电脑电池寿命的工具
leafnode

X? INETD NNTP服务
lisa

局域网信息服务器
三:保证系统密码文件的安全
/etc/shadow                                         不允许复制
/etc/passwd                                         有些linux中有,必需开启shadow
如:/etc/shadow                                   权限


四:使用SSH实现远程登录
五:关闭多余的控制台
我们知道在按F1———F6时候是进入控制台的热键
/etc/inittab                                               超级守护进程文件          把多余的控制台停止掉,其实就是注释掉


列如我们就使用俩个控制台,把其他的都给禁掉

六:关闭IPV6
1》修改配置文件 /etc/sysconfig/network

把NETWORKING_IPV6=no

2》vi /etc/modprobe.conf进入后加入两句话来把IPV6关掉

七:禁止普通用户关机,重启权限(控制权限)
1》修改vi /etc/inittab

注释掉ca::ctrlaltdel;/sbin/shutdown –t3 –r now(禁止热启动)

2》删除一些热起文件

八:用户访问控制
1》vi /etc/hosts.deny

添加;ALL:ALL                                 任何一个IP地址访问我都不允许访问
2》vi /etc/hosts.allow

sshd:192.168.12.100                      允许100ssh登录
九:修改别名文件
vi /etc/aliases

注释掉以下内容:
games  ingres  system  toor uucp  manager  dumper  operator  decode  root

十:禁止ping
在禁止ping前,我们先看是否可以相通,虚机的IP是192.168.0.14

echo 1 > /proc/sys/net/ipv4/icpm_echo_ignore_all(不是用vi打开的,直接敲进去运行就可以


我们在把它改回去,改回去很简单,直接把echo 1改为echo 0

在来测试一下~~~

十一:禁止源路由
echo 0 > /proc/sys/net/ipv4/conf/*/accept_source_route(系统默认的是禁止的)

十二:防止SYN攻击
SYN攻击大家都知道,就是A给B发包,正常的包是三次握手,但是A给B之后最后一次不进行确认。然后一直不停的给B发包,B接收后确认延迟默认30秒,但是A会一直给B发包,以致阻塞掉路由。。。
echo 1 >  /proc/sys/net/ipv4/tcp_syncookies



作者: shwpower    时间: 2012-04-08 09:14
老衲法号帅哥。

发贴看看自己积分

作者: chriszw    时间: 2012-04-08 11:17
NFS的并发访问能力不行,即使采用Raid10 +NFS,IOPS上去了,但是客户端访问服务器端,服务器端的网络成为了瓶颈,采用bond可以增加带宽但是还是还是受限于软件的性能
作者: chriszw    时间: 2012-04-08 11:18
采用lustre分布式文件系统不错
作者: chriszw    时间: 2012-04-08 11:19
lustre+samba/nfs+FCSAN/IPSAN+infiband专用网络 适合HPC的应用
作者: chriszw    时间: 2012-04-08 11:20
高IPOS、吞吐量大、延迟低
作者: Gray1982    时间: 2012-04-08 20:04
回复 63# chriszw


    能不能详细说说呢,你遇到的环境并发是怎么样的一个情况。
用MFS的时候,包括其它分布式文件系统,在系统和软件本身都需要调整一下,不知道能不能说下你那里的调整情况。
作者: Gray1982    时间: 2012-04-08 20:06
renxiao2003 发表于 2012-04-06 22:21
前面我们说了下Windows系统的优化,今天我接着给大家说说Linux系统的优化,具体如下;
一:Linux系统的升级 ...


兄弟在对Linux初始的优化做了一个非常好调整,学习学习
作者: xiuxiudeluntan1    时间: 2012-04-10 08:46
提示: 作者被禁止或删除 内容自动屏蔽
作者: xiuxiudeluntan1    时间: 2012-04-10 14:12
提示: 作者被禁止或删除 内容自动屏蔽
作者: Gray1982    时间: 2012-04-10 16:51
回复 71# xiuxiudeluntan1

这些是基于V3版本的NFS吗?你说的性能瓶颈指的是那方面呢?
NFS几本不会用于异地,你觉得那种用于异地会好一些呢?


   
作者: wau213    时间: 2012-04-11 14:39
系统级优化公司目前还是注意做的数据库sql及架构方面的优化,jboss/oracle 方面
读写通过java程序来控制   
jboss优化注意是增加端口链接及应用请求方面的快速分发、内存使用方面的优化,HA\网络链接、智能化管理等等
其实主要一个还是工作文档化、规范化及系统化做的不够  毕竟是个小公司
oralce基本不懂只会查数据

作者: Gray1982    时间: 2012-04-13 10:32
系统级的一般是对系统的调整吧?比较硬盘块大小,缓存大小等,LS是这样不?
你说的那些是不是对JBOSS软件调整的?其实它的使用内存,分发模式确实是需要优化的
作者: scoocs    时间: 2012-04-15 21:30
资源访问效率问题。广域范围、海量信息环境下网络传输状况以及服务器I/O结构性能是影响资源访问效率的重要因素。除了采用常用的cache策略和负载平衡理论,还可采用文件拆分冗余存储和并行传输的方法提高资源访问效率
作者: Gray1982    时间: 2012-04-16 10:11
类似Hadoop的MR来处理数据
作者: zhaoke0128    时间: 2012-04-17 15:09
回复 46# 老男孩linux培训


    把简单的东西,做到极致
    赞
作者: zh_ch_l    时间: 2012-04-19 13:33
tfs不知道有没有用过
作者: lansyh    时间: 2012-04-19 13:37
对于分布式文件系统来说,建议MFS或者hadoop
作者: zh_ch_l    时间: 2012-04-19 13:53
分布式文件系统都是各有各的问题,如单一的namenode(元服务器),这样会对这个系统带来很大的风险。
如果是不用存储元信息的,那么速度有问题。所有性能和安全需要平衡
作者: lansyh    时间: 2012-04-19 14:01
至于安装什么的,我也就不多说了
提供个用于测试的脚本吧
#!/bin/bash
for ((i=0;i<1000;i++))
do
    mkdir ${i}
    cd ${i}
    for ((j=0;j<1000;j++))
      do
        cp /mnt/test ${j}
      done
      cd ..
done
作者: lansyh    时间: 2012-04-19 14:02
还有一个
#!/bin/bash
declare -f make_1000_dir_file
cd `pwd`
function make_1000_dir_file {
    start=${1}
    stop=${2}
    for ((i=${start};i<${stop};i++))
    do
        mkdir ${i}
        for ((j=0;j<1000;j++))
        do
            cp /mnt/test ${i}/${j}
        done
    done
}
i=1
while [ ${i} -le 1000 ]
do
    ((n=${i}+1))
    make_1000_dir_file ${i} $ &
    ((i=${i}+1))
done
wait
1000  * 1000  *  ( 100,200 ,1000 client )
也是转的,方便于大家使用
作者: zh_ch_l    时间: 2012-04-19 14:07
现在很多公司已经开放自己的分布式系统,根据自己需求来个号的应用
作者: Gray1982    时间: 2012-04-19 14:11
脚本还是有一定测试用途的,挺方便的用
现在的大公司都是根据自己业务来做自己的系统,这需要人才啊··········
作者: 老男孩linux培训    时间: 2012-05-03 12:19
重新浏览了一遍帖子!
作者: Gray1982    时间: 2012-05-04 00:50
哈哈,有什么新的想法了不




欢迎光临 Chinaunix (http://bbs.chinaunix.net/) Powered by Discuz! X3.2