- 论坛徽章:
- 0
|
刚才回一个朋友的帖子的时候,觉得有必要新开一个帖子来说一下这个问题.
高可用集群帮你获得一个高可用的系统,但是仅仅有一个高可用的系统不代表你已经得到了一个稳定的后台.
抽象到不分集群的层面,从实际操作的角度来看,下面的这个checklist 可以帮助大家在规划,部署,施工,服务一套系统,甚至于作故障检测都有一定的便捷.
BTW: 所谓checklist 就是检查列表,就是帮助你在考虑和部署复杂的系统的时候,提醒你需要注意的不可漏掉的一张清单.
稳定=
稳定的硬件设备 (比如用厂商提供的工具或自己搞来的测试工具和压力测试工具,在整个系统部署前反复确认你的设备的稳定性)
+
稳定的硬件连接 (跑几轮测试来检查连接,目测和软件测试相结合,并采取措施规范连接方式,防止日后得不正常行为对联接的破坏)
+
稳定的服务器SYSTEM ROM(检查设备厂商的站点,upgrade到最新的system ROM, 并保持track)
+
稳定的板卡的firmware(同上)
+
稳定版本的Linux发行(比如redhat as3 U7或sles 9 SP3)
+
稳定版本的kernel (同上,并保持对redhat bugtrack或sles bugtrack 数据库的定期回访)
+
稳定版本的 driver( 同上)
+
稳定版本的LVM( 同上)
+
稳定版本的Filesystem 模块(同上)
+
稳定版本的跑在上面这些平台上的应用 (运行应用厂商提供的测试工具,比如Oracle test或者自己搞来的测试工具, 并保持对这些上层应用的bug database的回访)
这是一个日常项目中提供你帮助的checklist.
按照这个checklist 去检查你的系统的所有组成部分,得到一个组合之后,lockdown 掉,根据你上层应用的变化速度,建立一个周期性的lifecyle management.
[ 本帖最后由 nntp 于 2006-3-18 10:57 编辑 ] |
|