- 论坛徽章:
- 2
|
本帖最后由 General_715 于 2015-01-20 18:32 编辑
1.就你工作的的本身,谈谈你是否需要冗余和高可用?
我现在和之前维护的系统,冗余和高可用都是系统的核心所在,必须保证不间断服务。无论任何问题导致的用户无法访问系统,都要算做事故。
2.如果需要冗余或者高可用,你是如何实现的?使用商业解决方案?还是开源解决方案?
2.1 外网采用的是双线。机房里用的UPS电源。内部网络,用到思科交换机做的生成树。网络也都是两条线路。交换机端口使用的两个端口的端口聚合
2.2 服务器硬件方面,都是双千兆网卡, 磁盘做的raid1+0,
2.3 之前维护的系统主要用的是开源结构,lvs+heartbeat来实现负载均衡和高可用性。后台跟着若干台服务器。现在的系统,是2台硬件的负载均衡设备,是IPCOM的一个产品。同样也是多台的应用服务器。数据库用的是oracle的rac。
3.你的工作环境发生因冗余或者高可用导致的事故吗?你是如何防止该类事故的再次发生?
一次一台oracle服务器因为程序bug,导致大量的复制进程,最后导致服务器hang住,oracle用的是rac做高可用,这时另一台oracle服务器在等待出问题的这台机器的实例关闭之后,才能完成实例再构成,而出问题的oracle一直在hang住了,后来是通过IBM的远程控制IMM重启了服务器,才恢复。 |
|