论坛徽章:: 2

1楼 [报告]

发表于 2015-01-26 14:22 |显示全部楼层

General_715 发表于 2015-01-20 18:31

3.你的工作环境发生因冗余或者高可用导致的事故吗？你是如何防止该类事故的再次发生？
一次一台oracle服务器因为程序bug，导致大量的复制进程，最后导致服务器hang住，oracle用的是rac做高可用，这时另一台oracle服务器在等待出问题的这台机器的实例关闭之后，才能完成实例再构成，而出问题的oracle一直在hang住了，后来是通过IBM的远程控制IMM重启了服务器，才恢复。
.

像这种问题，一个节点hang不应该导致其他的节点出问题，只需要将问题节点手动剔除（重启）就行了。11.2以后的oracle会自动的对hang做一些kill的处理。也会尝试重启节点。当然两个节点的RAC还是会有些问题的，因为一些bug，重启一台机器的时候，很大的可能性另外一台也会挂掉。

---

to407

小富即安

论坛徽章:: 2

2楼 [报告]

发表于 2015-01-26 14:31 |显示全部楼层

dengbao2001 发表于 2015-01-16 10:32
Oracle级别不知道RAC能不能做到？

反正Windows Cluster是不行的

RAC这么看。

比如4个节点的RAC，挂了一个，业务基本上是不会受影响的，顶多性能在短期内会有波动。

当然4个RAC所在的机房突然断电了，这就是另一回事了。

RAC 我们讲是用来做 high availability的。  不是做maximum availability的。  差别就在这里。

如果我们整套RAC出问题了怎么办？那就在业务之上继续做HA，用Dataguard+RAC.  这可以保证当RAC出问题时候的快速failover ,做到zero downtime。

再往外还有 Remote/Extended RAC, 还有GoldenGate，那就是Disaster  Recover 级别的了。

这个讲不到底，只要愿意烧钱。。。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

to407

小富即安

论坛徽章:: 2

3楼 [报告]

发表于 2015-01-26 14:38 |显示全部楼层

1.就你工作的的本身，谈谈你是否需要冗余和高可用？
因为要保存客户的数据，这是必须的。硬件级别的HA，存储RAID，RAC CLUSTER。
数据库层次，RAC基本上都要配ASM的Normal/High redundancy.

2.如果需要冗余或者高可用，你是如何实现的？使用商业解决方案？还是开源解决方案？
商业的解决方案， ORACLE RAC／Dataguard/ GoldenGate.

3.你的工作环境发生因冗余或者高可用导致的事故吗？你是如何防止该类事故的再次发生？

我们阻止不了这样的情况发生。

比如下面的问题
http://tech.163.com/13/0709/12/93BE7M3Q000915BD.html

这种问题很难保证不发现，测试环境和生产环境永远是不一致的。我们能做的就是尽量按照流程，总结经验。。

很多问题也是技术之外的，比如这个链接里提到的灾备。我想，灾备肯定是有的。但是切换灾备是很需要勇气的，不应该太过批评。

比如Oracle DataGuard, 有 switch over 和failover 的功能。但是 failover 从来都是不轻易主动使用的。因为一旦转过去，原来的一套系统就全部没用了。如果没切换成功，那就等着战后重建吧。。。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

to407

小富即安

论坛徽章:: 2

4楼 [报告]

发表于 2015-01-26 22:24 |显示全部楼层

回复 126# General_715

看你的oracle版本，如果是11.2以后的版本就比较完善了，哪个节点出问题就被会踢出去/重启。如果是12c的话会在重启节点之前尝试重启stack

至于两个节点的情况，原则上是保留节点号比较小的，如第一个节点，那么出问题的时候，会存在极端情况，就是好的节点被重启了。。。。当然是比较旧的版本的问题。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

to407

小富即安

论坛徽章:: 2

5楼 [报告]

发表于 2015-01-29 23:45 |显示全部楼层

回复 129# General_715

我指的节点被踢出集群，指的是该节点的ohasd/crsd 进程栈被尝试停下重新再起。如果失败，该节点会被 echo"b">/proc/sysrq-trigger 强制重启。

当然这个逻辑要oracle版本 >11.2才可以， oracle10 的时候没有这么完善，11.2的时候不会尝试停栈，会强制重启os

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

返回列表

Chinaunix › 论坛 › IT运维 › 集群和高可用 › IT运维技术讨论之三：如何满足运维不间断服务的需求

IT运维技术讨论之三：如何满足运维不间断服务的需求 [复制链接]