1 ... 6 7 8 9 10 11 121314 / 14 页下一页

IT运维技术讨论之三：如何满足运维不间断服务的需求 [复制链接]

dengbao2001

腰缠万贯

论坛徽章:: 13

121楼 [报告]

发表于 2015-01-24 13:25 |只看该作者

欢迎大家就此话题发表意见，谢谢！踊跃参与话题者，就有机会获得《24小时365天不间断服务：服务器/基础设施核心技术》

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

to407

小富即安

论坛徽章:: 2

122楼 [报告]

发表于 2015-01-26 14:22 |只看该作者

General_715 发表于 2015-01-20 18:31

3.你的工作环境发生因冗余或者高可用导致的事故吗？你是如何防止该类事故的再次发生？
一次一台oracle服务器因为程序bug，导致大量的复制进程，最后导致服务器hang住，oracle用的是rac做高可用，这时另一台oracle服务器在等待出问题的这台机器的实例关闭之后，才能完成实例再构成，而出问题的oracle一直在hang住了，后来是通过IBM的远程控制IMM重启了服务器，才恢复。
.

像这种问题，一个节点hang不应该导致其他的节点出问题，只需要将问题节点手动剔除（重启）就行了。11.2以后的oracle会自动的对hang做一些kill的处理。也会尝试重启节点。当然两个节点的RAC还是会有些问题的，因为一些bug，重启一台机器的时候，很大的可能性另外一台也会挂掉。

---

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

to407

小富即安

论坛徽章:: 2

123楼 [报告]

发表于 2015-01-26 14:31 |只看该作者

dengbao2001 发表于 2015-01-16 10:32
Oracle级别不知道RAC能不能做到？

反正Windows Cluster是不行的

RAC这么看。

比如4个节点的RAC，挂了一个，业务基本上是不会受影响的，顶多性能在短期内会有波动。

当然4个RAC所在的机房突然断电了，这就是另一回事了。

RAC 我们讲是用来做 high availability的。  不是做maximum availability的。  差别就在这里。

如果我们整套RAC出问题了怎么办？那就在业务之上继续做HA，用Dataguard+RAC.  这可以保证当RAC出问题时候的快速failover ,做到zero downtime。

再往外还有 Remote/Extended RAC, 还有GoldenGate，那就是Disaster  Recover 级别的了。

这个讲不到底，只要愿意烧钱。。。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

to407

小富即安

论坛徽章:: 2

124楼 [报告]

发表于 2015-01-26 14:38 |只看该作者

1.就你工作的的本身，谈谈你是否需要冗余和高可用？
因为要保存客户的数据，这是必须的。硬件级别的HA，存储RAID，RAC CLUSTER。
数据库层次，RAC基本上都要配ASM的Normal/High redundancy.

2.如果需要冗余或者高可用，你是如何实现的？使用商业解决方案？还是开源解决方案？
商业的解决方案， ORACLE RAC／Dataguard/ GoldenGate.

3.你的工作环境发生因冗余或者高可用导致的事故吗？你是如何防止该类事故的再次发生？

我们阻止不了这样的情况发生。

比如下面的问题
http://tech.163.com/13/0709/12/93BE7M3Q000915BD.html

这种问题很难保证不发现，测试环境和生产环境永远是不一致的。我们能做的就是尽量按照流程，总结经验。。

很多问题也是技术之外的，比如这个链接里提到的灾备。我想，灾备肯定是有的。但是切换灾备是很需要勇气的，不应该太过批评。

比如Oracle DataGuard, 有 switch over 和failover 的功能。但是 failover 从来都是不轻易主动使用的。因为一旦转过去，原来的一套系统就全部没用了。如果没切换成功，那就等着战后重建吧。。。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

dengbao2001

腰缠万贯

论坛徽章:: 13

125楼 [报告]

发表于 2015-01-26 15:16 |只看该作者

to407 发表于 2015-01-26 14:38
1.就你工作的的本身，谈谈你是否需要冗余和高可用？
因为要保存客户的数据，这是必须的。硬件级别的HA ...

感谢你的分享～

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

General_715

丰衣足食

论坛徽章:: 2

126楼 [报告]

发表于 2015-01-26 20:45 |只看该作者

to407 发表于 2015-01-26 14:22
像这种问题，一个节点hang不应该导致其他的节点出问题，只需要将问题节点手动剔除（重启）就行了。1 ...

多谢指教。
当时就是重启有问题的服务器之后，恢复了。因为是远程连接，在找IMM登录密码的时候费了点时间。
如果是3个节点的话，也是还得需要重启吧?

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

to407

小富即安

论坛徽章:: 2

127楼 [报告]

发表于 2015-01-26 22:24 |只看该作者

回复 126# General_715

看你的oracle版本，如果是11.2以后的版本就比较完善了，哪个节点出问题就被会踢出去/重启。如果是12c的话会在重启节点之前尝试重启stack

至于两个节点的情况，原则上是保留节点号比较小的，如第一个节点，那么出问题的时候，会存在极端情况，就是好的节点被重启了。。。。当然是比较旧的版本的问题。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

CJHP1314

白手起家

论坛徽章:: 0

128楼 [报告]

发表于 2015-01-29 17:21 |只看该作者

架构很重要，只要每层的设计都有健康检查机制，有问题能自动摘除，我觉得对于一般的网站应该就足够了，比如外层是LB，里面的节点是nginx，LB对nginx的80做检查，nginx 通过upstrem 对下游的服务做检查，每一次自动判断，摘取。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

General_715

丰衣足食

论坛徽章:: 2

129楼 [报告]

发表于 2015-01-29 21:10 |只看该作者

to407 发表于 2015-01-26 22:24
回复 126# General_715

多谢指教。
您说的出问题的节点被踢出去/重启这个重启是不是必须手动重启。我当时遇到问题的时候就是手动重启服务器之后节点才被踢出去重启之前一直是hang住的

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

to407

小富即安

论坛徽章:: 2

130楼 [报告]

发表于 2015-01-29 23:45 |只看该作者

回复 129# General_715

我指的节点被踢出集群，指的是该节点的ohasd/crsd 进程栈被尝试停下重新再起。如果失败，该节点会被 echo"b">/proc/sysrq-trigger 强制重启。

当然这个逻辑要oracle版本 >11.2才可以， oracle10 的时候没有这么完善，11.2的时候不会尝试停栈，会强制重启os

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

1 ... 6 7 8 9 10 11 121314 / 14 页下一页

返回列表

Chinaunix › 论坛 › IT运维 › 集群和高可用 › IT运维技术讨论之三：如何满足运维不间断服务的需求

IT运维技术讨论之三：如何满足运维不间断服务的需求 [复制链接]

浏览过的版块