免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: dengbao2001
打印 上一主题 下一主题

IT运维技术讨论之三:如何满足运维不间断服务的需求 [复制链接]

论坛徽章:
2
午马
日期:2015-01-27 11:22:392015年辞旧岁徽章
日期:2015-03-03 16:54:15
1 [报告]
发表于 2015-01-26 14:22 |显示全部楼层
General_715 发表于 2015-01-20 18:31

3.你的工作环境发生因冗余或者高可用导致的事故吗?你是如何防止该类事故的再次发生?
   一次一台oracle服务器因为程序bug,导致大量的复制进程,最后导致服务器hang住,oracle用的是rac做高可用,这时另一台oracle服务器在等待出问题的这台机器的实例关闭之后,才能完成实例再构成,而出问题的oracle一直在hang住了,后来是通过IBM的远程控制IMM重启了服务器,才恢复。
.


像这种问题, 一个节点hang不应该导致其他的节点出问题, 只需要将问题节点手动剔除 (重启)就行了。11.2以后的oracle会自动的对hang做一些kill的处理。 也会尝试重启节点。  当然两个节点的RAC还是会有些问题的, 因为一些bug,重启一台机器的时候,很大的可能性 另外一台也会挂掉。

---

论坛徽章:
2
午马
日期:2015-01-27 11:22:392015年辞旧岁徽章
日期:2015-03-03 16:54:15
2 [报告]
发表于 2015-01-26 14:31 |显示全部楼层
dengbao2001 发表于 2015-01-16 10:32
Oracle级别不知道RAC能不能做到?

反正Windows Cluster是不行的


RAC这么看。

比如4个节点的RAC,挂了一个, 业务基本上是不会受影响的,顶多性能在短期内会有波动。

当然4个RAC所在的机房突然断电了,这就是另一回事了。

RAC 我们讲是用来做 high availability的。  不是做maximum availability的。  差别就在这里。

如果我们整套RAC出问题了怎么办?   那就在业务之上继续做HA, 用Dataguard+RAC.  这可以保证当RAC出问题时候的快速failover ,做到zero downtime。

再往外 还有 Remote/Extended RAC,    还有GoldenGate, 那就是Disaster  Recover 级别的了。

这个讲不到底, 只要愿意烧钱。。。

论坛徽章:
2
午马
日期:2015-01-27 11:22:392015年辞旧岁徽章
日期:2015-03-03 16:54:15
3 [报告]
发表于 2015-01-26 14:38 |显示全部楼层

1.就你工作的的本身,谈谈你是否需要冗余和高可用?
因为要保存客户的数据, 这是必须的。 硬件级别的HA,存储RAID,RAC CLUSTER。
数据库层次,RAC基本上都要配ASM的Normal/High redundancy.


2.如果需要冗余或者高可用,你是如何实现的?使用商业解决方案?还是开源解决方案?
商业的解决方案, ORACLE RAC/Dataguard/ GoldenGate.

3.你的工作环境发生因冗余或者高可用导致的事故吗?你是如何防止该类事故的再次发生?

我们阻止不了这样的情况发生。

比如下面的问题
http://tech.163.com/13/0709/12/93BE7M3Q000915BD.html

这种问题很难保证不发现, 测试环境和生产环境永远是不一致的。  我们能做的就是尽量按照流程,总结经验。。

很多问题也是技术之外的, 比如这个链接里提到的灾备。 我想,灾备肯定是有的。 但是切换灾备是很需要勇气的,不应该太过批评。

比如Oracle DataGuard, 有 switch over 和failover 的功能。 但是 failover 从来都是不轻易主动使用的。  因为一旦转过去, 原来的一套系统就全部没用了。 如果没切换成功, 那就等着战后重建吧。。。




论坛徽章:
2
午马
日期:2015-01-27 11:22:392015年辞旧岁徽章
日期:2015-03-03 16:54:15
4 [报告]
发表于 2015-01-26 22:24 |显示全部楼层
回复 126# General_715


    看你的oracle版本, 如果是11.2以后的版本就比较完善了,  哪个节点出问题 就被会踢出去/重启。  如果是12c的话 会在重启节点之前尝试重启stack

    至于两个节点的情况,原则上是保留 节点号比较小的, 如第一个节点, 那么 出问题的时候, 会存在极端情况,就是好的节点被重启了。。。。当然是比较旧的版本的问题。

论坛徽章:
2
午马
日期:2015-01-27 11:22:392015年辞旧岁徽章
日期:2015-03-03 16:54:15
5 [报告]
发表于 2015-01-29 23:45 |显示全部楼层
回复 129# General_715


    我指的节点被踢出集群,指的是 该节点 的ohasd/crsd 进程栈 被尝试停下重新再起。  如果失败, 该节点会被 echo"b">/proc/sysrq-trigger 强制重启。

    当然这个逻辑要oracle版本 >11.2才可以, oracle10 的时候没有这么完善,11.2的时候不会尝试停栈,会强制重启os
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP