免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: dengbao2001
打印 上一主题 下一主题

IT运维技术讨论之三:如何满足运维不间断服务的需求 [复制链接]

论坛徽章:
13
技术图书徽章
日期:2014-04-29 14:15:42IT运维版块每日发帖之星
日期:2015-12-12 06:20:00IT运维版块每日发帖之星
日期:2015-08-30 06:20:00IT运维版块每日发帖之星
日期:2015-08-24 06:20:00IT运维版块每日发帖之星
日期:2015-08-02 06:20:002015年亚洲杯之澳大利亚
日期:2015-04-03 15:03:12申猴
日期:2015-03-20 09:00:292015年迎新春徽章
日期:2015-03-04 09:54:452015年辞旧岁徽章
日期:2015-03-03 16:54:15季节之章:冬
日期:2015-01-20 17:08:47双子座
日期:2014-11-21 16:30:31技术图书徽章
日期:2014-07-11 16:29:08
121 [报告]
发表于 2015-01-24 13:25 |只看该作者

欢迎大家就此话题发表意见,谢谢!踊跃参与话题者,就有机会获得《24小时365天不间断服务:服务器/基础设施核心技术》

论坛徽章:
2
午马
日期:2015-01-27 11:22:392015年辞旧岁徽章
日期:2015-03-03 16:54:15
122 [报告]
发表于 2015-01-26 14:22 |只看该作者
General_715 发表于 2015-01-20 18:31

3.你的工作环境发生因冗余或者高可用导致的事故吗?你是如何防止该类事故的再次发生?
   一次一台oracle服务器因为程序bug,导致大量的复制进程,最后导致服务器hang住,oracle用的是rac做高可用,这时另一台oracle服务器在等待出问题的这台机器的实例关闭之后,才能完成实例再构成,而出问题的oracle一直在hang住了,后来是通过IBM的远程控制IMM重启了服务器,才恢复。
.


像这种问题, 一个节点hang不应该导致其他的节点出问题, 只需要将问题节点手动剔除 (重启)就行了。11.2以后的oracle会自动的对hang做一些kill的处理。 也会尝试重启节点。  当然两个节点的RAC还是会有些问题的, 因为一些bug,重启一台机器的时候,很大的可能性 另外一台也会挂掉。

---

论坛徽章:
2
午马
日期:2015-01-27 11:22:392015年辞旧岁徽章
日期:2015-03-03 16:54:15
123 [报告]
发表于 2015-01-26 14:31 |只看该作者
dengbao2001 发表于 2015-01-16 10:32
Oracle级别不知道RAC能不能做到?

反正Windows Cluster是不行的


RAC这么看。

比如4个节点的RAC,挂了一个, 业务基本上是不会受影响的,顶多性能在短期内会有波动。

当然4个RAC所在的机房突然断电了,这就是另一回事了。

RAC 我们讲是用来做 high availability的。  不是做maximum availability的。  差别就在这里。

如果我们整套RAC出问题了怎么办?   那就在业务之上继续做HA, 用Dataguard+RAC.  这可以保证当RAC出问题时候的快速failover ,做到zero downtime。

再往外 还有 Remote/Extended RAC,    还有GoldenGate, 那就是Disaster  Recover 级别的了。

这个讲不到底, 只要愿意烧钱。。。

论坛徽章:
2
午马
日期:2015-01-27 11:22:392015年辞旧岁徽章
日期:2015-03-03 16:54:15
124 [报告]
发表于 2015-01-26 14:38 |只看该作者

1.就你工作的的本身,谈谈你是否需要冗余和高可用?
因为要保存客户的数据, 这是必须的。 硬件级别的HA,存储RAID,RAC CLUSTER。
数据库层次,RAC基本上都要配ASM的Normal/High redundancy.


2.如果需要冗余或者高可用,你是如何实现的?使用商业解决方案?还是开源解决方案?
商业的解决方案, ORACLE RAC/Dataguard/ GoldenGate.

3.你的工作环境发生因冗余或者高可用导致的事故吗?你是如何防止该类事故的再次发生?

我们阻止不了这样的情况发生。

比如下面的问题
http://tech.163.com/13/0709/12/93BE7M3Q000915BD.html

这种问题很难保证不发现, 测试环境和生产环境永远是不一致的。  我们能做的就是尽量按照流程,总结经验。。

很多问题也是技术之外的, 比如这个链接里提到的灾备。 我想,灾备肯定是有的。 但是切换灾备是很需要勇气的,不应该太过批评。

比如Oracle DataGuard, 有 switch over 和failover 的功能。 但是 failover 从来都是不轻易主动使用的。  因为一旦转过去, 原来的一套系统就全部没用了。 如果没切换成功, 那就等着战后重建吧。。。




论坛徽章:
13
技术图书徽章
日期:2014-04-29 14:15:42IT运维版块每日发帖之星
日期:2015-12-12 06:20:00IT运维版块每日发帖之星
日期:2015-08-30 06:20:00IT运维版块每日发帖之星
日期:2015-08-24 06:20:00IT运维版块每日发帖之星
日期:2015-08-02 06:20:002015年亚洲杯之澳大利亚
日期:2015-04-03 15:03:12申猴
日期:2015-03-20 09:00:292015年迎新春徽章
日期:2015-03-04 09:54:452015年辞旧岁徽章
日期:2015-03-03 16:54:15季节之章:冬
日期:2015-01-20 17:08:47双子座
日期:2014-11-21 16:30:31技术图书徽章
日期:2014-07-11 16:29:08
125 [报告]
发表于 2015-01-26 15:16 |只看该作者
to407 发表于 2015-01-26 14:38
1.就你工作的的本身,谈谈你是否需要冗余和高可用?
因为要保存客户的数据, 这是必须的。 硬件级别的HA ...



感谢你的分享~

论坛徽章:
2
技术图书徽章
日期:2013-12-20 07:35:03技术图书徽章
日期:2014-12-16 12:59:42
126 [报告]
发表于 2015-01-26 20:45 |只看该作者
to407 发表于 2015-01-26 14:22
像这种问题, 一个节点hang不应该导致其他的节点出问题, 只需要将问题节点手动剔除 (重启)就行了。1 ...

多谢指教。
当时就是重启有问题的服务器之后,恢复了。因为是远程连接,在找IMM登录密码的时候费了点时间。
如果是3个节点的话,也是还得需要重启吧?

论坛徽章:
2
午马
日期:2015-01-27 11:22:392015年辞旧岁徽章
日期:2015-03-03 16:54:15
127 [报告]
发表于 2015-01-26 22:24 |只看该作者
回复 126# General_715


    看你的oracle版本, 如果是11.2以后的版本就比较完善了,  哪个节点出问题 就被会踢出去/重启。  如果是12c的话 会在重启节点之前尝试重启stack

    至于两个节点的情况,原则上是保留 节点号比较小的, 如第一个节点, 那么 出问题的时候, 会存在极端情况,就是好的节点被重启了。。。。当然是比较旧的版本的问题。

论坛徽章:
0
128 [报告]
发表于 2015-01-29 17:21 |只看该作者
架构很重要,只要每层的设计都有健康检查机制,有问题能自动摘除,我觉得对于一般的网站应该就足够了,比如外层是LB,里面的节点是nginx,LB对nginx的80做检查,nginx  通过upstrem  对下游的服务做检查,每一次自动判断,摘取。

论坛徽章:
2
技术图书徽章
日期:2013-12-20 07:35:03技术图书徽章
日期:2014-12-16 12:59:42
129 [报告]
发表于 2015-01-29 21:10 |只看该作者
to407 发表于 2015-01-26 22:24
回复 126# General_715

多谢指教。
您说的出问题的节点被踢出去/重启  这个重启是不是必须手动重启。我当时遇到问题的时候 就是手动重启服务器之后 节点才被踢出去 重启之前 一直是hang住的

论坛徽章:
2
午马
日期:2015-01-27 11:22:392015年辞旧岁徽章
日期:2015-03-03 16:54:15
130 [报告]
发表于 2015-01-29 23:45 |只看该作者
回复 129# General_715


    我指的节点被踢出集群,指的是 该节点 的ohasd/crsd 进程栈 被尝试停下重新再起。  如果失败, 该节点会被 echo"b">/proc/sysrq-trigger 强制重启。

    当然这个逻辑要oracle版本 >11.2才可以, oracle10 的时候没有这么完善,11.2的时候不会尝试停栈,会强制重启os
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP