谢谢版主给加分
为啥我不能 @cryboy2001 本帖最后由 cryboy2001 于 2014-05-12 17:01 编辑
回复 2# yuetwo
点回复可以不?
@yuetwo
'"@yuetwo“’
1.集群比高超技術的運維工程師以及備用方案更可靠
如果公司資金雄厚能上集群的全部上集群,這樣不會因為單點故障讓你手忙腳亂,慢慢去分析處理故障的服務器。如果你公司比較摳門,並且願意承擔線上服務宕機的損失,那就不要怪運維人員到時候手忙腳亂。作為一個合格的運維工程師一定要提出方案上報公司部門,無論他採納不採納,你評估風險后,公司願意承擔這個經濟損失,那你大可以就按照樓主上面的方法解決,但實質上再牛逼的備用方法也是需要花時間的。即使你平時演練多此,而實質遇到突發情況時,可就不是你平時那麼容易搞定,比如某大型銀行就因為單點故障造成一個省的範圍無法提供服務,銀行機構一般都有一套完善回滾和備用方法,但無論就是切換不到正常的那個點去,呵呵 最後銀行最高領導發話冒著很多用戶可能損失的情況就行強制遷移,才提供正常作業。從這一點可以看出,備用方案不一定在關機時候就有效。
2.做任何改動前一定要記錄下來,像我在服務器做任何動作后,我都會記錄詳細日期和改動原因以及負責人,並且寫好自動恢復到以前狀態腳本。一旦發現問題點,在規定時間無法處理,就立即使用腳本進行一鍵還原到更改前狀態。服務器最怕的就是人為改動,因為人做了動作,難免就有考慮疏忽的地方,所以對提供服務的服務器一定要膽大心細,如果是瞎搞一通的運維人員和開發人員估計打包走人就是他們的結局。
3.能用腳本自動化的儘量用腳本,能用腳本監控的就儘量用腳本,不要靠第三方工具,更不要靠人工作業,當你把腳本運用到如火如荼地步,你會發現沒有他們做不到的地方,很多網上第三方工具監控功能缺失不錯,最好使用能腳本化和非交互式的軟體。這樣會大大減少人為操作的問題。當然用腳本你還必須設定對腳本進行監控報警,腳本執行錯誤或者修改文件錯誤等等全部要考慮的多,這樣基本上你就可以喝茶了,能把更多時間花費在實際工作改善上以及整個系統改善上。 woxizishen 发表于 2014-05-13 09:42 static/image/common/back.gif
1.集群比高超技術的運維工程師以及備用方案更可靠
如果公司資金雄厚能上集群的全部上集群,這樣不會因為單 ...
都是繁体字啊:emn15:
页:
[1]