Chinaunix

标题: 当“救火队”还是实现灵活管理?系统管理员悲催运维生活大调查!(获奖名单已公布) [打印本页]

作者: send_linux    时间: 2012-03-08 11:25
标题: 当“救火队”还是实现灵活管理?系统管理员悲催运维生活大调查!(获奖名单已公布)

获奖名单已公布,详情请看:http://bbs.chinaunix.net/thread-3718942-1-1.html

活动背景:

作为系统运维人员,你有没有在半夜三更被急促的电话铃声叫起,冒着严寒赶赴机房的时候?你有没有正跟爱人柔情蜜意,却被搅乱兴致的时候?你有没有正遇到烦心事儿,却屋漏偏逢连阴雨,工作加生活的烦心事儿弄得你火冒三丈?由此看来,系统运维人员可谓是正宗的“IT悲催男”,属于长期受机器压迫的群体。

如今,DELL最新的12G服务器面世了,全新的软件操控界面可以帮助运维人员节省90%的操作时间,原本繁琐的系统维护、日常管理、数据迁移等工作都可以通过软件一键搞定。友好的图形化界面,便捷快速的操作,这一切将是DELL 12G服务器带给我们的最新体验,节省大量的操作时间。后期帖子中也会更新戴尔服务器系统管理培训课程,敬请关注!



去年,Michael Dell 在 OpenWorld上,提出的对PowerEdge R720 servers的期许,基于intel最新的E5系列处理器,希望这将是 Oracle Exadata  killer!
全文:http://www.theregister.co.uk/201 ... e_12g_rna_networks/


关于Intel最新的E5处理器的技术信息和讨论Intel新款至强E5来袭 性能提升80%?


相关dell 12G产品及相关功能内容http://www.it168.com/redian/dellfangan/

Dell-PowerEdge-R720-Spec-Sheet.pdf (1.14 MB, 下载次数: 169)
硬件参数表
dell-poweredge-r720-r720xd-technical-guide.pdf (1.94 MB, 下载次数: 124)
dell Poweredge R720用户手册
optimizing-sql-server-storage-performance-poweredge-r720.pdf (465.8 KB, 下载次数: 153)
SQL sever优化配置指南


如今,你有任何悲催的运维生活,或者你在运维中遇到的问题,包括使用DELL服务器应用软件时的小窍门,都可以与大家一起分享。谈谈你所希望的运维生活,是如何的惬意如何的轻松自在。总之,任何有关系统运维中的故事都可以哦!

活动时间:3月8日-3月28日

讨论话题:

1、        晒晒自己的系统运维生活,阐述自己理想中的系统运维生活。
2、        讨论DELL 12G服务器系统管理工具是如何帮助你节省运维时间的?

活动规则:

1. 请针对上述问题跟贴回复,分享你的观点和看法;
2. 贴子观点鲜明、理由充分、逻辑清晰、有理有据;
3. 要求原创,尽可能结合自身实践来谈,抄袭、转载贴不能评选优秀回复贴;
4. 字数不少于50字。

活动奖励:

1、最悲催管理员奖,选取精彩描述自己的管理员工作生涯,且讨论DELL 12G服务器系统管理工具给自己带来时间节约的用户三名,奖励价值200元的移动电源1个
2、精彩讨论奖,选取10名优秀回复者将获得价值100元的无线鼠标一个
3、参与奖,每个回复者将获得20个CU积分奖励



作者: chenyx    时间: 2012-03-08 11:28
1. 晒晒自己的系统运维生活,阐述自己理想中的系统运维生活。
  系统有短信报警,一条线路断了,手机响了一个网上,还不能关机..........
  理想的运维生活?当然是sohu运维,一切都可以在远程轻松搞定了.
2.讨论DELL 12G服务器系统管理工具是如何帮助你节省运维时间的?
  这个刚推出,估计能用上的人还不是很多吧.
作者: dengbao2001    时间: 2012-03-08 11:42
本帖最后由 dengbao2001 于 2012-03-08 11:42 编辑

1、        晒晒自己的系统运维生活,阐述自己理想中的系统运维生活。

我们全球有个Team专门监控公司的服务器,他们也有Groudwork监控的系统,一般的问题他们都可以解决,实在需要Site帮忙的,就Call我们手机,每次一看手机来电显示,马来西亚的,乖乖,又有啥事呢。好在这样的事情不多。我们现在服务器尽量都配置了远程管理卡,这样他们可以远程支持


2、        讨论DELL 12G服务器系统管理工具是如何帮助你节省运维时间的?

太新了吧,我们才用R710. R910呢。
作者: dengbao2001    时间: 2012-03-08 11:43
回复 2# chenyx


你是不是随时盯着CU呀,楼主发布才3分钟,你就回复了!

   
作者: send_linux    时间: 2012-03-08 11:50
dengbao2001 发表于 2012-03-08 11:43
回复 2# chenyx


兄弟们看看,我又附上了一些这个产品的一些介绍及案例case,欢迎大家讨论:)
作者: ooooldman    时间: 2012-03-08 12:04

    以前经常半夜起来,问题多钟多样
1,链接外站的图片显示不了,外站挂了
2,开发加班和技术总监把新标签发到线上去了,却没有发页面,
3,CDN被攻击了,
4,机房双线突然一条线断了
5,最要命的是有次论坛discuz的缓存失效,整个页面都白脸了,开发都不知道缓存在哪里,
尼玛,干运维最JB命苦,


R720没用过
作者: dengbao2001    时间: 2012-03-08 12:05
大概浏览了下

C600的芯片组,支持最新的至强E5-2600,可以插24条内存(我的R710,18条全插满了), iDRAC 7的远程管理卡

作者: send_linux    时间: 2012-03-08 12:46
ooooldman 发表于 2012-03-08 12:04
以前经常半夜起来,问题多钟多样
1,链接外站的图片显示不了,外站挂了 ...


那是,这个型号的是最新的基于 intel的E5系列的处理器,架构啥的都有所变化了
作者: InfoSVC    时间: 2012-03-08 14:41
其实我进来之后想说
鼠标看着不错呢
作者: send_linux    时间: 2012-03-08 14:46
InfoSVC 发表于 2012-03-08 14:41
其实我进来之后想说
鼠标看着不错呢


欢迎分享运维中的心得哈:)
作者: king_819    时间: 2012-03-08 14:55
本帖最后由 king_819 于 2012-03-08 17:58 编辑
1、        晒晒自己的系统运维生活,阐述自己理想中的系统运维生活。

     现在很多人都把运维人员看作是,“战地工程兵”“机房清洁工”“洪水救灾员”,这也可以从侧面看出,我们这些运维同胞是无所不能的一群人,在公司运营环境危机的时候总能看到他们的身影,处理问题固然重要,但我们也应该把这些问题防范于未然,理想中的运维工程师应该只是边喝着咖啡,边看一些监控数据、分析报表,而不是整天忙着救火,如何在保证业务稳定、有效的对外提供服务的情况下降低运维成本?如何在大批量布署系统、应用程序的情况下提高效率,在短时间内让业务快速上线,并安全稳定的运行?如何防止大量的网络攻击?如何保证网络系统构架、应用系统架构的高扩展性、高容灾性?如何更好的跟其他部门配合,合理的分配资源,共享信息,让业务系统更安全稳定的运行?运维成本系统架构的整体规划、运维成本的控制、批量的自动布署、各部门之间的相互配合、网络系统的实时监控、网络系统的扩展、数据分析、网络安全、安全审计、各种事故的应急响应,这些都是我们要考虑的,要努力去做好的


2、        讨论DELL 12G服务器系统管理工具是如何帮助你节省运维时间的?

     DELL 12G服务器内部配置的PCI-E固态硬盘加速卡和应用CacheCade闪存加速技术作为数据库服务器、缓存服务器还是不错的选择



作者: chenyx    时间: 2012-03-08 15:26
本帖最后由 chenyx 于 2012-03-08 15:29 编辑

转帖一个it168的至强E5 Cpu的新特性
8核心处理器——在上一代的Westmere-EP处理器中,某些高端的型号采用的是6核心架构,这也是英特尔在双路处理器中提供的顶级核心数量。当然借助于超线程的支持,这个核心数量的数字可以翻一番,但是从物理的角度来说英特尔在E5-2600之前一直是以6核心的产品担当重任。

  如今发展到了E5-2600系列,处理器的核心增加到了8个。这个不仅仅是简单的数量提升,要知道在同样适用SandyBridge架构的E3处理器中,核心数量只有4个。更多的物理核心可以提供更好的计算性能,当然对于时下流行的虚拟化来说,多核心的优势更为明显(这也是为什么AMD要推出16个物理核心的Bulldozer)。

  第二条QPI通道——同样对比上一代的Westmere-EP处理器,英特尔自从在Nehalem-EP中增加了QPI这个概念之后,一直都是提供了单一的通道(可以双向传输)。而这次在E5-2600中,通道的数量增加到了2条,而且带宽也提升到了8GT/s,之前是6.4GT/s。换句话说,同样是基于SandyBridge架构,双路的产品比单路产品增加了更多的处理器互通功能,这会使得两个或多个处理器之前的协调更为顺畅,言外之意就是性能也会随之提升。

  DDR3高频内存的支持——从Nehalem-EP开始,英特尔支持三通道的DDR3内存,那时候的频率还是1066MHz。到了Westmere-EP这代,三通道的内存支持没有变,但是频率提升到了1333MHz。如今,至强E5-2600这代产品出现了变化。首先是对于内存频率的支持达到了1600MHz,这还不是最重要的——至强E5-2600系列支持4通道内存,最大内存插槽数量也从原来的18条增加到了24条。从数量来说,3*6和4*6的看起来是多了不少,但是能够实现的通道组数量是相同的。当然,在这一代的内存上也有了明显的变化,这一点我们随后会提到。

  PCI-E 3.0互联——英特尔在至强E5处理器中增加了对于PCI-E 3.0规范的支持,但是这一代的主板还仅能提供PCI-E 2.0的接口。在可以预见的下一代IvyBridge处理器中,英特尔将全面支持PCI-E 3.0规格


原文:http://server.it168.com/a2012/0306/1320/000001320949_1.shtml
作者: rickyfang    时间: 2012-03-08 16:01
本帖最后由 rickyfang 于 2012-03-08 16:12 编辑

真心的说,我的运维生活理想是这样的:
1、服务器放在数据中心,能对服务器进行远程的管理及短信报警
   比如装个系统、整个硬件运行状况、出个问题俺第一时间知道。
2、服务器要有强性能,要和虚拟化平台结合好,要能智能管理(支持异构平台的管理,而不仅仅各管各的)。
   强劲多核心的CPU、容量高的内存支持、支持流行的虚拟化平台、还有更好的管理功能。
   至少要有两个万M网口吧、最好能支持SSD等硬盘类型吧(系统装在SSD组成的RAID上,数据跑在SAS或是光纤硬盘上)
   还有#¥%……&*(,我承认我有点要求过分,有点邪恶了。)

3、那哈,关键部件是要有冗余的,还能支持热插拔的,还可以和不同存储厂商配合较好的。
    哈哈

唉,不知道这种要求如何,不要仍鸡蛋!
俺只用过DELL R710 以及PS 6000系列的存储,在上面运行了VMWARE 的服务器虚拟化解决方案。
作者: send_linux    时间: 2012-03-08 16:03
rickyfang 发表于 2012-03-08 16:01
真心的说,我的运维生活理想是这样的:
1、服务器放在数据中心,能对服务器进行远程的管理及短信报警。
  ...


很少看到老方的身影啊,嘿嘿,不过说的都是运维人员的心声啊
作者: rickyfang    时间: 2012-03-08 16:14
send_linux 发表于 2012-03-08 16:03
很少看到老方的身影啊,嘿嘿,不过说的都是运维人员的心声啊


是来CU少了些,话说,今后就常来了。还有BLOG.
作者: Godbach    时间: 2012-03-08 16:56
回复 1# send_linux
顶一下。


   
作者: Shell_HAT    时间: 2012-03-08 19:55
流程化、文档化的应急预案很重要。甭管是应用程序问题,还是服务器故障,文档在手,天下我有,hia~hia~hia~
作者: su8610    时间: 2012-03-08 21:23
哇,我想当运维啊我想当运维
作者: send_linux    时间: 2012-03-08 21:36
rickyfang 发表于 2012-03-08 16:14
是来CU少了些,话说,今后就常来了。还有BLOG.

虚拟化技术版块哦,老方有时间,我们一起商量一下,在虚拟化技术版块,我们和deadwind一起做一些活动吧,版面需要活跃起来,其实散落在CU各个版块的搞虚拟化技术的朋友不少,就是缺少带头大哥:)
作者: aixcradent    时间: 2012-03-09 08:31
回复 2# chenyx


    为什么sohu运维是理想的?
作者: chenyx    时间: 2012-03-09 08:33
回复 20# aixcradent

纯属个人看法.鉴于目前的交通状况,sohu应该是理想化的.

   
作者: aixcradent    时间: 2012-03-09 08:37
回复 21# chenyx


    哈哈
作者: lll0905    时间: 2012-03-09 08:53
鼠标不错.


移动电源更是不错哈


dell的机器也不错
作者: paraller06    时间: 2012-03-09 09:01
初步接触服务器,主要是维护其中的SVN与bugfree,不会发生主题假设的情况.
作者: gilet    时间: 2012-03-09 09:03
1、        晒晒自己的系统运维生活,阐述自己理想中的系统运维生活。
             自己的运维生活:有机房巡检人员,报警了会电话通知,24小时电话开机,大晚上接到电话的也有
             理想的运维生活:自动检测,有问题设备自己联系厂商,然后设备通知我们(IBM一些设备有此功能)
                                   平常上CU浏览新闻,喝茶,看报纸

2、        讨论DELL 12G服务器系统管理工具是如何帮助你节省运维时间的?
             戴尔12G PowerEdge'更大的内存占用''升级的I/O带宽''增加了“Tier-ZeroStorage”'使得繁琐的系统维护、日常管理、数据迁移等工作都可以通过友好的图形化界面,便捷快速的操作软件一键搞定
作者: wau213    时间: 2012-03-09 09:19
半夜睡的正香  一个电话爬起来
折腾玩了都到早上了    继续睡  还没睡半个钟头  又来了  
dell服务器有若干台  380G5
没有所谓的软件操控界面  

作者: chenlinbo5588    时间: 2012-03-09 09:21
鸭梨山大,运维
作者: qingchn    时间: 2012-03-09 09:58
本帖最后由 qingchn 于 2012-03-09 10:05 编辑

看心态吧,有时候出现问题想到的肯定是运维&sa的。我遇到的情况。
1,产品赶着上线开发一起加班好几个通宵赶上线,直接线上测试,一个bug修改5~6边,然后到副总那里不通过,接着该曾经为了一个功能和开发的兄弟熬了3个通宵,然后副总在旁边盯一会,他就去睡一会,我们也不敢睡觉,这个是真的悲催。
2,新产品上线总是会出问题,明明可以远程操作的,但是出现问题必须和开发一起到公司排查问题,曾经被半夜2点叫道公司,一直被第二天凌晨才下班。
3,公司搜索应用出现问题,每次都是半夜起来重建索引,然后检查完在睡觉。
4,作为公司第一个sa,每次收到报警短信,其他sa不鸟的,只有自己处理。

R710 R410 用的比较多,这么新的服务器,不知道谁用在线上环境。
作者: straw    时间: 2012-03-09 10:11
目前的状态:

全球化的运营团队,异地机房,远程化操作,所有操作都流程化 自动化。
这年头,能通过适当的编程减轻自己的工作是王道呀。

DELL已经好久不用了(鬼佬采购的 )
作者: send_linux    时间: 2012-03-09 10:12
straw 发表于 2012-03-09 10:11
目前的状态:

全球化的运营团队,异地机房,远程化操作,所有操作都流程化 自动化。

能够详细分享一下么?
作者: straw    时间: 2012-03-09 10:22
本帖最后由 straw 于 2012-03-09 10:23 编辑

鬼佬定义的架构,鬼佬开发的工具
其实整个思路很简单,就是硬件规格尽量单一, 通过现有的opensource工具的组合,用perl或者python做胶水,减少人工操作。
说的太细呢,不是太好,要暴露的。

作者: straw    时间: 2012-03-09 10:30
说个我以前单位的例子吧,那个基本上都是我来做的。
当时我根据用户要用一个windows软件进行计算(这个软件耗时很长,用户用的比较频繁)。 我就写了一些perl/python脚本,让客户把数据按照一定逻辑放在samba共享目录下,规定了用户只能放一级或者2级目录,然后只要客户放入相应的参数文件。最多2小时,就把相应的计算任务排入集群的队列中。

至于装机之类的,方法多种多样,有各种简化方法,靠大家的自由发挥了
作者: liheng    时间: 2012-03-09 10:48
本帖最后由 liheng 于 2012-03-09 11:01 编辑

1、        晒晒自己的系统运维生活,阐述自己理想中的系统运维生活。

    a.最烦手机报警,但又不能关机。每当想要睡觉的时候,网络报警就来了,某条线路丢包多少了,如是小问题,机房那边很快解决了,如果不容易解决,可能就响一晚了。
    b.11年国庆节出去旅游两天,结果服务器凌晨出故障了,一直弄到9点才解决完,害得全团的人都在等我,汗。。。。。

2、        讨论DELL 12G服务器系统管理工具是如何帮助你节省运维时间的?
     还没有用过,目前在用R710 R610 R410
作者: ujtk    时间: 2012-03-09 10:49
1. 晒晒自己的系统运维生活,阐述自己理想中的系统运维生活。
  反正做运维,远程一定要配上(包括电源管理),要不凌晨3点跑现场,苦b去吧。  
2.讨论DELL 12G服务器系统管理工具是如何帮助你节省运维时间的?
  还没用过。。。免费试用不
作者: manfred_xu    时间: 2012-03-09 11:29
1. 晒晒自己的系统运维生活,阐述自己理想中的系统运维生活。
   系统有问题发邮件提醒,亦可以通过远程处理
2.讨论DELL 12G服务器系统管理工具是如何帮助你节省运维时间的?
   这个刚推出,我还没用上呢。
作者: dengbao2001    时间: 2012-03-09 11:45
回复 19# send_linux

顶下!

目前虚拟化还是蛮流行滴!


   
作者: blackjack550_cu    时间: 2012-03-09 11:55
本帖最后由 blackjack550_cu 于 2012-03-09 12:08 编辑

1、        晒晒自己的系统运维生活,阐述自己理想中的系统运维生活。

      很久以前有一次,晚上已经睡下了凌晨12点半老大给我打电话服务器无法访问,测试完后通知IDC机房,IDC机房说服务器遭受攻击,查出是攻击我们的服务器  打车火速跑到机房。检测了一下,感觉像分布式DDOS攻击,全都是TearDrop掺合着SynFlood。 无奈临时更换IP地址并且全部改成IP地址连接隐藏真实IP并且机房做了黑洞吸引流量这才好些,回家的时候已经是2点半了,那会儿非常感激麦当劳。打车路上进去买了点宵夜  回家还得缓缓才能睡觉。另外给夜晚出勤的同事提供几个地方什么马兰拉面也是不错的,嘿嘿
     已经很久没遇到以上类似的事情了,理想的系统运维生活啊?首先肯定所有安排都可以按照计划啦,减少任何有可能的突发事件,准备好所有的应急预案,喝着咖啡只需要按一个键就可以完成上线、更新之类的事情。当然虽然路还有很远,但是方向是不会变的。我不赞成为了什么自动化一定要用什么非常牛的上线工具。大的上线系统你也得考虑维护成本嘛。自己写脚本也可以嘛,够用就行。最最重要的是要能创造出更多的空闲时间,让我做系统的性能、新软件的部署和测试,这才是最重要的,爱好嘛。生产的系统跑起来基本上除了更新和硬件问题也没啥大问题。做系统运维无论你追求性能参数、稳定性、硬件效率,无论什么只要有一样就好~


2、        讨论DELL 12G服务器系统管理工具是如何帮助你节省运维时间的?
这个没用过。不过再好的系统管理工具,推荐管理口单独分配个ip并且独立带宽,要不遇到这种攻击事件,如果带宽塞满,啥好玩意儿也没用。还得乖乖去机房
作者: cnqc    时间: 2012-03-09 12:12
额 这玩意儿 根本 没用过
作者: deadwind    时间: 2012-03-09 12:26
研究一下
作者: king_819    时间: 2012-03-09 12:42
blackjack550_cu 发表于 2012-03-09 11:55
1、        晒晒自己的系统运维生活,阐述自己理想中的系统运维生活。

      很久以前有一次,晚上已经睡 ...



要想实现轻松的运维,个人意见至少要做到以下几点:

1、架构设置要合理,要高可用、高扩展、高性能
2、部署监控系统,设置合理的监控阀值,让各项设备的运行状态尽在眼前,便于提前调整、优化
3、部署日志分析系统,分析各项日志并生成报表,把潜在的威胁消灭在摇篮里
4、部署备份系统,设置合理的备份策略,要做到容灾
5、部署自动化运维工具,批量完成各项工作,让一键完成不再是梦想
作者: blackjack550_cu    时间: 2012-03-09 13:10
回复 40# king_819


    哈哈,那会儿还年轻,还不太会用什么监控工具。想想要是那会儿就用监控也就不会那么被动了。
   不过现在运营状况这个报表能力还是要加强的,没有特别有说服力的运营状态报告。总觉得工作还是不透明
作者: liuweni    时间: 2012-03-09 13:17
开发人员也有半夜被电话惊醒的
作者: scyzxp    时间: 2012-03-09 13:55
参与奖,每个回复者将获得20个CU积分奖励
作者: weishigoname    时间: 2012-03-09 14:03
也来顶顶
作者: guyeh    时间: 2012-03-09 15:34
本帖最后由 guyeh 于 2012-03-09 15:42 编辑

1、坛子里很多大佬维护的都是大系统,相对来说那些维护流程和维护团队都比较强大,我们做小的业务系统(数字校园)维护的,虽然系统的时效性和电信、银行这样的系统不可比,但是这些系统在某些时刻也会让你痛苦不已。学校选课的恐怖状态肯定好多XDJM都经历过,我不不止一次的在学校选课期间的半夜接到教务处老师电话告诉我们服务器宕机了、数据库宕机了、甚至服务器操作系统直接完蛋了,什么样的情况都有。虽然你都告诉过他们选课前要检查检查,但是学校那些维护人员根本不上心,总是发生问题后火急火燎的找你,而且都是十万紧急。
    这个时候你千万不能说我们是做业务系统的不是做数据库的、服务器的,那么投诉马上来了,劈头盖脸哪。
    很多用户买你一套软件,恨不得就只要与这个软件有一点点关系的东西都让你来负责,而且无条件的。
    理想的状况当然是做好准备工作,关键业务期间就可以轻松应对了。

2、这个工具目前在我们这个行业应用范围还大,还需要了解。


作者: send_linux    时间: 2012-03-09 16:04
liuweni 发表于 2012-03-09 13:17
开发人员也有半夜被电话惊醒的


你这也太衰了吧........
作者: ioerr    时间: 2012-03-09 16:27
来学习的。我都是修pc系统的
作者: 不想在家喂猪    时间: 2012-03-09 17:14
谈谈生活:悲催的运维生活从早晨与前台MM或者漂亮同事扯淡开始,然后回到座位登陆各服务器查看状态。基本要求是要在领导发现某个服务器有问题之前发现问题,要在同事们向领导反馈问题前解决问题,否则就是悲催的绩效考核扣你银子。后来用运维管理软件偷懒可以在第一时间得到故障报警也确实减少了一部分工作量,却又多了每天删除误报产生的邮件和短信的另一部分工作量。当然在做数据迁移、升级、数据恢复的时候还是得学会熬夜和抗压,以及倒吸一口凉气和冷汗和各种液体摊落一地的事实。以及有些运维软件不能完全实现的工作忙的不可开交,基本都是这个问题还没解决另一个问题又来了,焦头烂额的处理的时候,同事与领导还会凑巧在这个时间给你分配一个又一个更紧急任务,一整天不吃不喝日子已经数不清了。
谈谈理想:公司系统比较多,一直盼望未来会有一个可以直观有效的兼容所有系统软硬件故障报警,自动处理,数据备份恢复,升级,迁移,系统调整等等等的平台,基本不用人工介入操作的时候也是我下岗的时候,呵呵。

作者: expert1    时间: 2012-03-09 17:44

从未在晚上12点起来处理故障的路过,看来各位很悲剧啊
作者: woshiqhj    时间: 2012-03-09 18:36
三十晚上凌晨,本来都买好回家的车票了(早上6点),结果悲剧了,dell的e600刀片坏了一块,部分业务听了,搞了小半夜。
作者: godymoon    时间: 2012-03-09 18:45
运维要面对那么多复杂的现网问题,用个dell的服务器就能都搞定了?
作者: 秣陵重到    时间: 2012-03-09 19:48
大年初二,R710硬盘坏~~杯具的喝多了,电话响了4个小时才接到~~杯具的扣工资~~~
作者: big_power    时间: 2012-03-09 22:48
怎么办从没用过DELL服务器
作者: big_power    时间: 2012-03-09 23:03
本帖最后由 big_power 于 2012-03-09 23:04 编辑

1、碰到过极品的事情
公司服务器托管在IDC,某天某台IDC突然down,请IDC维护人员,帮忙重启下该台服务器,电话里描述得很清楚位置、机器上的IP,悲催的事情发生了,该人员不知为啥原因,把该机器所在的一排机架上的服务器都重启了,然后完了还电话通知我和他的主管,说找不到机器然后把所有的机器都重启了,当时被雷得那个泪流满面。。。据说一个星期后,那个维护人员离职了。。。
2、碰到个郁闷的事情
老式的SUN服务器,就是要接sun自己专用接口显示器、键盘的那种(生产业务)机器,突然某天挂掉,然后到处找键盘、显示器(据公司说原来是有,但是怎么没不清楚。。。郁闷非常),最后通过朋友的朋友请找到sun的工程师,借了个终端线,然后进行故障处理后。当时是刚到公司,后来立即把sun上面的业务转移到X86下的linux下了。。
。。。
以上是比较深刻的事情,时间比较久远了,至于救急。。。救火或者帮其他公司救火,太平常。。。而没有什么深刻影响。。。其实只要平时做好故障演练,就是救火,心里也踏实,一般这种情况,喊小弟干。。。。嘿嘿
作者: unixthisyear    时间: 2012-03-09 23:36
据回忆,那是我的第一份工作,那是2004年6月下旬的一天的某电信机房。
休息了2天后8:30正常上班,刚上班就接到电话,客户打来电话问我昨天他们服务器断了为什么不及时通知,然后xxxx一大堆,我就解释了一句:我昨天休息,还没来得及检查。结果就被投诉了,没过几天就被辞退了,悲催的运维工程师,悲催的第一份工作,唉...
现在想起还有些心有不甘,但是算了,这就是悲催的人生啊,知足就好....
作者: wsxedcer    时间: 2012-03-10 09:14
你们还好,最多晚上i吵醒, 做运维的都有过这样的时候,问题是 ,TMD  还整我们 运维的 晚上值通宵夜班,第二天还必须要求你正常上班
作者: renxiao2003    时间: 2012-03-10 10:09
1、        晒晒自己的系统运维生活,阐述自己理想中的系统运维生活。

搞系统维护的,楼主说到的问题肯定是在所难免,关键是我们如何让这些降至最低。做移动项目的时候,天天加班加点的干,就是在为系统运行准备数据,做数据平台的转换工作。从一种服务器平台导入到另一种服务器平台,问题多多,全部基本是手工作业,可想而知其难度。
硬件的问题,软件的问题,只要你是维护人员,在甲方看来这都是理所当然的应该作的事情。而悲催的是你永远不能说“不”。我们怎么样才能改变这样的生活状态呢?
2、        讨论DELL 12G服务器系统管理工具是如何帮助你节省运维时间的?

作为新一代的DELL 12G服务器管理工具,从了它强大的性能外,最好就是如果真的可以达到我在进行数据迁移的时候,只需要把源和目的数据相关配置准备好,同时把数据项设置清楚,这样用这个管理工具来自动完成的话,那么我想在我的工作中,我可以在配置好后就去喝咖啡了,等到它运行完成后我再回来看看结果就OK了,这样就能大量减轻我的工作量,让我轻松起来。尽情的期待着。
作者: xianzi25    时间: 2012-03-10 10:14
1、悲摧的研发经理

a: DB,SYS,HDW  任何一个出了问题,运维部门就过来问,你这个能不能给个HAC的方案,我了个去的,我的岗位职责是带着小弟们coding ……
b: DB ,SYS  速度慢了,TCP回应慢了,业务层经常发现被踢(业务层的攻击,http的), 诶没有DBA的日子啊没法过(postgres)
c: 客服部门的投诉,运维部门的支撑,CD的产品部门的门外需求,……
d: 24小时开机,经常半夜被项目实施弄醒,……

  我承认业务系统扩展性差,孤岛式的容易出问题, 不过不是我设计架构,nnd……

2:
   一般都用R410 ,少量R710 (看中了 2* 6 core 和 SAS RAID6)
   一个快递行业的项目,在我强烈要求下,才个配R710,

------------------------------------------------

有待成长哦



作者: tony0087    时间: 2012-03-10 11:11
1、        晒晒自己的系统运维生活,阐述自己理想中的系统运维生活。

还好,公司的系统可用性要求不高,也就99.99%可用性,我们这边是x86的Liux服务器和Solaris的小机各占一半吧,总的来说,Solaris的小机还算比较稳定,上面跑的都是业务,这个有商业的维护外包,不过貌似真的问题很少,
x86的Linux服务器是我们部门主要维护,坑爹的很,要是被人搞,而且动不动负载就很高,精彩半夜被电话报警给叫醒。
理想中的运维是,系统有问题能够自己愈合,且能够留下日志,方便与事故之后的分析工作,并加以解决。

2、        讨论DELL 12G服务器系统管理工具是如何帮助你节省运维时间的?
我们的x86都是dell的机器和IBM的机器,dell的性能一般,但是简单,不像IBM的,什么配件都得原装,否则就启动不来,真是气死人了。功能和性能都是一般,要是啥时候x86的和小机性能和稳定性差不多就好了。
作者: tony0087    时间: 2012-03-10 11:13
本帖最后由 tony0087 于 2012-03-10 11:13 编辑
dengbao2001 发表于 2012-03-08 12:05
大概浏览了下

C600的芯片组,支持最新的至强E5-2600,可以插24条内存(我的R710,18条全插满了), iDRAC 7的 ...


我的也是R710,这个什么G12的机器还有存储设备,这不刚发布么,能有谁用过啊,用R710的估计都不多,很多都是更老的机器。
作者: tony0087    时间: 2012-03-10 11:14
renxiao2003 发表于 2012-03-10 10:09
搞系统维护的,楼主说到的问题肯定是在所难免,关键是我们如何让这些降至最低。做移动项目的时候,天天加 ...


这个管理工具你用过?有啥资料分享一下么?貌似这个活动里都没有提,有啥新的管理工具或者功能。
作者: 流箫    时间: 2012-03-10 13:33
没用过R720的人飘过

半夜经常被叫醒的人路过


作者: 网络笨龟    时间: 2012-03-10 13:34
本帖最后由 网络笨龟 于 2012-03-10 13:39 编辑

1、晒晒自己的系统运维生活,阐述自己理想中的系统运维生活。

     维护规模,50台服务器,牌子比较杂乱,IBM,HP,DELL,甚至还有几台DIY的.............周一到周五每天打开电脑的第一件事就是看电子邮件,看看核心服务器的运行信息,然后登陆监控看网络的流量情况,虽然有nagios报警,但是还是要寻,习惯了.很庆幸服务器没有出现过半夜挂掉的现象,但是经常遭到攻击是必不可少的,因为备份做的比较到位,恢复和对比恢复还是比较快的.偶尔有厂家联系的时候还弄些测试的防火墙之类的玩玩,哈哈.最悲剧的就是前年服务器机房搬家,顺便把所有的服务器都吹灰,结果两台直接挂掉.主板电容爆浆从此就不醒机事了.个人总结:运维备份真的很重要,数据库服务器一定要做好多节电备份,不然出了问题你恢复都找不到恢复的数据!不要太依赖于监控设备的报警,从而养成监控不报警,管理员就不担心,尤其是核心的服务器,网络的结构和网络的知识也是必不可少的,有些问题不仅仅是在服务器上.
       理想中的系统维护生活最大的就是如果能实现网络的服务器console平台就爽了,其他的都是浮云.


2、讨论DELL 12G服务器系统管理工具是如何帮助你节省运维时间的?
     12G还木有机会享用,等学校采购再跟大家探讨学习交流.

作者: cnzwg2007    时间: 2012-03-10 14:42
网络笨龟 发表于 2012-03-10 13:34
1、晒晒自己的系统运维生活,阐述自己理想中的系统运维生活。

     维护规模,50台服务器,牌子比较杂乱,I ...


没事不要吹灰,电池爆浆不好玩:wink:
作者: gawk    时间: 2012-03-10 16:38
悲催,晚上不敢关机睡觉
作者: gala_wang    时间: 2012-03-10 17:34
看來 還是 DBA 更好一些哦
作者: kns1024wh    时间: 2012-03-10 22:32
回复 1# send_linux

1、        晒晒自己的系统运维生活,阐述自己理想中的系统运维生活。

运维的职业特点就是要多面手的角色,如果不能玲珑八面那就很难做好运维的工作,太极是必修的武学,天龙八部(L A W C M O N F )功夫是一定要精的。

如果有nagios报警的就会明显的对手机短信音 震动音产生过分的敏感,在噪杂的人群中能够清晰的听到自己的手机铃声;

业务上有专门的监控同事 ,周末电话过来请吃饭,按下接听就直接说,“知道了,现在上去看,等电话”,然后就挂断电话……

运维工作和开发工作同样的需要明锐的思维逻辑,运维工作要轻松就要规范的方式操作一起,只开需要的关闭不需要,增加备份,不行就重来,业务不停是重点,简单的方式比繁琐的程序要有效;

接到的短信时业务正常运行,打开的邮箱是一起都ok的提示,朝九晚五,快乐周末。



2、        讨论DELL 12G服务器系统管理工具是如何帮助你节省运维时间的?
DELL的九代服务器接触还是很多的,如果第十二代 PowerEdge 服务器和存储平台确如介绍所说的功能强大,运维人员的门槛将会减低很多,CU上的大部分朋友都要因为戴尔的12代服务器而失业,O(∩_∩)O哈哈~。从介绍看戴尔的12代服务器上进行了一系列以客户为中心的工程设计,从而提供了一个通用的高性能网络结构的集成基础架构。戴尔新的PowerEdge服务器提供裸机部署和配置,可以最大限度将工程师的工作时间减少85.5%,并且最高可减少86%的手动步骤。
任何硬件厂商如果用用户的角度出发充分考虑用户体验而非管理层的解决因素,其服务器对于运维管理人员操作简易将会有很多受众的首选。
   
作者: yifangyou    时间: 2012-03-11 12:33
本帖最后由 yifangyou 于 2012-03-11 12:49 编辑

1、晒晒自己的系统运维生活,阐述自己理想中的系统运维生活。
答:我到我现在的公司已经半年了,我主要管研发部,公司有12台机器,基本上都是dell的,有几台已经十年了,有一台居然是256M内存,看来公司当时挺有钱的{:3_189:}。每台机器上都有十几个网站在跑,我刚来公司时就发现所有的网站都没有备份机,等于说一个机器宕机了,上面的网站就挂了,并且我最担心的是硬盘坏了,就什么都没了。而且很多机器都已经过了保修时间了。
1)那台256MB的机器是我从公司的存物房里找到的,不知道为什么不用,公司有一个小活动网站基本上静态网站要上线,但是占用带宽太多,怕影响别的服务器,因而就用它了,里面是4根64MB的内存条,刚刚好我没有有512MB的,想换上去,发现无法启动,报错说内存超过了265MB,只能换回来到256MB,这个机器目前上线4个月了,还算比较正常(最高的流量峰值是12Mbps),唯一的缺陷是不能自动重启,重启后的话需要敲F1键才能进系统,只要硬件配置发生变化Dell的机器好像都有这样的毛病。


2)2012年1月份时,发现一个网站莫名其妙就无法访问了,ssh也进不去了,于是让机房的人重新启动机器,启动完之后就悲剧。
系统根本无法启动报错。于是我就连忙赶到到复兴门,从我公司到复兴门要穿过整个北京的二环,堵车非常厉害,在路上时,客户部打电话来说先用一个错误页面代替,于是我就在那台256MB的机器A上弄了一个维护页面,新建一个网卡设为宕机的机器B的ip(之后更离奇的事情就出现了)。
路上花了2个小时,到机房查了半天,发现问题了,原来是B的系统重启后就没有挂载上硬盘所有服务都没有启动,进入了维护系统界面,于是我用mount -a把硬盘挂载上了,把apache,mysql tomcat,ssh都启动,网站终于可以访问了,但是...当我重维护系统中输入exit时,系统重启了,由出现没有挂载硬盘的现象,又得重新做一遍,弄来弄去,只能保持维护系统状态,目前还是这样。然后把那台256MB的机器的新建网卡去掉。
3)那天晚上回到公司后测试网站恢复情况,除了中间偶尔出现几次无法访问情况外,网站都正常。但是到了第二天客户又反映网站无法访问,我上服务器B看了服务正常,但是一段时间后我ssh自动掉了,这个现象很奇怪,于是我检查了各个方面,终于在arp检查发现不正常,这个ip有两个mac地址响应(A机器和B机器),也就是说网关会有时把请求发到A上,有时到B上,才会出现网站时断时续的现象,其中有一个地址是A机器的,但是我已经在A上把网卡删除了,实在没有办法,让机房的人重新启动就发现A的新网卡彻底的被删除了。

4)昨天去机房把另外两台机器,解决了解决出现ping外网网关无法ping通的问题
我和同事下午去机房配置服务器的网络环境,
公司的服务器是有内外两个ip,外网ip(eth0)是各个服务器都接到一个外网交换机上(这个接通外网),内网ip(eth1)是各个服务器都接到一个内网交换机(这个交换机不接通外网)
如图

但是有一台机器配完内外ip后发现,无法ping同外网网关,而能够ping通别的机器的内外ip,这个很奇怪。
我首先猜想是不是设置服务器网关有问题(以前就出现过设置了默认网关为内网ip,导致无法ping同外网的情况)
1.于是用route命令检查了一下,发现默认网关为外网的。
2.用arp检测发现,无法得到外网网关ip的mac地址.于是就手动设置网关的mac地址,设置完后还是无法ping通外网。
3.用arping网关,无法ping通
4.正无头绪时,忽然间我们两大胆猜想是不是网线接反了,把eth0接到内网上了,而把eth1接到外网上了,查了一下果然。换过来就好了。这台机器的eth0和eth1的顺序是和别的机器不一致

5)上周的一天晚上,nagios给我发短信,说两个网站挂了,但是我上网发现却是正常的,我公司这个月需要搬迁服务器到新机房,之前已经把两个网站放到新机房里,而nagios还在老机房,估计是两个机房的网络不怎么通畅,那天我的手机短信箱被塞满了,基本上每隔1分钟就一封,吵到我不好睡觉。
6)本月底,旧机房里还有8台机器需要搬迁到新机房,目前规划是,先把8台机器的网站先复制到新机房的一台服务器上,把域名解析过来之后,花一天时间搬迁完毕,然后再把服务器ip交换到原服务器上,这样不影响网站访问。

2、        讨论DELL 12G服务器系统管理工具是如何帮助你节省运维时间的?
答:我希望DELL 12G服务器系统管理工具能够帮我做下面的事情:
1.能够把我这十几台不同版本不同年代的dell服务器,不同版本的操作系统的机器管理起来
2.能够通过界面实现各台机器的数据库和文件备份到同一个服务器上
3.能够监控网站的服务器,发现无法访问能够自动切换到另一台机器上,类似于keepaliaved
4.能够通过界面管理服务器的网络,有一张网络拓扑图进行管理就更好了


作者: zitest    时间: 2012-03-11 13:36
yifangyou 发表于 2012-03-11 12:33
1、晒晒自己的系统运维生活,阐述自己理想中的系统运维生活。
答:我到我现在的公司已经半年了,我主要管研 ...

写得好多啊{:3_182:}
作者: hlightman    时间: 2012-03-12 10:09
回复 69# yifangyou


    256M 内存那个问题,按F2 进BIOS设置一下就可以了。有一项是关于内存限制在256M的,是为了兼容以前老系统的。如果是设置了,开机会有提示信息,按F1才能跳过,然后继续启动系统的。
作者: king_819    时间: 2012-03-12 11:51
send_linux 发表于 2012-03-09 10:12
能够详细分享一下么?


      所谓全球化的团队,可能是做海外游戏或者电商海外贸易的,异地机房那也是必须的,远程操作也不是难事,关于自动化运维这块,基本上大点的公司,都会开发属于自己运维管理工具,在盛大的时候,这类工具也是用过的,没有什么奇怪的
作者: king_819    时间: 2012-03-12 11:54
对于运维人员来说,自动化运维才是王道,前期的搭建很重要
作者: yifangyou    时间: 2012-03-12 13:39
回复 71# hlightman
谢谢,但是进过bios了,没有找到设置的地方

   
作者: howge    时间: 2012-03-13 17:37
回复 28# qingchn


     苦逼的运维啊~! 哎,兄弟我是深有感触
作者: howge    时间: 2012-03-13 17:38
回复 73# king_819


    任重道远,诸多考虑,不过我的理想也是自动化
作者: king_819    时间: 2012-03-13 17:42
回复 76# howge

随着业务的不断发展,自动化运维是趋势所向,能很好的提高工作效率,就像工厂一样,由手工慢慢往全机械化转变

   
作者: c2shield    时间: 2012-03-15 02:07
用R410 710 810 910的飘过……
作者: 307183927    时间: 2012-03-15 16:05
编程转系统管理好转么,系统管理轻松些?
作者: send_linux    时间: 2012-03-15 16:14
c2shield 发表于 2012-03-15 02:07
用R410 710 810 910的飘过……


分享点经验所得嘛,别飘啊
作者: wtuter    时间: 2012-03-15 17:04
回复 1# send_linux


    1:运维生活

      两台nginx相互监控报警,下午调整监控nrpe重启没起来,晚上手机短信报了一晚上


  2:新产品,坐等用过的CUER分享

作者: rickyfang    时间: 2012-03-16 08:29
send_linux 发表于 2012-03-08 21:36
虚拟化技术版块哦,老方有时间,我们一起商量一下,在虚拟化技术版块,我们和deadwind一起做一些活动吧, ...


这个可以有,私有云、虚拟化方面,均可以有些动作的,也能找一些朋友分享下,当然,我们公司已经在用的服务器虚拟化、桌面虚拟化、应用虚拟化也有一些经验分享。
作者: dida2000    时间: 2012-03-16 10:27
再用R710的飘过...
作者: send_linux    时间: 2012-03-16 10:45
dida2000 发表于 2012-03-16 10:27
再用R710的飘过...


有经验,分享分享嘛,别飘哈
作者: tempname2    时间: 2012-03-17 02:14
挺有意思的。好吧,这个时候笑似乎不太好:wink:。
作者: send_linux    时间: 2012-03-17 09:18
tempname2 发表于 2012-03-17 02:14
挺有意思的。好吧,这个时候笑似乎不太好。


可以笑啊,但是不知道哪里出错了啊?
作者: yifangyou    时间: 2012-03-17 23:13
回复 71# hlightman
补充一下
我公司买了3台戴尔 PowerEdge R710的机器,有一台后来加了12G内存,但是出现重启机器后,发现警告,需要按一下键才能进入系统,不知楼上是否有办法解决,那台机器在机房,我都不敢随便启动,每次启动都得机房的人去按一下键{:3_204:}

   
作者: freeterman    时间: 2012-03-19 15:18
ooooldman 发表于 2012-03-08 12:04
以前经常半夜起来,问题多钟多样
1,链接外站的图片显示不了,外站挂了 ...




DZ论坛缓存
缓存文件目录: 网站根目录 cace/

作者: freeterman    时间: 2012-03-19 15:19
yifangyou 发表于 2012-03-17 23:13
回复 71# hlightman
补充一下
我公司买了3台戴尔 PowerEdge R710的机器,有一台后来加了12G内存,但是出 ...




按什么键才可以进入
作者: alonerhu    时间: 2012-03-19 22:16
本帖最后由 alonerhu 于 2012-03-19 22:19 编辑

有次局方线路割接不顺利,凌晨开始手机短信连续来了四个钟头,一会down一会up,搞得不知所措生不如死。
后来自己做nagios,第一件事情就是把所有报警全部限制为最高5次,而且后面两次是一小时一报。

理想状态当然是全部有远程控制,什么都远程,包括初始化安装,以前特喜欢hp的ilo,可惜很多时候这个功能被闲置,要么没有全功能,只能对付字符界面。
现在觉得自己该好好学习perl/phyth,尽可能的把全部放进监控里面去。

顺便说说虚拟化,现在自己折腾了几次promox,感觉其实也不错,对小型企业来说足够了。如果配好drbd,完全就是企业级的应用,
作者: yifangyou    时间: 2012-03-19 23:51
回复 89# freeterman
忘了,好像是F1还是任意键


   
作者: im555    时间: 2012-03-20 09:16

    1:运维生活

    苦逼的IT男,有短信就醒,来电话就慌,心惊胆颤中对待每一个来电


  2:新产品,坐等用过的分享
作者: freeterman    时间: 2012-03-20 09:42
回复 91# yifangyou


在coms里面把软盘屏蔽了 测试一下


   
作者: ontherd    时间: 2012-03-20 16:32
苦逼IT技术运维
作者: licong_jay    时间: 2012-03-20 17:04
chenyx 发表于 2012-03-09 08:33
回复 20# aixcradent

纯属个人看法.鉴于目前的交通状况,sohu应该是理想化的.


志同道合啊, sohu也是我的理想运维方式

不过现在提供完全sohu工作环境的屈指可数
作者: yifangyou    时间: 2012-03-21 13:39
回复 93# freeterman
不是软盘的事,已经删除了,估计是硬件变动引起的,主要是加了12G的内存


   
作者: meego2012    时间: 2012-03-21 18:12
这个服务器还没上市呢,刚刚新闻发布会,就写试用心得,这咋写啊.....
作者: 智勇双全    时间: 2012-03-23 09:24
1、        晒晒自己的系统运维生活,阐述自己理想中的系统运维生活。
   
       这个让我想起3年前的一次故障,持续工作72小时,夜间出现的故障期间主要遇到的瓶颈就是数据的恢复。一群人为5T数据想尽了各种办法。
运维应该是有弹性的上班时间,并有时间加入到硬件选型及应用开发项目中去的。

2、        讨论DELL 12G服务器系统管理工具是如何帮助你节省运维时间的?

3月7号就收到DELL 关于12G服务器的介绍,目前还没开展测试使用。
作者: haishui    时间: 2012-03-24 09:58
LZ开头起的还是不错的,后面咋是广告了呢?
作者: send_linux    时间: 2012-03-24 11:07
haishui 发表于 2012-03-24 09:58
LZ开头起的还是不错的,后面咋是广告了呢?


这个.........这个
一并宣传一下,礼品是他们提供支持的。
作者: send_linux    时间: 2012-03-24 11:08
alonerhu 发表于 2012-03-19 22:16
有次局方线路割接不顺利,凌晨开始手机短信连续来了四个钟头,一会down一会up,搞得不知所措生不如死。
后来 ...


谢谢分享:)




欢迎光临 Chinaunix (http://bbs.chinaunix.net/) Powered by Discuz! X3.2