免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: Gray1982
打印 上一主题 下一主题

[其他] 【大话IT】年关绝杀篇:运维工程师必备技能热谈(获奖名单已公布) [复制链接]

论坛徽章:
72
20周年集字徽章-20	
日期:2020-10-28 14:04:30操作系统版块每日发帖之星
日期:2016-07-13 06:20:0015-16赛季CBA联赛之广夏
日期:2016-07-10 09:04:02数据库技术版块每日发帖之星
日期:2016-07-09 06:20:00操作系统版块每日发帖之星
日期:2016-07-09 06:20:00数据库技术版块每日发帖之星
日期:2016-07-07 06:20:00操作系统版块每日发帖之星
日期:2016-07-07 06:20:00操作系统版块每日发帖之星
日期:2016-07-04 06:20:00数据库技术版块每日发帖之星
日期:2016-07-03 06:20:00操作系统版块每日发帖之星
日期:2016-07-03 06:20:00数据库技术版块每日发帖之星
日期:2016-07-02 06:20:00操作系统版块每日发帖之星
日期:2016-07-02 06:20:00
11 [报告]
发表于 2016-12-28 14:30 |只看该作者
本帖最后由 cjfeii 于 2016-12-28 15:12 编辑

运维的价值是毋庸置疑的,线上的环境是巨复杂的环境,我们需要运维能及时处理这些。
但是现在对运维角色的定义不是很清晰,我们普遍认为运维主要职责有:环境的配置及调优,规范的上线流程,技术方案的落地,靠谱的升级方案以及迅速的故障处理机制等。
但其实可以划分为下面几种职能:
    1. 应用运维:负责支持线上业务,主要保障线上业务系统稳定
    2. 运维开发:开发便捷的工具,提升运维团队工作效率
    3. 系统运维:负责操作系统定制及优化,IDC管理及机器交付
    4. 监控运维:负责发现故障,并第一时间通知相关人员,配合处理故障
    5. DBA和安全团队
虽然划分的比较细致,但是很多时候多项职能集于一身。

运维平台所应用的技术,应用的技术有很多。可以简单分为以下几类:
    1. 监控预警系统:Nagios、Zabbix、Cacti等,也包含自己开发的一些监控系统以及云监控平台;
    2. HA、LB:Nginx,Keepalived、Haproxy、LVS等,开源的有很多
    3. 运维开发工具栈:django、Nginx、Python、Lua等
    4. 等

可以简单看一下下面两个思维导图,运维平台化和价值化的维度:



论坛徽章:
5
IT运维版块每日发帖之星
日期:2015-08-25 06:20:002017金鸡报晓
日期:2017-01-10 15:13:292017金鸡报晓
日期:2017-02-08 10:33:2115-16赛季CBA联赛之新疆
日期:2018-04-23 13:55:2315-16赛季CBA联赛之辽宁
日期:2018-07-23 08:59:12
12 [报告]
发表于 2016-12-29 18:56 |只看该作者
1. 可以聊下的运维价值、运维的体现
运维这中生物在网上的定义有很多,救火队,背锅侠…………
在运维的价值不同运维有不同的价值体现,比如我这种打杂运维来说,
对于服务器程序和机器而言就像是一个医生或者说救火队,当除了问题,必须及时发现和处理,减少业务宕机时间,减少损失。
对于开发人员而言,制作运维自动化平台方便开发去部署,查看日志等。
对于人事行政人员而言,需要开发cmdb,统计服务器、电脑的数量与配置,方便统计。
对于运维自身而言,开发的自动化小程序可以大大减少运维的夜间工作量,如磁盘空间监控清理业务故障重启服务等。
唉。。一言难尽。。
2. 运维平台所应用的技术,比如django、nginx、bootstrap
运维语言个人觉得python是一个非常好的语音,所以都是基于 python写的平台后端是django,前端是bootstrap,用ajax进行交互。

3. 运维平台以及各模块设计,比如程序自动化发布、cmdb、审计、监控等
差不多都是这样吧,自动部署,cmdb,审计,监控,webssh等。

4. 在使用过程中遇到的问题,比如查询数据量很大的时候....
还在开发过程中,因为是基于saltstatic开发的,所以有一些saltstatic的瓶颈与bug。

论坛徽章:
32
CU大牛徽章
日期:2013-05-20 10:45:13每日论坛发贴之星
日期:2015-09-07 06:20:00每日论坛发贴之星
日期:2015-09-07 06:20:00数据库技术版块每日发帖之星
日期:2015-12-13 06:20:0015-16赛季CBA联赛之江苏
日期:2016-03-03 11:56:13IT运维版块每日发帖之星
日期:2016-03-06 06:20:00fulanqi
日期:2016-06-17 17:54:25IT运维版块每日发帖之星
日期:2016-07-23 06:20:0015-16赛季CBA联赛之佛山
日期:2016-08-11 18:06:41JAVA
日期:2016-10-25 16:09:072017金鸡报晓
日期:2017-01-10 15:13:292017金鸡报晓
日期:2017-02-08 10:33:21
13 [报告]
发表于 2016-12-30 16:12 |只看该作者
1. 可以聊下的运维价值、运维的体现
运维是一个公司在业务信息化、面向互联网开展业务运营化等方面的后盾,也是技术保障。
所以运维对于一个公司而言,是非常重要的。
但是运维的工作通常位于幕后,当业务运行、开展的很正常,通常人们(包括公司领导)是看不到运维付出的努力的。
所以运维有“背锅专业户”的称号。
运维的价值可以通过多方面进行体现:
1)降低公司或企业的运营成本
运维不是直接的效益部门,但是可以通过成本控制产生效益。在一个海量服务的情况下,带宽/服务器/人力都是非常昂贵的资源,成本的控制精细化考验了运维团队的技术能力和管理能力。
2)可以提升或企业的运营效率
运维效率能够看到运维平台化的能力。从场景的角度可以分解出很多种对运维效率的要求,比如说故障发现问题效率、故障定位问题效率、发布效率、(DNS/LVS/网络/业务)变更效率、资源交付效率等等。运维都不提倡面向业务部门的SLA,但所有的运维团队都在这些维度提出自我要求,从而不断去驱动运维平台和规范的建设。
3)可以保障企业信息化的安全
安全是一个互联网产品的生命基线,需尽早安全的制度和规范应该在早期的产品研发过程中参与进来,其次要建立一个全面的安全体系,从系统级、数据级别、应用级别等各个维度去对待安全的问题。对于数据的安全保护,更是中重中之重。

2. 运维平台所应用的技术,比如django、nginx、bootstrap
善用各种监控工具:
1)Linux系统的各种脚本工具
比如top、free、uptime、lsof等脚本。

2)Zabbix、Nagios等监控工具
能监视各种网络参数,保证服务器系统的安全运营;并提供灵活的通知机制以让系统管理员快速定位/解决存在的各种问题。

3)配置管理工具Puppet、Chef、Ansible、Saltstack等
可管理配置文件、用户、cron任务、软件包、系统服务等,这些系统实体可称之为资源,使用配置管理工具可以简化对这些资源的管理以及妥善处理资源间的依赖关系。

4)使用提供云服务的监控服务,比如监控宝等

5)自行开发运维管理平台
未必基于Python,用Java也比较常见

3. 运维平台以及各模块设计,比如程序自动化发布、cmdb、审计、监控等
对于程序的自动化发布,我们通常是基于版本管理系统和持续集成系统来做的。
比如通过Git实现源码管理,通过Jenkins实现持续集成,完成各种应用系统的自动发布。
当然,线上的发布要更复杂一些。
对于CMDB,我们公司采购了IBM的RTC配制管理工具来实施的。
对于审计,我们是通过收集服务器上的日志来进行的。
至于监控,正如前面所说,采用Zabbix等来实施。

4. 在使用过程中遇到的问题,比如查询数据量很大的时候....
这个就得具体问题具体分析了,DBA经常会处理相关的事宜。

论坛徽章:
33
ChinaUnix元老
日期:2018-07-04 15:10:362015年亚洲杯之阿联酋
日期:2015-02-06 17:15:532015亚冠之武里南联
日期:2015-06-06 15:40:252015亚冠之北京国安
日期:2015-06-17 15:42:412022北京冬奥会纪念版徽章
日期:2015-08-10 16:30:322015亚冠之阿尔纳斯尔
日期:2015-09-20 09:42:1215-16赛季CBA联赛之北京
日期:2016-01-15 10:03:5915-16赛季CBA联赛之青岛
日期:2016-04-26 16:44:4915-16赛季CBA联赛之广夏
日期:2018-07-04 15:33:21C
日期:2016-10-25 16:12:142017金鸡报晓
日期:2017-01-10 15:19:5615-16赛季CBA联赛之同曦
日期:2017-02-22 22:41:10
14 [报告]
发表于 2016-12-30 16:58 |只看该作者
现在这一个下载都非要用微信,个人不用,所以也不下载

论坛徽章:
0
15 [报告]
发表于 2017-01-05 16:35 |只看该作者
刚毕业的时候,做运维工作,当时只是单纯的把运维和售后工作划等号,认为运维就是故障的及时处理,只要保障业务系统的正常运行就行了。后来渐渐发现,光会解决问题可不行,环境的部署,系统的上线,平台的升级都得会,还得写相关文档,方案,流程等等。有时候还要负责DBA和网管的工作。所以运维不仅是后盾,还是保障,不仅是问题解决,还是防患于未然的未雨绸缪。
运维不能直接带来效益,但可以通过降低成本,提高质量来帮助业务系统适应外部环境,提高效率,实现标准化服务。一个好的平台,应该能够降低有限的脑力记忆带来的风险。资产监控,配置管理,常见案例,故障诊断这些完全是可以实现的。所有的硬件和软件,从上线甚至从采购开始,都可以进行定制化运维管理,直到下架报废,形成闭环。
作为新手,以上只是个人的一些不成熟见解,权且当做闲聊。具体我还是多看看大牛们的真知灼见吧

论坛徽章:
0
16 [报告]
发表于 2017-01-07 17:38 |只看该作者
回复 4# _nosay

666666666666666666666666666

论坛徽章:
40
水瓶座
日期:2013-08-15 11:26:422015年辞旧岁徽章
日期:2015-03-03 16:54:152015年亚洲杯之乌兹别克斯坦
日期:2015-03-27 14:01:172015年亚洲杯之约旦
日期:2015-03-31 15:06:442015亚冠之首尔
日期:2015-06-16 23:24:37IT运维版块每日发帖之星
日期:2015-07-01 22:20:002015亚冠之德黑兰石油
日期:2015-07-08 09:32:07IT运维版块每日发帖之星
日期:2015-08-29 06:20:00IT运维版块每日发帖之星
日期:2015-08-29 06:20:00IT运维版块每日发帖之星
日期:2015-10-10 06:20:00IT运维版块每日发帖之星
日期:2015-10-11 06:20:00IT运维版块每日发帖之星
日期:2015-11-10 06:20:00
17 [报告]
发表于 2017-01-08 21:43 |只看该作者
本帖最后由 forgaoqiang 于 2017-01-08 23:49 编辑

恩 这个活动不错 是运维人员的菜 这个回复读下试读章节,下一楼回复活动话题吧:
其实对于谁是“根叔”比较好奇,只不过一看是根(root)大体也能够能白要表达的意思。我对网络还是比较感兴趣的,前几年也考了思科的认证,后来以做无线网络为主,因为是小公司,一直是半个运维、半个程序员的样子。
试读部分的确比较少,只有30页,大体内容有:

①静态路由问题的查看和处理,这个应该比较容易发现的,一旦tracert或者traceroute就很容易发现静态路由问题。
②RIP协议的troublshooting,只要理解RIP这种简单的动态路由还是比较容易找到问题的。
③OSPF,稍微复杂一点的动态路由协议,排查路径中从先检查邻里关系是否正常到LSA信息是否正确一步步的查找问题,思路清晰,这个过程之前的确没有整理过,都是凭“经验”+“直觉”解决问题,看了这里的流程图的确是有个好的排查流程,更容易发现问题所在。
④对于BGP,说实话没有在实验室环境之外用过,不多说了
⑤后面就是IP协议栈,IGMP和IGMP-Snooping(不完整章节),实际应用较少,大体瞄了一眼

整体来说,这本书应该是对整个网络设备debug的标准流程化的总结,是经验之作,是网管员排查故障的得力手册。


论坛徽章:
40
水瓶座
日期:2013-08-15 11:26:422015年辞旧岁徽章
日期:2015-03-03 16:54:152015年亚洲杯之乌兹别克斯坦
日期:2015-03-27 14:01:172015年亚洲杯之约旦
日期:2015-03-31 15:06:442015亚冠之首尔
日期:2015-06-16 23:24:37IT运维版块每日发帖之星
日期:2015-07-01 22:20:002015亚冠之德黑兰石油
日期:2015-07-08 09:32:07IT运维版块每日发帖之星
日期:2015-08-29 06:20:00IT运维版块每日发帖之星
日期:2015-08-29 06:20:00IT运维版块每日发帖之星
日期:2015-10-10 06:20:00IT运维版块每日发帖之星
日期:2015-10-11 06:20:00IT运维版块每日发帖之星
日期:2015-11-10 06:20:00
18 [报告]
发表于 2017-01-08 23:23 |只看该作者
本帖最后由 forgaoqiang 于 2017-01-08 23:33 编辑

1. 可以聊下的运维价值、运维的体现
①个人认为运维是运营的基础支持服务,只有IT基础设施运维正常其上面的业务才有可能运营正常,这正是运维的核心价值所在。
②除此之外,对运维中产生的数据的进行挖掘、分析,能够为业务发展方向提供决策的支持,这个是运维的隐性价值。
③运维甚至在为企业自身提供服务之余,可以将多余的资源服务外部客户,实现运维自身的收益。

另外我理解的运维分为多个环节,分别为产品从设计到发布、运行维护、变更升级及至下线提供全面的支持保障工作:
①开发和部署
运维为最终应用提供可以运行的容器,设计好坏直接影响基础服务的运行,特别是数据库这种需要查询的服务,产品设计开发时一个不好的实现,只靠运维优化服务手段是没有明显效果的,因此在这一阶段,运维需要为研发提供开发建议,使得业务应用以服务最佳的形式来编写。同时在需要的时候配合测试部门完成功能、性能方面的测试。
②运行维护
这个过程是狭义上的运维,应用上线、用户访问,数据的备份,中间除了业务程序自身的BUG之外,可能出现服务质量下降、应用响应缓慢、甚至应用无法提供服务。这时候就需要运维检查各个环节,找出问题。一般重启服务、重启服务器可以临时解决大多数问题,在发现问题后即使反馈研发,完成业务修改。
③变更升级
业务总是在不断的完善,程序升级一般都在晚上,于是网络割接、灰度发布都需要运维人员的全面参与,升级后可能遇到的问题也要运维来协调解决。
④产品下线,声明周期结束
特定业务的寿终正寝,服务的清理,数据的导出、数据的分析也需要运维参与。


2. 运维平台所应用的技术,比如django、nginx、bootstrap
运维人员需要的是运维工具和平台,对于python框架django、web前端框架bootstrap如果了解更好。至于nginx、apache这样的服务软件的使用配置调优势必备技能。
对于运维人员来说,除了用好公司已经有的运维平台之外,还需要了解开源的管理工具,设置必要的时候开发自己的运维工具模块完成运维过程的管理,常见的运维平台技术有:
①监控管理系统:Puppet、Nagios、Cacti、Zabbix,这四款是比较有名的开源管理程序,高级运维人员应该能够熟练使用。
②高可用,负载均衡:Loadblance、Nginx、Keepalived、Haproxy、LVS、HA需要了解。
③运维开发语言:shell是必备技能、python、perl、lua、ruby是不错的选择,会编程语言能够编写运维过程中编写自动化脚本程序,更加高效的实现运维的自动化。


3. 运维平台以及各模块设计,比如程序自动化发布、cmdb、审计、监控等
大部分运维人员到位后都已经有一个比较完善的运维体系,参与运维平台的构建开发的确是不错的经验,完善运维平台也是很好的机会,对于运维平台的设计应该有以下的功能和特点:①首要的就是监控和告警
能够监控服务器级别、业务级别(具体的服务响应)、IT基础服务(比如数据库运行状态)的状态,并在出现异常的时候能够短信、右键提醒运维人员处理。
②自动部署
应用部署的最高境界是持续集成、自动部署,提供自动化发布程序以及灰度发布环境。
③审计监控
审计运维过程中的行为,包括服务器登录、业务修改等,保证操作的合法性,避免对业务的破坏,保证系统的安全性。
④入侵检测和反制
好的运维系统平台能够对恶意行为识别并进行告警阻却,必要的时候IDS和IPS是运维平台的功能模块


4. 在使用过程中遇到的问题,比如查询数据量很大的时候....
其实运维过程中最常见问题的外部表现是:
业务响应缓慢、甚至不响应,出现超时、web相关业务出现50X服务器内部错误
内部表现是:
CPU负载过高、Uptime平均超过1.0(I/O和CPU的综合参数,超过1意味着有任务正在排队等待处理无法及时得到响应)

或者单个进程比如mysql占用极高的CPU,对于web服务来说排查的过程比较经典:
检查下web access访问日志,查看数据库慢查询日志、确认具体的哪个业务拖慢了整体应用,应急重启服务甚至服务器。
对于超出阈值的情况,只能做访问限制,提供部分用户服务,即使如此也比服务不好所有用户更有益。公司的微信相关的业务遇到20W并发流量的时候就只能舍弃中间非关键业务的处理,并暂停一部分非活跃用户的服务来度过访问高峰。

5、运维需要掌握的技能
运维是个苦差事、综合性特别强、不仅需要学习非常宽广的知识、还需要不断的学习新的技术,同时了解系统、应用的升级变更等。正如玩笑说的,业务运行不正常天天责骂运维、业务一直很顺畅,留着运维干啥,开除了算了,下面是我认为运维应该掌握或者了解的知识:

①操作系统:Linux主要发行版本(至少公司使用的发行版本)、Windows Server的使用和服务配置。
②数据库系统:常用的关系数据库系统(至少公司使用的DB),比如MySQL、PostgreSQL、Server SQL、Oracle。
③web服务的配置:IIS、Apache、Nginx。
④缓存系统:Redis、Memcache
⑤虚拟化技术和云平台的使用:阿里云、AWS、腾讯云的使用和管理
⑥网络相关的知识
⑦存储、CDN、域名管理等
⑧PHP、Java容器进程的管理
当然还需要好的体力(运维不是轻松地活,半夜割接升级是正常情况)和沟通能力









论坛徽章:
40
水瓶座
日期:2013-08-15 11:26:422015年辞旧岁徽章
日期:2015-03-03 16:54:152015年亚洲杯之乌兹别克斯坦
日期:2015-03-27 14:01:172015年亚洲杯之约旦
日期:2015-03-31 15:06:442015亚冠之首尔
日期:2015-06-16 23:24:37IT运维版块每日发帖之星
日期:2015-07-01 22:20:002015亚冠之德黑兰石油
日期:2015-07-08 09:32:07IT运维版块每日发帖之星
日期:2015-08-29 06:20:00IT运维版块每日发帖之星
日期:2015-08-29 06:20:00IT运维版块每日发帖之星
日期:2015-10-10 06:20:00IT运维版块每日发帖之星
日期:2015-10-11 06:20:00IT运维版块每日发帖之星
日期:2015-11-10 06:20:00
19 [报告]
发表于 2017-01-08 23:51 |只看该作者

(⊙﹏⊙)b 哥们 没有经验也可以分享下自己的理论呀

论坛徽章:
32
CU大牛徽章
日期:2013-05-20 10:45:13每日论坛发贴之星
日期:2015-09-07 06:20:00每日论坛发贴之星
日期:2015-09-07 06:20:00数据库技术版块每日发帖之星
日期:2015-12-13 06:20:0015-16赛季CBA联赛之江苏
日期:2016-03-03 11:56:13IT运维版块每日发帖之星
日期:2016-03-06 06:20:00fulanqi
日期:2016-06-17 17:54:25IT运维版块每日发帖之星
日期:2016-07-23 06:20:0015-16赛季CBA联赛之佛山
日期:2016-08-11 18:06:41JAVA
日期:2016-10-25 16:09:072017金鸡报晓
日期:2017-01-10 15:13:292017金鸡报晓
日期:2017-02-08 10:33:21
20 [报告]
发表于 2017-01-10 09:32 |只看该作者
这套书太全面了,基本上是一书在手,别无他求。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP