免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12345下一页
最近访问板块 发新帖
查看: 44779 | 回复: 45

[其他] 海量运维、运营规划之道 [复制链接]

论坛徽章:
3
CU大牛徽章
日期:2013-05-20 10:43:41CU大牛徽章
日期:2013-05-20 10:44:06CU大牛徽章
日期:2013-05-20 10:44:16
发表于 2013-01-30 13:53 |显示全部楼层
本帖最后由 meego2012 于 2013-01-30 13:53 编辑

非常棒,分享给大家。
关于海量运维、运营规划,我想业界都没有准确的定义,假如说互联网的架构师用能否设计多高的摩天大楼来衡量架构能力,那运维、运营更多的是在关注互联网服务的质量、效率、成本、故障、瓶颈,用户的忍耐、抱怨等问题。



在接下来的日子里,将以质量、效率、成本为核心,从运营规划、管理、流程/规范、系统/平台,监控、告警、安全、优化、考核等几个维度结合案例来与大家分享自己的体会,内容大致如下所示。

前言

痛并快乐着
关于互联网运维、运营
质量

规划篇

1. 架构规划
1.1 新趋势、新机遇、新挑战
1.2 产品、架构、成本生命周期
1.3 质量、速度、成本
1.4 专业化、平台化、持续化
1.5 可伸缩、可调度、可扩展
1.6 Set模型,集装箱改变世界
1.7 全网调度,速度与容灾并进
1.8 监控与告警,远航的指路明灯
1.9 海量导致架构取向,适用是王道
1.10 可扩展、可持续架构的思考
2. IDC规划
2.1 全球最复杂的基础网络
2.2 IDC属性、瓶颈分析及建议
2.3 IDC策略,分布致胜、速度第一
3. CDN规划
3.1 CDN发展现状与趋势分析
3.2 CDN厂商分析及外包细节
3.3 CDN节点分布及解析策略
3.4 CDN外包质量和风险控制
4. 预算规划
4.2 预算的作用及预算推导
4.3 服务器定制,切合应用与性价比
4.4 服务器需求,用数据说话

速度篇

1、什么是访问质量运营管理
1.1 什么是访问质量
1.2 什么是访问质量运营管理
1.3 访问质量运营管理的价值
2、访问质量运营管理综述
1.1 访问质量运营管理体系
1.2 访问质量的关键指标
1.3 影响访问质量的核心因素
3、如何做访问质量运营管理
1.1 访问质量监控
1.2 访问质量分析
1.3 访问质量优化、评估
1.4 TDO优化,减少跨网访问
1.5 前端优化,首屏和连接数决定成败
1.6 服务器优化,应用好缓存和压缩
1.7 IDC优化,IDC、ISP分区域覆盖
1.8 优化工具,量化并且能趋势、对比分析
4、典型互联网企业案例及成果
1.1 资讯门户-腾讯网全站访问质量优化及收益
1.2 搜索引擎-百度搜索访问质量监测体系及优化

监控篇

1. 监控规划
1.1 质量监控,质量监控的作用
1.2 设备监控,设备运行状态可视化
1.3 网络监控,时刻掌控网络变化
1.4 域名监控,如何做精准DNS解析
1.5 URL监控,实时网页访问状态
1.6 缓存监控,多缓存监控的方法
1.7 DB监控,数据库监测可视化
1.8 应用监控,动态应用模块间监控
1.9 访问监控,获取用户访问速度
1.10 响应监控,IDC内服务响应监控
1.11 内容监控,掌握网站各元素变化
2. 周报报表
2.1 综合周报,自动化的综合周报
2.2 业务周报,定制化的业务周报

告警篇

1. 统一告警,如何具备千里眼、顺风耳
2. 告警分级,将告警分类区分对待
3. 告警模型,如何建立告警模型
4. 告警收敛,规避被告警淹没
5. 告警关联,1+1>2,让告警更具价值
6. 告警分析,用数据说话

安全篇

1. 漏洞扫描
2. 域名劫持扫描
3. 挂马扫描
4. CGI扫描
5. 网页篡改扫描
效率

管理篇

1. 配置管理,将所有资源标识并记录在册
2. 事件管理,记录、分类、诊断、解决问题
3. 问题管理,消除引起问题的根本原因
4. 变更管理,串联变更原因、过程、结果
5. 容量管理,对运营指标未来的量化、预测

流程篇

1. 环境一致性规范
2. 发布、变更规范
3. 运营故障分级和处罚规范
4. 运营资源申请流程
5. 预算管理规范
6. IDC变更流程
7. CDN运营规范

平台篇

1. 静态资源平台
2. 动态应用平台
3. 数据库托管平台
4. 逻辑服务平台
5. 缓存管理平台
6. 运维工具平台
7. 海量存储平台
8. PGV点击流平台
9. GSLB全网调度平台

考核篇

1. 运营质量考核
2. 架构能力考核
3. 运营预算考核
成本

带宽篇

1、 规模化导致带宽成为最大成本
2、 通过改变产品形态减少数百万成本
3、 带宽成本量化及可持续跟踪

硬件篇

1. 服务器分类、分级、分层定制
2. 按应用场景使用虚拟化服务器
3. IDC专区化,合适使用网络设备

来源:http://www.itkoala.com/

论坛徽章:
3
CU大牛徽章
日期:2013-05-20 10:43:41CU大牛徽章
日期:2013-05-20 10:44:06CU大牛徽章
日期:2013-05-20 10:44:16
发表于 2013-01-30 13:55 |显示全部楼层
本帖最后由 meego2012 于 2013-01-30 13:56 编辑

关于互联网运维、运营



关于互联网运维、运营,给人第一印象是有些拗口,此外更多的是歧义,互联网企业有这样的岗位吗?感觉像是产品、内容、游戏运营之类的岗位。说说我对这个岗位的理解,首先看看腾讯有那些岗位及分类。



综上所述,这里对运维、运营的理解有综合、抽象了技术支持类多个工程师的属性,比如应用运维、运营服务管理、系统管理等,可以理解为是一种综合素养和协调能力,具体的工作大致如下:

1、运营规划,提供运营综合规划支持,分析业务发展需要的资源趋势,规划IDC资源,并驱动实现并与运营预算对齐。

2、运营预算,负责维护产品设备预算,带宽预算,专线预算的申请和滚动更新,并对运营预算结果和运营成本负责。

3、运营支持,负责运营服务器的日常管理与相关系统的信息变更管理;负责访问策略、域名管理、IP管理等基础运营需要支持。

4、系统运维,负责产品的运营服务器的系统运维、系统监控与安全保障、系统性能分析和优化等工作;随时待命,处理产品可能遇到的问题,突发事件管理。

5、应用运维,负责业务的部署,新版本的发布,服务端的变更;负责监控业务的运行状况,及时处理业务运行中出现的故障,保障业务服务正常可用。

6、运维需求,负责与各开发项目组的日常沟通交流,接受并处理项目组提出的运维需求。

7、运营数据分析、挖掘,负责产品的业务数据分析与挖掘,性能分析与系统优化,问题跟踪与管理,负责定期给出业务运维状况报告。

8、运营流程、规范、制度,负责产品运维流程的探索,产品运维工作范畴与深度方面的文档建设,进行与运维相关的新技术研究;负责系统运维的知识管理体系、流程与文档建设。

9、运营接口、平台、培训,负责承担部门内的运营/运维技术培训,负责公共类运维支撑平台的建设和在部门内的推行;负责与外部门的交互,包括外部信息对内的知会,内部需求对外的反馈。

论坛徽章:
3
CU大牛徽章
日期:2013-05-20 10:43:41CU大牛徽章
日期:2013-05-20 10:44:06CU大牛徽章
日期:2013-05-20 10:44:16
发表于 2013-01-30 13:57 |显示全部楼层
1.2 产品、架构、成本生命周期
关于架构规划,首先应该了解产品、架构、成本的生命周期,任何互联网企业都是由多个领域,多个产品支撑,有新旧、大小之分。互联网产品经过产品策划、设计、研发、运营,然后上线进入市场,它的市场生命周期才算开始。产品、架构、成本都会随时间推移而改变,呈现一个由少到多由简单到复杂的过程,就如同人的生命一样,由诞生、成长到成熟,最终走向衰亡。
产品生命周期

架构、成本生命周期

产品生命、架构、成本周期的一些特性:
1、初始期,这个阶段通常会采用灰度放量,如发放邀请码等,像腾讯、google重要产品都是采用这种方法,最重要的目标试探用户对产品的体验反馈及系统架构的用户模型。
2、成长期,用户基数增长,产品逐渐丰富,系统模块化、层次化明显,这个阶段是承上启下的关键时期,可扩展、可持续的符合产品特性的集群架构决定未来支撑能力,带宽成本开始成为主要成本。
3、成熟期,用户量增长放缓,用户数、活跃度最高时期,架构最大的挑战也在于此阶段,接入层(多IDC分布+数10G、甚至数100G带宽成本),逻辑层(逻辑服务分布+集群),数据层(P级分布式存储+分布式Cache+分布式DB),有损体验、柔性可用缓解成本压力。
4、衰退期,新产品或替代品出现,用户开始流失,架构沉淀和完整期,这个阶段大的架构开始平台化,升级到部门甚至是公司级别。例如:腾讯的存储平台(TFS、TDB)、CDN平台(图片、下载、流媒体),淘宝存储、CDN平台,新浪动态应用平台等。
平衡负载、架构、速度、容灾与成本的关系是产品从小到大的一个重要的工作,即要满足阶段性需要,又不能过计划。

论坛徽章:
3
CU大牛徽章
日期:2013-05-20 10:43:41CU大牛徽章
日期:2013-05-20 10:44:06CU大牛徽章
日期:2013-05-20 10:44:16
发表于 2013-01-30 13:58 |显示全部楼层
本帖最后由 meego2012 于 2013-01-30 13:58 编辑

1.3 质量、速度、成本

“产品第一,运营制胜”,用腾讯的核心运营文化开个头,这里的运营是指基于生产环境并保障网络、硬件、应用的稳定运行,做好运营已经成为互联网公司的核心竞争力之一,那如何做好运营呢?个人体会主要有三个维度,质量、速度、成本,下面接合场景分析如下。
场景
某个互联网产品由数十名软件工程师开发,几十甚至数百个功能组成,需要数百台服务器支撑,这些服务器都需要分布不同区域,不同运营商的机房。
质量的挑战
质量的定义貌似有些广义,可以简单理解为是否有影响到用户使用产品的体验,举个反而案例帮助理解,比如“三鹿奶粉质量事件”,就存在严重质量问题,接合场景质量的挑战如下:
1、数百个功能模块,数十名软件工程师协同开发、版本发布、功能迭代,耦合和衔接及BUG不可避免造成用户体验异常。
2、数百台服务器运行,电源、主板、硬盘、内存等硬件故障随时会发生,业界公认硬盘存在每天万分之四的故障率,曾经经历过92台服务器存在主板问题,会突然掉电死机。
3、分布在多个区域多个机房,目前内外网环境错综复杂,网络问题家常便饭,曾经经过无数次骨干网异常、交换机及路由器故障,省网故障等惨痛教训。
4、海量用户更考验架构规划和容易管理能力,突发流量如同地震、海啸般可以瞬间将系统击跨,即使可用性达到99.9%,每月服务不可用也将近40分钟。
速度的挑战
这里的速度可以理解为如何让用户最快时间打开网页、视频、下载、游戏,有研究显示,宽带用户比窄带用户更没有耐心,宽带用户愿意忍受的最长等待时间,往往只有4~6秒,接合场景速度的挑战如下:
1、互联网存在用户速度体验的1-3-10原则,0~1秒最优,1~3秒为较优,3~10秒用户已经感觉比较慢,>10秒用户无法接受,另外用户放弃一个产品的代价非常低,只需要换一个URL。
2、数10名软件工程师协同开发,前端用户体验设计、UI、制作和后端逻辑、Cache、数据库设计都是用户体验的一个中间环节,任何一环节都将可以造成速度问题,
3、中国基础网络复杂度不言而喻,运营商、用户都具有区域性,最简单的问题,电信访问电信的服务器快,网通用户多在北方,电信用户多分布在华东、华南。
成本的挑战
成本主要指支撑互联网产品运行所需要的网络设备、服务器、带宽、机架、专线的费用,这里的成本挑战可以理解为具备一定规模的成本,其中带宽成本将占主要成本,特别是当前海量背景下,带宽已经成为互联网的黄金,接合场景成本的挑战如下:
1、数百台服务器支撑,拿标配服务器Dell R610(IntE5506 2.13GHz四核*2/8G内存/146G、10K、SAS)举个例子,加上运费及网络等约2万/台,单采购需要200万,还不算高端数据库(8~10万/台)等服务器。
2、再算一下持久的耗费,机架租用看不同城市,大概在平均0.5万/月/个,一个机架14U,可放11~13台服务器,100台服务器预计需要9个机架,一年需要54万。带宽成本也看城市,大概在5~8万,例如上海南汇电信IDC为7万/G/月,即使CDN便宜,也需要5万/G/月,如果每月2G消耗,一年需要168万。
3、再举例说明一下规模,腾讯网需要数千台服务器、带宽需要100G、视频带宽需要50G,一年需要近5000万运营成本支撑,特别是海量产生了巨大的成本压力和挑战,能够以低建设成本、低运营成本促进业务的可持续发展,已经成为互联网企业的生死要素。
以上只是点到除人的因素外,如何做好运营以及质量、速度、成本的挑战,在后面的内容中会结合自己的实践与大家探讨具体如何实现。

论坛徽章:
3
CU大牛徽章
日期:2013-05-20 10:43:41CU大牛徽章
日期:2013-05-20 10:44:06CU大牛徽章
日期:2013-05-20 10:44:16
发表于 2013-01-30 18:36 |显示全部楼层
没人看,伤心

论坛徽章:
0
发表于 2013-01-31 09:35 |显示全部楼层
谁说没人看 很不错的东西

论坛徽章:
0
发表于 2013-01-31 11:52 |显示全部楼层
条理很清晰,实现很麻烦...
废话一堆...吃饱撑叼了...
鉴定完毕!

论坛徽章:
0
发表于 2013-01-31 12:12 |显示全部楼层
楼上的那么高端啊,咋不见写点文章帮助下我等低端人群。。。很不错的文章,直接上原网站看完的,可惜有些章节不能点击

论坛徽章:
0
发表于 2013-01-31 16:26 |显示全部楼层
好东西,可以出书了!

论坛徽章:
3
CU大牛徽章
日期:2013-05-20 10:43:41CU大牛徽章
日期:2013-05-20 10:44:06CU大牛徽章
日期:2013-05-20 10:44:16
发表于 2013-02-01 16:58 |显示全部楼层
babywd 发表于 2013-01-31 12:12
楼上的那么高端啊,咋不见写点文章帮助下我等低端人群。。。很不错的文章,直接上原网站看完的,可惜有些章 ...


是的,这个原文的作者是个运维的老兵,经验和层次都很丰富了,不知道版主能否加精呢
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

DTCC2020中国数据库技术大会

【架构革新 高效可控】2020年12月21日-23日第十一届中国数据库技术大会将在北京隆重召开。

大会设置2大主会场,20+技术专场,将邀请超百位行业专家,重点围绕数据架构、AI与大数据、传统企业数据库实践和国产开源数据库等内容展开分享和探讨,为广大数据领域从业人士提供一场年度盛会和交流平台。

http://dtcc.it168.com


大会官网>>
  

北京盛拓优讯信息技术有限公司. 版权所有 16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122
中国互联网协会会员  联系我们:huangweiwei@it168.com
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP