行业动态

了解最新公司动态及行业资讯

当前位置:首页>新闻中心>行业动态
全部 3997 公司动态 861 行业动态 3136

阿里经济体全面上云后,如何实现云上数十万台的ECS实例

时间:2022-07-27   访问量:1686

上云后需要运维吗?答案是:其实是必须的。

上云确实简化了部分运维工作。比如传统IT中服务器的日常运维,都是由云服务商完成的。但随着云产品类型的不断丰富和规模的不断扩大,如何高效运维云资源正逐渐成为运维人员面临的挑战。

在刚刚结束的QCon全球软件开发大会(北京站)2020“弹性工程与运维”专题中,阿里云中级技术专家赵宇(巴厘岛)分享了阿里经济云运维的话题。本文整理了整体上云后,如何在云上实现数十万台ECS实例手动运维的实践和经验。

运维服务管理体系建设_服务器运维_运维项目服务巡检报告

阿里巴巴云中级技术专家赵宇

云运维的四大挑战

随着云测算的普及和发展,越来越多的企业选择上云。近年来,阿里巴巴的经济已经全面融入云端,云上运维与大多数企业遇到的问题类似。总结起来主要来自以下四个方面:

服务器运维_运维项目服务巡检报告_运维服务管理体系建设

首先,存在规模问题。传统的 和脚本管理方法在资源少的情况下运行良好,但在规模较大时就失败了。几十台机器和几万台机器的人肉管理是完全不同的概念。此外,云上资源的种类不断丰富,云上资源管理和运维的复杂度呈指数级增长。

第二,安全问题。阿里巴巴经济云迁移涉及数百个业务方,涉及众多运维人员。如何更好地控制权限、审核和批准既复杂又极其重要。数据和资源是公司的资产。过多的运维权限会增加出错的风险,而过少的权限会增加管理成本。如何安全地使用云账号和资源给管理者带来了极大的挑战。

运维项目服务巡检报告_服务器运维_运维服务管理体系建设

第三,效率问题。随着资源规模的缩小,如何高效地管理运维,提高开发者的效率,也是云运维必须考虑的问题。

第四,成本问题。业务方对成本优化的需求很大,包括资源用户和财务人员。希望也能提供不同维度的资源使用账单,为成本优化措施提供依据。

运维服务管理体系建设_服务器运维_运维项目服务巡检报告

我们知道,在传统方式下,专门的资源运营团队负责资源的配置,项目开发团队只负责资源的使用。而随着业务规模的不断扩大,这些管理方式基本不可行。这时候,基本的配置管理权限就必须通过去中心化的方式交给业务项目组,而这些运维模式的改造会影响到企业云。资源管理也带来了挑战。

实际上,阿里经济云运维也经历了人肉运维到标准化、数据化、流程化运维的过程。直到2016年,内部云资源管理平台“宙斯运维系统”原型基本制作完成,实现运维能力和体验的标准化、流程化、系统化。随着资源管理规模的不断扩大和需求的多样化,宙斯运维系统立即接管了云上资源的管控。

如何高效运维数十万台云服务器?

目前,宙斯运维系统管理着阿里巴巴集团内数百个业务方的20多种云产品和资源,包括数十万个ECS实例。除了为各业务方提供资源管理和运维能力外,还提供成本剖析和补救能力。

运维服务管理体系建设_服务器运维_运维项目服务巡检报告

图:宙斯运维平台整体架构

服务器运维_运维服务管理体系建设_运维项目服务巡检报告

一般来说,宙斯运维平台包括五个模块:资源管理、系统运维、应用运维、监控管理和成本分析。向下通过控制台为业务方提供服务,向上依托阿里云平台的云监控、资源编排、运维编排、标签系统、弹性伸缩、运维通道、财务系统管理日志服务和云服务器,网络、对象存储和许多其他云资源。

账户管理

运维项目服务巡检报告_服务器运维_运维服务管理体系建设

由于历史原因,宙斯运维平台支持独立大账户和托管账户两种账户模式并存。独立大账号是阿里云平台宙斯系统运维平台的服务账号。账户管理着业务方的大量资源。业务方将所有运维功能托管给 Zeus。由于它可以减少很多后期工作,所以它是独立的。大客户是我们推荐商务聚会的方式。另外,由于是服务账号,不允许业务方直接登录,业务方只能通过崩溃入口进行操作,降低了操作出错的风险。

对于托管账户,是宙斯运维平台之前的存量运维账户。为了帮助业务方更好地管理这个股票账户,宙斯运维平台提供账户托管服务。该股票账户被授予宙斯服务账户的管理员权限,由于托管账户的主子账户与集团的登录系统相连,运维人员可以直接登录管理。

权限管理

服务器运维_运维项目服务巡检报告_运维服务管理体系建设

权限管理的主要思想是对应用程序进行分组。应用分组用于按角色区分权限,并将角色分配给相应应用中的人。

我们赋予应用Owner、开发、运维、安全等角色,对不同的角色赋予不同的权限。 Owner角色拥有应用下资源管理的神圣权限,同时负责审批工作;开发者负责日常的CI工作,以及日常和发布前的环境测试工作;运维人员具备在线发布和审批能力;安全人员主要负责系统运行维护工作,包括安全扫描、扫码等安全工作。

运维项目服务巡检报告_运维服务管理体系建设_服务器运维

这里所有的云资源都通过标签附加到相应的应用程序上。通过这样的权限管理,管理员不仅可以在人的维度上看到有权限的应用,还可以在应用的维度上看到。授权人。

资源分组

服务器运维_运维服务管理体系建设_运维项目服务巡检报告

Zeus运维系统基于阿里云的标注系统,支持按部门、环境等多维度对资源进行分类,Zeus运维系统对创建的资源进行相应的标注,方便业务各方进行资源搜索、管理和运维,通过标签管理模式,可以很好地对无序资源进行运维和监控,甚至可以进行资源核算。

对于托管账户,可以通过API进行操作,系统可以解析离线云监控消息通知,从而按照一定的规范设置业务方的标签,窃听数据变化后, 会同步到 Zeus 和 CMDB。

资源交付

运维服务管理体系建设_运维项目服务巡检报告_服务器运维

对于资源交付来说,最大的挑战是云资源部署在多个区域和类型。阿里云平台目前拥有数百种资源类型。如果每个资源都通过写代码和API来操作,会很复杂,效率低下。而且,大部分业务场景都不是单字符下发,如果一个一个组合起来,时间会很长。业务端通常需要基于场景的交付。大多数业务场景都有一个规范化的通用范式,通过场景化交付可以极大地改进资源交付形式。

对于这种基于场景的交付需求,虽然一开始是用脚本来操作的,但是耗费了大量的精力和人力,效率也比较低。 Zeus运维系统为了应对各种类型的资源分配场景,引入了机制进行资源调度,开源也是同样的思路。

运维服务管理体系建设_运维项目服务巡检报告_服务器运维

这里宙斯运维系统使用阿里云提供的ROS资源编排工具,引入群审批流程来规范和处理资源部署。 Zeus运维系统为常见场景下的具象成本资源安排模板,通过模板实现一键一键场景下发资源,极大的提升了我们的资源下发效率,降低了新资源的访问门槛。

运维管理

服务器运维_运维项目服务巡检报告_运维服务管理体系建设

从运维工作的类型来看,运维也是分层的。系统级的补丁管理、安全扫描、安全防护等能力是平台的能力,业务方不需要关心。 Zeus运维系统将这个能力可视化,提供统一的管理机制。

在应用层面,主要涉及资源运维和CI/CD。 Zeus运维系统应用资源运维,将常用运维动作可视化为运维编排模板,使用阿里云运维编排服务进行工作流编排,定义常用运维场景,支持业务侧自定义运维操作。这样,运维过程就可以积累和复制。此外,借助底层能力,支持定时、告警、事件触发运维操作,进一步提升运维操作效率。

在CI/CD部分,宙斯运维系统主要采用阿里巴巴集团的Aone(云效)系统,支持基于软件包和镜像的批量发布服务器运维,并允许自定义操作。

监控警报

运维服务管理体系建设_服务器运维_运维项目服务巡检报告

从信息源的角度来看,告警和监控可以分为资源监控、应用监控、业务监控。级别越高,监测报警的准确率越高,但普遍性越低。 Zeus运维系统实现了多种告警处理方式。通过与监控系统的集成,通过邮件、钉钉等信息分组联系人进行告警分发;对于手动场景,通过连接弹性伸缩和运维编排触发手动操作,实现手动运维工作,完成手动闭环。

运维服务管理体系建设_运维项目服务巡检报告_服务器运维

诊断与修复

运维服务管理体系建设_服务器运维_运维项目服务巡检报告

随着越来越多的资源和服务被使用,内部业务方就ECS实例和网络等问题进行咨询的次数与日俱增。为了提高解决问题的效率,运维平台也必须具备证明自己清白的能力。 因此,通过与阿里云内部ECS、网络、操作系统等团队共建,借助历史数据生成案例库和知识库,再加上专家经验,积累了诊断和修复能力,一键诊断。帮助业务方快速定位具体问题。针对一些常见问题,将常用的打补丁脚本可视化,提供一键打补丁能力。

以ECS实例为例,通过对实例的监控,我们可以诊断和定位问题的根源。同时服务器运维,我们提供自动补丁解决方案。同时,我们还提供使用运维编排的一键手动打补丁能力。此过程支持快照回滚。 通过这部分的建设,我们日常值班的服务量大幅增加。

成本管理

成本管理的主要目标是成本优化。很多业务方申请了很多云服务器资源,发现虽然有些机器用处不大或者CPU使用率比较低,但是这样就造成了资源的浪费。 Zeus运维系统通过成本管理的建设,将成本管理意识传递给业务方,推动业务方完成成本优化。

在成本管理的思路上,我们主要通过事前的卡点和活动期间的分账能力来实现。首先,在申请资源时做一个审批卡点。如果申请的资源量很大,会提示询问资源申请是否合理;然后,在资源使用过程中,借助标签和应用分组能力,对资源进行分组。使用费用平均分配给相应的部门和项目组,并定期向业务方提供账单。财务部门根据部门对账单进行分析,确定哪些项目是入不敷出的,同时也提示业务方优化资源使用。 比如是否切换到弹性伸缩来优化成本,调整资源分配大小进行优化等,从成本的角度推动业务方进行优化。

总结

服务器运维_运维服务管理体系建设_运维项目服务巡检报告

本文主要介绍在阿里巴巴经济上云的过程中,宙斯运维系统如何高效管理云上资源的经验。供在云运维中遇到同样问题的运维人员参考。

上一篇:俗话说站在巨人的肩膀上能让你站得更高

下一篇:设备管理系统运维管理人员需要掌握哪些软技能吗?|免费试用

发表评论:

评论记录:

未查询到任何数据!

在线咨询

点击这里给我发消息 售前咨询专员

点击这里给我发消息 售后服务专员

在线咨询

免费通话

24小时免费咨询

请输入您的联系电话,座机请加区号

免费通话

微信扫一扫

微信联系
返回顶部