了解最新公司动态及行业资讯
阿里巴巴的运维系统经历了脚本时代、工具时代和时代,目前正在实现人工运维和探索智能运维阶段。 2008-2009年,阿里巴巴的运维还处于脚本时代,大量的运维工作需要通过脚本来实现。 随着业务规模和复杂度的扩大,脚本的形式越来越难以维护,于是阿里巴巴开始引入运维工具。 在运维工具时代,阿里巴巴的运维体系经历了:从工具团队和运维团队并行的阶段,到工具团队为了更好的保证质量的阶段的工具,然后到部分软件有想法和功能的工具组阶段。 终于,阿里巴巴的应用运维团队迎来了一次大变革。 原有的应用运维团队全部解散,并入各业务的软件开发团队,全面推进思想。
进入阶段后,成熟的流程化运维工具实际上提升了部分运维效率,而且各个工具实际上是独立分离的,比如监控工具和运维工具分离,巡检工具和快速恢复工具也是碎片化的,导致在日常应用的持续运维过程中,从监控到问题发现、定位、快速恢复的环节漫长且效率低下。 对于运维开发,期望的状态是业务应用上线后可以“NoOps”。 监控和运维系统可以自行检测异常并手动解决,使应用和业务恢复正常。 处理完成后,发送消息通知下载即可。 发力于“NoOps”方向,阿里巴巴应用运维开始构建“管控一体化”体系。
新的挑战
随着阿里巴巴业务的不断发展和技术架构的不断变化,新的场景和问题不断涌现。 这种以应用为中心的监控运维带来了新的挑战。
超大规模
阿里巴巴不仅业务种类多,体量大,尤其是一年一度的淘宝双11大促,需要超大规模IAAS资源的支持。 2015年之前,阿里巴巴每年都要花费巨资订购服务器,建设一代又一代的IDC数据中心; 2015年到2019年it运维技术,阿里巴巴正处于全面云化的过程中。 这期间,阿里巴巴的基础设施一部分在云下的数据中心,一部分在阿里云上的数据中心。 还需要支持同城多活到异地多活,所以需要有强大的cloud-on-cloud整合超大规模资源管理的能力; 阿里巴巴在2019年实现全面云化后,开始面临一个全新的超大规模资源管理场景:混合云。
运维效率
业务发展瞬息万变,尤其是公司的重要业务,迭代变化的速度非常快。 在超大规模集群管理的前提下,为保证业务的连续性和快速迭代,我们需要能够持续高效地实现应用的发布、部署、配置变更等运维变更。 这是持续运维领域要解决的问题。
运维安全
安全是任何行业的基础,尤其是IT运维领域。 系统宕机、数据异常、数据丢失、数据库删除、逃逸等运维故障和风波层出不穷,可能给企业带来致命打击,甚至影响企业生死存亡。 为此,预防和遏制高危运维故障仍是不懈追求的目标。 在当代众多业务形态和云技术架构下,如何保障企业IT运维的安全运行显得尤为重要。
业务连续性
在阿里巴巴传统的监控运维模式中,应用的运维开发需要在监控系统上配置一些监控项和预警规则。 当监控项触发告警规则时,运维开发会收到告警通知。 然后运维开发需要打开记事本,在运维工具平台创建相应的处理工单。 运维系统工单执行完成后,运维开发要继续观察监控项是否恢复正常。 节假日、节假日收到预警通知,不能及时上线查看情况,需要联系其他团队成员上线处理; 如果你在晚上睡梦中收到预警通知it运维技术,你需要立即唤醒大脑,打开笔记本上网。 . 整个预警异常处理过程持续时间长,需要人工参与的任务多,人工成本高,使得运维开发的工作幸福感很低。
另一方面,随着业务的不断发展,系统也在不断减少,监控项和预警也在快速增加。 渐渐地,运维开发会僵化或轻视预警信息,很容易遗漏一些重要的上报信息,导致线路故障。 生意失败。 近年来,天猫直播、盒马线下门店、饿了么订餐、钉钉在线教育等新业态蓬勃发展。 这类业务基本上对生产故障零容忍。 原有系统最好的99.99%可用性早已无法满足新业务的要求,而传统的监控、运维、单打独斗的模式,更难以满足100%业务连续性的要求。新服务。
解决方案
为保障生产业务的持续运行,提升业务系统从异常预警到异常恢复的整体效率,在保障安全的同时降低人力成本,我们考虑将监控预警与运维执行合二为一,并然后实现异常人工检测、自动快速定位、人工快速恢复的目的,实现应用运维的“NoOps”状态。
在应用监管一体化建设之前,传统的监控和运维处于分离状态。 运维开发如果想在应用的迭代变更过程中关注系统运行状态,需要提前在监控平台上定义和配置应用的关注度。 各项指标。 在应用变更期间,需要持续主动查看应用监控指标的变化情况,或者为各个指标设置预警规则,通过订阅接收配置的监控报告,及时获取应用运行异常情况。 当应用变更出现异常上报时,运维开发需要通过查看监控、应用日志、应用调用链接等信息分析异常原因,决定需要对运维执行哪些任务和维护平台恢复,最后验证任务执行结果是否符合预期。 为此,明确需求->配置监控指标并上报->分析异常原因->决策处理方法->执行任务->验证执行结果,整个过程需要运维开发的介入。
解决方案
以保障业务连续性为动力源泉,在逐步深化监管融合的过程中,阿里巴巴从实战经验中积累了一套业务系统安全工程标准,实现了业务异常的早期发现,自动定位,快速回收。 联创在监控、运维、安全防护等领域探索了多元化的解决方案。
安全
在推进的过程中,我们要求的底线是不要给现有的情况带来更多不可控的激励,尤其是高风险场景的保护,不要因为运维工作交接给运营造成全局性的系统性问题和维护开发人员。 风险,所以安全防护方案应运而生。
全景监控
监控是运维的基础。 传统的资源监控或应用监控模式早已无法满足运维发展快速发现生产故障的需求。 基于阿里巴巴大规模实践,我们开发了以应用为中心,从底层业务到PaaS再到底层资源的全链路监控解决方案,为业务异常检测和定位提供有力支撑。
多元化运维
为实现监管一体化,促进业务异常快速、人工恢复,应用运维从原有的以应用为中心的可编排运维、智能运维等运维模式探索单风暴执行模式,打通运维。 维度领域的新视角。
总结
阿里巴巴应用运维管控一体化建设随着业务形态和技术架构的不断探索和发展。 本文主要介绍应用运维监控一体化建设的背景和思路。 我们以应用为中心,从应用监控管理的角度,通过全视图监控实时掌握应用的运行状态,通过高效的发布部署和灵活的运维安排对应用进行安全变更,实现它通过智能运维和安全防护对应用进行中层保护,我们会在后续章节为大家详细展开。
【关于云霄】
云效,云原生时代一站式平台,支持公有云、专有云、混合云多种部署形态。 通过云原生新技术、新开发模式,推动创新创业、数字化转型企业快速实现开发敏捷和组织敏捷,打造“双敏”组织,实现效率10倍提升。
立即体验:阿里云云效_云效_云原生时代新平台-阿里云