了解最新公司动态及行业资讯
之前我们介绍了农行在分布式系统环境下运维面临的挑战和困难,分布式运维的建设模式,分布式系统下运维工具的实施建议。但是,工具的建设并不意味着运维转型升级的成功。运维体系建设需要科学的指导思想和系统的建设理念。
本文以经典的运维系统概念——SRE为例。通过对SRE主要内容的分析,梳理一下SRE与运维开发的关系。同时,我们将通过对典型 SRE 落地案例的解读与大家进行讲解。 SRE在金融行业的落地经验。
01.SRE 主题演讲内容概览1)什么是 SRE
首先,我们来看看SRE的几个定义:
从单独的角度来看,源自 Goole 的 SRE 的定义更适合其组织。首先,它拥有强大的人才库。其次,经过大量内部实践,经得起考验。同时,由内而外的推进it运维,推动了这一制度的实施更加全面。但对于外企来说,全能型人才的稀缺和传统观念的固化,让这个定义并不那么成立。
从国外公司本身的角度,我们更倾向于第三种:从实践的角度来看,SRE的关键点就一个字:系统化,我们需要从全局的角度去更透彻的理解. SRE实际上需要多个团队、多个岗位来承担不同的职能,但每个团队可以相互配合,对外对接业务团队和产品团队,建立工具实现日常运维。
2)SRE 和关系
本质上,SRE 与 SRE 并没有太大的不同。它们都是从分布式、云原生、容器化、微服务等技术衍生出来的概念。我们可以将其理解为 SRE 核心概念的通用版本。相比之下,它更加具体,SRE是经过具体实践提炼出来的理论体系。
3)SRE指导思想和关键概念
SRE 有以下指导原则:
关于以上指导思想,我们可以把SRE的一些关键概念联系起来,让我们对SRE体系有一个更清晰的认识。
在关键概念上,主要分为四个层次
4)SRE职位/团队主要工作
了解了整个SRE体系的工作方式和技巧之后,具体的SRE团队在做什么内容呢?主要分为以下三只蓝筹股:
在这个过程中,我们可以得出下一个结论,即:运维模式/系统的下一站是SRE,运维技术的下一站是AIOps。
5)SRE 方法
在方法论层面,有以下几个重点:
02.SRE运维平台及运维开发1)运维管理平台:实现SRE运维开发的基础
SRE多次指出,运维组织需要参与运维工具的开发,才能实现SRE的变革。在工具的开发上,传统公司和互联网公司会有很大的不同。
因此,对于大多数企业来说,要实现SRE运维开发it运维,需要一个统一的基础——具备通用的能力和通用的开发框架,同时提供统一的资源管理和资源驱动能力。在此基础上统一管理上层资源,实现数据接入和能力扩展,下层通用能力框架实现工具化开发、可控增长,构建完整的平台化运维开发体系.
包括几个典型场景:
CMDB——SRE运维管理体系的基石,构建消费驱动、可见、可用、可信、可靠的运维优质CMDB,支撑运维发展改革。
可观察性 - 帮助 SRE 实现全链路跟踪和问题根源定位。根据平台建立trace、log、关联分析链接,实现数据统一处理。
手动编排引擎 - SRE 手动操作和维护的机会。人工场景的构建需要底层引擎的支持,调用基础能力建立下层人工体系,支持SRE工具能力的扩展。
03.SRE对金融行业的介绍1)落地案例分析
以国外某小型建设银行的SRE实践为例,其SRE落地过程有以下几个关键点:
①确定SRE落地的核心概念:
符合常年战略,提升运维自动化重复性工作,完善SRE团队,提升运维价值。
②组建SRE试点团队:
包括组长、轮值组长、业务核心技术人员,以及其他部门的助理,对应的人员从不同的团队中挑选出来,保证大家对建设目标有清晰的认识SRE 并为其做出贡献。
③SRE工作模式:采取和平与战争相结合的模式。
战时应急依赖于常用的施工工具、自动化能力、问题总结等,形成了平时与战时相结合的工作模式。
④SRE团队OKR:
团队OKR的制定与工作模式紧密配合。通过平时与战时结合,可以看到全景业务系统,可以管控应急响应,可以计算分析业务指标。同时,SRE团队建立了周会、月会、专题会三会机制,确保日常工作和特殊问题的快速处理。
目前,该行的SRE实践比较成功。其核心在于SRE团队的建立。一方面,开发商需要介入。核心业务人员必须懂发展,懂结构,有经营和维持发展的能力。另一方面,要有组织能力。将SRE建设目标分解为各个团队,实现人员之间能力的整合,形成系统化的组织,推动整个SRE流程。
此外,我们还对多家企业的SRE流程和实施实践进行了详细深入的分析,包括农业建设银行、腾讯、美图等,感兴趣的请点击了解更多!
2)经验分析
①SRE适合落地金融行业吗?
SRE 是一个系统化的过程。从组织架构,到文化推广,到工具的建立,到人员能力的提供,都会产生一个完整的SRE体系。
我们建议我们可以先专注于其中一个方向,例如将工具移近平台级别。同时,如果有余力,可以考虑建设一部分运维开发能力。除了组织能力,还可以适当培养,让它一步步走向SRE,而不是一飞冲天。
②如果要落地,需要注意什么?
主要有三点:
标准规范制定:标准化和标准化是完善系统的第一步。运维的标准规范必须与开发和业务保持一致。
具备软件开发能力:只有将运维需求转化为运维产品,运维产品最终实现为具体的工具和系统。
组织变革:SRE是运维和开发能力的结合。它需要一些懂开发的运维人员和一些懂运维系统的开发人员。运维和开发需要互相了解,然后结合对方的需求到自己的工作中。