了解最新公司动态及行业资讯
传统的 IT 运营无法以现代云原生软件交付率运行。因此,站点可靠性工程 (SRE) 在整个行业中越来越受欢迎。最初开发的 SRE 与过去的 IT 运营完全不同,因为它专注于 bug 预算、由 bug 预算驱动的团队间关系、一切即代码以及 SRE 团队的能力。
以下是小型企业可以利用 SRE 的方式,以及它对领导者和实践型经理的 IT 运营的影响。
1.让软件工程师设计 ITOps
SRE 团队的成员要么是拥有丰富运营知识的软件开发人员,要么是拥有强大软件开发技能的 IT 运营人员。无论哪种方式,软件都是 SRE 团队用来解决问题的技巧。
IT 运营的软件优先方法有时会延伸到开发团队的角色。如果负责特定应用程序或服务的 SRE 团队发现它花费了超过 50% 的时间来自动化解决软件中的问题,则开发团队必须填补这一空白。
根据客户可靠性工程师的说法,这是由以下人员完成的:
当操作负载反弹到 50% 或更低时,所有重定向都将结束。
为此,如果开发团队生产的软件在 SRE 团队的 50% 平衡范围内无法运行it技能服务,则开发团队必须承担运营任务并帮助修补它们,并了解运营方面的需要。在利用 SRE 的技能和保留开发团队对软件的运营责任之间,这是一个高度自律的平衡。
2.严格关注错误预算和 SLO
SRE 方法的核心是 SRE 团队正在运行的应用程序或服务的 SLO。服务的产品总监必须选择适当的 SLO,以便在可能的停机期间有足够的余地来解决不可预见的问题,同时以用户期望的速度交付功能和更新。
3.将 ITOps 视为价值中心,而不是成本中心
SRE 是一项高技能的活动,SRE 专家供不应求。甚至努力招募 SRE。深厚的技术技能和以客户为中心的 SLO 和错误预算的不同寻常的结合意味着试图增加 SRE 团队的成本并不是明智之举。
为此,采用 SRE 的企业必须停止将 IT 运营视为降低成本的项目。相反it技能服务,他们必须将 IT 运营视为一个价值中心,可以帮助公司避免停机并最大限度地提高收入和服务可用性。
4.让 SRE 快速启动云原生 IT 运营
对于开始转向基于云的平台和交付模式的企业来说,人工和团队责任的一系列选项可能令人生畏。各种不同的处理方式可能会令人不安,部分原因是上下文对这些不同选项的有效性有巨大影响。
SRE 模型提供了一套适合小型组织的清晰、具体的实践和团队动态。如果您所在的企业需要快速从更传统的设置迁移到云原生 IT 运营,那么采用 SRE 可能效果很好——尽管只有正确采用它,而不仅仅是重命名现有团队。
通过采用 SRE,您也许可以避免其他交付模型在组织上的尴尬,但要注意这些笨拙的实现,它们不能完善必要的、有意的职责平衡。
SRE 是一种针对大型云原生软件系统的 IT 运营的特定方法。 SRE 模型使用 SLO 和错误预算在开发团队和 SRE 团队之间建立健康高效的交互,以平衡新功能的速度与使软件可靠所需的所有工作。
因此,SRE 需要特殊技能才能成功,以及团队之间的强大信任。 5月19-20日,全球运维大会北京站前夕,SRE(Site )课程即将开课!
本课程侧重于 SRE 的发展及其未来方向,并为参与者提供实践、技术和工具,以使整个组织的人员参与可靠性和稳定性,并通过使用真实场景和案例进行案例研究来进行演示。完成课程后,学生将返回公司专注于了解、设置和跟踪服务水平目标 (SLO) 等内容。
本课程帮助学习者成功完成 SRE 认证考试。
课程受众
SRE 课程的目标受众是专业人士
任何对更高可靠性和甜度感兴趣的人
任何对 IT 领导力和组织变革的现代方法感兴趣的人
SRE 工程师
业务总监
业务利益相关者
顾问
练习
IT 总监
IT 总监
IT 团队负责人
产品负责人
Scrum 大师
'/>
软件工程师
系统集成商
工具提供者
_
教学大纲
课程介绍
模块 1:SRE 原则与实践
模块 2:服务水平目标和错误预算
模块 3:减少努力
模块 4:监控和服务水平指标
模块 5:SRE 工具和手动化
模块 6:反脆弱性和从失败中学习
模块 7:SRE 的组织影响
模块 8:SRE,其他框架
课程目标
SRE 课程的学习目标包括实践和理解:
SRE课程详细课程咨询: