了解最新公司动态及行业资讯
关于作者
四川IT公司总工程师李立峰。
福建IT公司数字化运维研发团队负责人彭华生。
随着联通互联网、大数据、云测算、人工智能等数字技术的快速应用,期货公司正围绕“提升客户体验、加速商业模式创新、提升能源”的核心价值创造加速数字化转型。和运营效率”。对于资本市场而言,数字化转型是一场以金融科技创新和技术能力为核心的竞争。金融科技战略是通过数字技术赋能公司的业务运营、运营管理和商业模式转型。在实践中,技术线需要围绕公司转型战略构建可持续的IT能力体系,以螺旋方式推动IT能力的持续提升。,
在推进中信期货数字化转型的过程中,信息化部积极推动组织、流程、场景、技术平台的数字化转型,更好地实施金融科技战略。结合产业期货在IT运营数字化转型中的探索和实践,本文重点介绍了数字化运维能力建设的经验,提出并分享了一种“OPSP+OADS”的IT运营数字化转型方法。
一、概览
1、围绕公司的核心价值观递归交付价值
数字化转型是一个自上而下逐步细化的系统工程。有序推进数字化转型,要瞄准期货公司数字化转型的核心价值,“提升客户体验,加快商业模式创新,为经营增能增效”。创造逐渐从公司传递到各条线部门和执行团队的变革价值体系。我们觉得这种价值创造的传递过程是一个“递归传递”的过程。“递归传递”的方法来源于计算机的“递归算法”,即将整体问题分解为规模缩小的相似问题,然后逐步解决递归调用。递归算法的关键在于,整体目标的实现是不断分解,通过具有相同目标的细分方法来实现的。将价值转移应用到数字化转型中,需要采取“统一顶层规划设计,功能性腰线分布式推广”的策略。
在数字化转型战略规划层面,自上而下从公司角度统筹规划,确保资源安全;在执行层面,为了提高敏捷性,需要根据公司的愿景和核心价值链,引导各个职能腰线,细分部门的愿景和价值主张,然后采取自下而上的策略(解决分治任务),递归分解为具体的业务生产经营管理流程。在评估数字化IT风险管理体系时,我们按照从公司到IT,再到IT到运维的流程,总结出变革的关键词和运维的价值创造。
为确保数字化转型的有效实施,我们总结了“连接、数据、赋能”三个数字化转型关键词,指导数字化场景的实现。其中,连接是指在公司内在线构建一个实时交互的多角色协同网络,包括人、软件、硬件、机器人等;通过在线数据分析,有效控制协作网络中的诸多连接,让管理者更好地感知协作效率和可能的运营风险,协助管理决策,让企业更好地感知客户体验、业务运营,快速响应业务需求; 人们既是协作网络的设计者,也是参与者,
围绕期货公司的价值创造“提升客户体验、加速商业模式创新、提升运营效率”并递归传递给IT,我们认为IT团队应重点打造以下六大能力:
要将IT价值进一步递归传递到IT下的产品、开发、测试、运维等功能领域,需要围绕上述六大IT能力创造价值。以运维最后一道防线为例,可以转化为围绕“提升IT风险防护能力”、“加快业务交付速度”、“提升IT运营服务质量”、“提升IT运营服务质量”四点。改善客户体验”以推动 IT 风险管理。技能建设。
2、构建“OPSP+OADS”数字化转型途径
从我们以往的数字化实践经验来看,数字化转型的运营管理框架是由“组织()、流程()、场景(场景)、平台()”组成,从公司系统、部门系统,到团队/集团系统。它由四个部分组成(见图1),我们简称为OPSP。在OPSP的系统架构中,组织重点围绕组织文化、组织架构、岗位设置、个人能力等进行数字化管理能力建设。通过数字化思维重构流程,工作流程、线上系统规范、管理领导、协作模式、资源配置等,场景是连接线上工作“人、事、时间、协作、环境” 实现能源的提升和效率和智慧的积累。需要建立有效的技术控制机制,确保在合规和风险控制的基础上,提高业务和运营管理的效率。该平台是支持组织、流程和场景数字化的技术基础。
图1:OPSP数字操作系统架构
“客户服务、连续性保障、快速交付、生态扩张、IT服务、运营协同”技术线的六大IT能力是一个螺旋式的持续改进过程,以应对外界不断变化的复杂性和不确定性. 能够在高速行驶期间更换车轮。为保证IT能力建设方向的准确性,需要建立可衡量的变革绩效指标,引导职能领域保持统一方向。因此,我们以“在线()、自动化()、数字()、服务()”作为评价维度来衡量场景数字化改造的成熟度(见图2)it运维,简称OADS )。
其中,“线上”强调线下工作的线上化,输出为落地数据资产;“自动化”强调人机协作,机器代替或协助人做重复性、操作性、规律性的工作;“数字化”强调利用数据资产的变现,即更全面、实时的“洞察、决策、执行”能力;“服务为本”强调技术的开放和能力的输出。以OADS为中心,在管理和平台建设方面,我们要求团队通过迭代的方式不断梳理和丰富工作场景,通过不断引入或迭代更先进的平台,逐步提升场景OADS的水平,
图 2:OADS 的数字化转型绩效评估维度
二、“OPSP+OADS”的探索与实践
技术系统和方法的数字化转型在不同领域有着相同的目标。数字化转型涉及方方面面,包括完善数字文化、构建敏捷组织、加强数字驱动意识培养、人才培养、技术平台建设等。本节重点介绍使用技术平台支持数字化转型的实施,并以在技术平台上实现运维为例,介绍“OPSP+OADS”的方式。在IT运维、测试等不同领域的数字化转型过程中,我们发现不同领域的数字化转型在技术平台建设上的目标是一致的,即公司“ 价值主张以递归的方式传递到技术线,然后从技术线传出。运维、测试等具体领域能力建设,借助数字思维“连接、数据、赋能”三大关键词,构建“组织、流程、场景和平台”。支持以“线上化、自动化、数字化、服务化”为场景成熟度评价标准,支持公司客户体验优化、业务敏捷创新、运营管理精益高效,迎接数字化挑战与机遇。运维、测试等具体领域能力建设,借助数字思维“连接、数据、赋能”三大关键词,构建“组织、流程、场景和平台”。支持以“线上化、自动化、数字化、服务化”为场景成熟度评价标准,支持公司客户体验优化、业务敏捷创新、运营管理精益高效,迎接数字化挑战与机遇。运维、测试等具体领域能力建设,借助数字思维“连接、数据、赋能”三大关键词,构建“组织、流程、场景和平台”。支持以“线上化、自动化、数字化、服务化”为场景成熟度评价标准,支持公司客户体验优化、业务敏捷创新、运营管理精益高效,迎接数字化挑战与机遇。
1、数字化运维概览
面对VUCA复杂的数字化运维世界,运维面临着如何支持公司在高速行驶中换轮的挑战。一是让“相对稳定、更准确可预测的场”演化为更适合、更可持续的数字时代。第二个是适应和授权企业变化的能力,以不断探索、创新、管理不确定性并保持敏捷。有效落实“提升IT风险防护能力”、“加快业务交付率”、“提升IT运营服务质量”、“提升客户体验”四大价值观,需要从系统架构、流程机制入手、组织能力、平台建设、
1)用OPSP构建数字化运维系统
基于OPSP的数字化运维系统能力框架包括四点(见图3)):
图 3:基于 OPSP 的运维能力框架
2)以OADS推动数字化运维系统成熟
基于OADS方法论的运维场景成熟度评估是为了适应机器和系统架构复杂性的不断变化,包括四点:
结合OADS成熟度方法,我们围绕“人、事件、时间、协作、环境”五要素,梳理了221个运维场景子项(见图4))。从动作上看,场景主要包括:动乱应急响应、变更发布、服务管理、监控处理、巡检操作、值班管理、数据操作、配置管理等。场景从四点比例判断各个阶段成熟度的“线上化、自动化、数字化、服务化”。
图4:运维数字化场景成熟度图
确保数字化运维的正确方向,所有场景的落地都需要建立在运维四大核心价值的创造之上。让我们专注于有限的资源做更多有价值的事情。例如,图 5 以“提高 IT 风险防护能力”为中心。“本次价值创造的场景图。围绕场景图,流程总监带头优化流程机制和操作流程,应用运维优化业务连续性保障的可观察性和应急保障能力,开发和运营运维研究团队落地场景的运营推广,
图5:围绕“提升IT风险保障能力”价值的运维数字化场景图
2、数字场景示例:应急管理场景
运维场景是每个运维团队积累的宝贵知识。不同企业的运维团队场景不同。这些场景融合了团队在组织、流程和平台方面的智慧。数字化运维需要用“连接、数据”、“赋能”的数字思维重新场景化运维沉淀的智慧。以IMS(风暴管理)应急管理场景为例,它是我们数字化运维场景中跨越所有时间段的运维场景之一,是“提升业务连续性价值”的关键举措. 随着新技术的引入,业务逻辑越来越复杂,软件迭代率的提高,以及日益严峻的外部形势,影响业务连续性的激励因素越来越多。我们用鱼骨图来梳理影响业务连续性的激励因素(见图6).
图 6:影响业务连续性的激励措施剖析
基于以上复杂的影响因素,我们构建了应急管理场景。该场景由故障预防、故障检测、故障响应、故障定位、故障恢复、审查改进六个环节组成。整合应急协调组织、应急流程、“监督、控制、分析”平台能力,通过“数据、连接、赋能”的数字化思维构建应急响应场景。
图 7:故障管理闭环循环
1)用“数据驱动”重塑紧急情况
①数字感知提高可观察性
故障发生后,运维专家需要必要的信息来提高可观察性,协助专家进行应急决策。
完全数字化的业务和系统状态感知看板可实现紧急洞察。提前建立应用系统主要运行指标和细分运行指标的实时数据,包括:关键时刻的系统状态、业务性能状态、业务日志状态、组件状态、依赖状态、基础资源状态、前一天的变化信息状态、系统缺陷列表信息、相关移动性指标等指标信息。业务和系统感知的数字看板将成为我们应用系统运维的标准输出。
同时促进相关上游和下游系统的同时分析。关联业务一般包括上下游业务和后端渠道影响两类。两种方法用于技术实现。一是提前规划关联系统运行状态的数据可视化看板;另一种是建立协同在线任务。拉起IM应急群,将需要确认分析的信息推送给上下游领导。根据CMDB关系数据获取系统的上下游关系。
感知客户和行业动态。提前搭建业务动态信息的客户反馈渠道和在线数据采集能力。技术实现包括在应用系统或客户端减少客户反馈信息功能,在线汇总客户服务反馈、IT服务台、终端拨号测试工具、现场客户端。验证等信息,并在线整合相关信息。
②不断提升数字化流程建设能力
往年发生异常后,主要依靠运维专家的经验,以及现场IMS主管和值班主管的临时决策,推动故障恢复。生产故障发生后,应急现场高度紧张,经验驱动形式容易出现关键步骤遗漏、协调不力、执行不力等风险。建立数字化应急管理场景,首先是处置流程在线化,即通过最佳实践,步骤固化在线化,组织(承办和配合人员)、流程(处置流程机制)、平台(监控发现、自动化)是集成的。操作、数据看板等),通过人工、数字等方式降低TTR。二是数字化效率和在线应急场景,实现检测持续时间(MTTI)、平均故障响应时间(MTTR)、平均故障定位时间(MTTK)、平均恢复时间的数字化从故障(MTTF)到实现IMS应急响应的效率。可观察的。
同时配合实战训练,可以观察到应急情况,是否可以围绕MTTI、MTTR、MTTK、MTTF设置处置时限,手动提醒超时环节,帮助值班主任和前线线路运维构建故障处理的紧迫性,做到以实战练习处理技巧。最后,数据驱动不断提升,引入机器人监督和处理事件,事后评估提示应急效率分析。
2)在线“连接”人物、事件、时间、协作和环境与场景
场景设计结合用户旅程、客户价值主张、设计思维等方法,围绕人、物、时间、协作、环境五要素生成解决方案。具体要素如下:
3)平台“赋能”运维专家应急响应
要有效减少应急管理过程中TTR的时间,需要通过工具平台,夯实机制,优化操作流程,培养人员能力,赋能运维专家。该平台使专家能够专注于以下项目:
①人机协同,让应急专家与小事分离
目前大部分故障需要多个团队共同处理,不同级别的运维人员也会造成战机延误。因此,我们要求在确认故障后,按照“先申报后处理”的程序进行。在场景中,我们将在线进行申报。申报后,风暴机器人将从CMDB获取故障涉及的运维、研发、测试、值班主管、IMS主管等利益相关方,手动通知,并围绕故障生成协同组。,并将故障处理信息实时推送到协作组。机器人的引入,让应急人员1分钟内发布故障信息,提升并行处理效率,
②“数据+机器人”建立平台管理模式
往年应急管理中,现场管理主要以值班主任和职能主任为主。很容易错过事情。有必要将管理方法集成到平台中。例如,以减少故障检测管理为例,目前主要依靠提高监控覆盖率和增加上报响应时间。一方面,构建监控和报告覆盖的数据运营,包括事后回顾、跨团队、跨系统垂直排名等;另一方面,实时监测监测风暴响应的及时性。由于不及时接受和监控而导致战斗机延误的风险。
③工具赋能定位与恢复
数字化提高了应急计划的有效性。从场景、预案、策略、操作序列的思路,构建在线应急预案工具,引入乐高式可拼装应急策略、应急机器人等能力,解决“内容多、难匹配,不保存”在之前的WORD版计划中。和其他问题。
提高问题定位效率的工具。使用业务运营看板、统一日志工具、自动化巡检、最小粒度可用性看板等工具辅助定位问题,特别是在出现复杂故障时,相关方可以使用工具并行分析,避免集中在部分专家身上。
提升应急沟通效率:通过线上规划策略,提升应急沟通效率,如当业务影响满足监控和报告要求时,主动通知安全团队进行监督报告it运维,通知客服和业务部门制定客户说明,建立行业动态的沟通渠道,实现在线反馈,由指定团队实施。
总体而言,在数字化应急管理场景下,围绕OPSP构建了岗位角色、工作流程、操作流程、工具平台等,并落实了OADS四个指标中“线上化和数字化”两个成熟度等级. 维度建设,在“自动化”成熟度维度,主要引入机器人加强协作。下一步将在生产系统和机器上加强人工操作,引入智能手段搭建机器人阵地,让机器人在现有的“重复”中发挥作用。在应急响应的基础上,做更多“具有挑战性”和“复杂性”的决策和执行层面的工作。
三、数字化转型技术平台建设方法推广展望
综合前面的例子,我们认为在数字化转型的技术体系中,除了技术线之外的其他中后台运营线也可以借鉴“OPSP+OADS”的方法,即结合核心价值公司转型的递归传递方式将公司的价值主张传递到你所在的职能线,根据用户旅程、客户价值主张、精益创新、设计思维等工作方式重构现场工作场景。在推进数字化场景的过程中,以“OPSP+OADS”为方法论,以“连接、数据、赋能”三个关键词指导具体措施,构建线内数字化转型框架模型,
作者:李立峰、彭华生
来源丨公众号:上海证券交易所技术服务(ID:SSE-)
社区欢迎技术人员的贡献。提交电子邮件:
更多精彩内容
社区最后一期直播【话题接力丨云原生下 SRE 的演进】将于 6 月 8 日晚 20:00 播出。社区邀请杭州联通SRE架构师——石俊定、B站基础设施部SRE系统负责人刘昊齐聚云端,希望通过汇集研究,为大家提供云原生SRE演进的参考和启示两位 SRE 专家的成果和实践经验。把下面的链接复制到陌陌,可以用小程序观看~
直播地址:
添加直播助手陌陌(),还可以获得加入SRE主题交流群等更多福利~
关于我们
社区是围绕AIOps的企业级专业社区。资深大咖,技术干货,每晚推送优质原创文章,每日在线技术分享,每月线下技术沙龙,季度&DAMS行业会议。