了解最新公司动态及行业资讯
企业通过成熟的技术实施和实施IT运维管理。IT运维技术可以分四个阶段逐步落地:人工运维能力、平台化运维能力、数据化运维能力、智能化运维能力。相反,实现智能运维能力的前提是具备人工化、平台化、数据化的能力。企业应根据自身运维发展阶段和实际运维需求,分阶段实施相关技术能力。
一、IT运维业务面临挑战
随着中国联通“大联通”战略的深入实施,业务规模快速下滑,内外部竞争日趋激烈复杂,IT技术快速演进,联通内外部客户提升IT运营水平和维护公司信息系统部门的管理执行效率。精细化运营管理能力提出了更高的要求和挑战:
1.为适应新业务日新月异、日新月异的市场形势,中国联通提出“行节约、降本、增效”活动,引入人工智能技术,建立低成本和高效率的运营体系,推动“以信息代人”战略的实现,以在日益激烈的同质化竞争中赢得主动。
2.在2019年IT工作思路中,中国联通提出“以积极赋能和发展IT为主线,大力推进IT支撑向IT运营转变”、“着力提升智能化能力运维支撑、创新发展”等“能力”要求,明确了IT运维能力重点发展目标的方向。
3.随着信息部门系统的云化、容器化、中心化、微服务等架构调整,“系统架构与业务调用关系复杂,运维管理难度降低”的痛点"是针对这个运维系统的。还要实时跟进,不断调整自身发展规划,向“大运维、一体化运营、专业化业务、实践敏捷化、运营智能化、体验卓越”的理念演进,为生产系统提供更好的运维支持服务。
二、【痛点与难点】
· IT运维痛点:
运维系统重复建设;各域运维隔离,响应不及时;云化后的IT运维智能化程度不高,还在不断演进。
·5G时代ICT融合运维面临的挑战:
5G网元的控制平面和传输前馈,传统(2G/3G/4G)运维平台难以支撑5G网络资源的集中统一配置管理和运维;5G网络实现SDN提供的行业切片服务,现有运维平台无法实现端到端的部署、运维、交付;5G网络的多层编排协同,目前还没有可视化的运维管理;以及网络端到端的客户体验和智能运维;5G大量商用,缺乏实现网络故障预警、业务切换和故障恢复的AI手段。
三、【实践路径】
·智能运维系统
基于能力梳理和方向规划,提出1个愿景、3个核心、5个阶段、3个基石的“1+3+5+3”智慧运维能力体系。
(1)1愿景:IT运营创造价值是构建智能运维系统的根本愿景。
(2)稳定性与准确性、用户满意度和风险防范三个核心是智慧运维体系建设的三个核心价值取向。
(3)5个阶段:“初始阶段-标准化阶段-手动化/可视化阶段-中级智能阶段-中级智能阶段”是智慧运维体系建设中各项能力的演进路线。
(4)三大基石:岗位规划、文化修养、能力提升是智慧运维体系建设的三大基石。
·技术运营中台技术架构
(1)数据采集层:对于应用监控层面的采集,可以通过UDP合约传输、、Java等方式获取运维指标,对业务系统影响较弱,可以也可以通过自定义Agent、业务指标等形式建立和收集。
(2)数据处理层:Flink流处理作为数据处理引擎,首创提供低延迟、高吞吐、实时处理能力,为监控、智能分析等系统提供各种应用场景完善同时,对于常用的数据预处理、清洗、过滤等需求,Flink 还支持批处理等方式。
(3)数据存储层:各种数据根据需要和分工存储在不同的介质上,以达到最佳的效率和最佳的匹配效果。(4)数据通道层:基于Due针对运维工作和运维数据的特点,选用分布式发布-订阅消息中间件Kakfa作为通用数据通道,以其易于扩展、高吞吐的特点,实现各组件间数据共享和分发,可以实现微服务,是通过Kafka来实现的。
(5)微服务层:后台功能的微服务,根据业务监控、人工运维、应用配置管理、智能分析、日志管理等定义微服务的范围和边界,对外开放世界通过API 网段能力。
(6)API网段层:API网段采用框架,API网段负责对外提供统一的访问入口,对内提供合约聚合、路由分发、负载均衡、服务配置,以及为前端服务提供总线消息等功能,从而实现微服务的服务隔离、线性扩展和有效监控。(7)后端应用层:选择轻量级、高性能、组件化的框架后端,适用于这些基于数据的驱动WEB界面的运维。
四、【实际疗效】
·在人工和智能运维能力和运维场景的决策过程中,基于对风暴管理流程的回顾,构建了矩阵评价模型决策体系,同时对运营分析开发、上线、运维、优化环节的维护痛点。对相关指标进行跟踪管理,形成闭环绩效评价体系。上述系统实现了有限资源的科学合理利用,最大化运维能力it运维技术,场景建设效益。
·“微服务+能力开放”的Paas级平台,快速建立全球支撑能力。
·一站式自助配置的场景搭建,极大地解放了人工成本。
·实现运维场景“百花齐放”,成为降低运营成本、提高效率的催化剂,实现核心业务系统运维管理100%覆盖。
·团队软实力筑基,组织文化发展与科技创新形成协同效应
五、【实现IT智能化运维能力】
1.手动运维能力
日常IT运维工作中存在大量重复性任务。这些任务有的复杂冗长,有的严重依赖执行顺序,有的需要等待各种条件满足才能执行。虽然IT运维管理技术在不断提高,但实际上IT运维人员并没有真正得到解放。目前,很多企业的系统启动和关闭、系统更新升级、应急操作等大部分工作都是手动完成的。虽然简单的系统变更或软件复制粘贴升级,往往需要运维人员逐一登录各个设备进行手动更改。尤其是在云平台、大数据、海量设备的情况下,工作量可想而知。此类变更和检测操作在IT运维中每天都会发生,占用了大量的运维资源。通过手动操作工具,将运维人员从简单重复的工作中解放出来,降低误操作风险,带来系统稳定性、安全性和效率的提升。应用场景如下:
(1)日检手动化:日检内容简单但占用IT运维人员大量时间。日检人工巡检可以改变硬件状态、设备负载、系统时间、C手动检查磁盘空间、线路流量、数据库表空间使用情况、网络设备端口状态、流量等,生成符合用户要求的检查报告。
(2)手动配置管理:手动从生产环境中提取配置库信息,手动更新到配置库,保持配置库和生产环境的一致性。实现手动更新和同步配置库,需要对应用系统进行标准化,比如标准化的安装路径、统一的版本等,有利于工具提取应用配置项的基本信息,最终实现配置项和属性的手动更新.
(3)手动应用部署:使用手动平台图形化流程编辑器创建组件流程。根据平台提供的插件,可实现与流行工具的集成,快速部署逻辑无需任何编程即可定义 是 使用相同的流程将相同的应用程序部署到多个环境中。这进一步有助于节省时间和提高效率,以及早期验证应用程序和部署过程。手动平台的分布式代理模型可以扩展到数千个部署过程在每台机器上同时运行。
(4)容灾切换操作手动化:通过容灾操作流程手动批量实现容灾切换流程。通过双活数据中心为业务系统构建双活模式实现手动切换,尽可能减少停机时间。
2.平台运维能力
运维工作相当复杂,包括网络、服务器、操作系统、数据库、发布、变更、监控、故障处理、运行环境信息维护等。同时,面对日益复杂庞大的企业IT架构,IT运维需要在不同架构、不同平台之间实现IT资源的优化配置和高效管理,从而实现企业的稳定运行。整个系统,满足相应的企业业务场景。当需求出现时,可以应对用户量和数据量的快速膨胀。
因此,平台化运维的目标是针对不同的业务形态,对企业IT架构进行针对性的管控和一体化管理,利用大数据和基于PaaS的平台能力封装运维技术和业务。底部的能力。重量级运维技术工具体系轻量化,应用于运维APP场景,运维工具逐步融合。应用场景如下:
(1)日志采集平台:采集各个应用形成的本地日志数据并汇总。一方面方便查看和定位问题。另一方面,平台可以挖掘潜在价值数据和重要指标趋势分析提供证据,有效规避风险失败,指导决策。
(2)应用性能监控平台:包括多级应用性能监控、快速应用性能故障定位、综合应用性能优化三个模块。可采用事务处理过程监控、模拟等手段实现点对点应用检测,检测应用系统的各个组件,快速定位系统故障,并进行维修或提出维修建议,准确分析各个组件占用的系统资源,及时了解库存和产品生产进度,最大限度地提高好处。
(3)统一资源配置管理平台:只有这样才能集中管理不同环境、不同集群应用的配置,实时推送配置变更,通过统一的方式保证底层数据配置项准确无误资源和配置管理。
(4)应用部署平台:可部署容器和物理机,支持线上线下服务、定时任务和静态文件的部署,提供部署资源管理、运行环境搭建、部署流程定义和部署。执行跟踪实现金丝雀发布和蓝绿部署it运维技术,应用部署平台可以提升业务迭代速度,避免失败,提高产品发布节奏。
3.数据化运维能力
由于用户数和业务量的下降,数据量也处于爆发式发展阶段。IT运维数据化能力由此成为企业能力发展的重要方向。IT运维数字化是利用数据采集、数据存储、数据处理、可视化等全数据系统对运维过程进行评估,以确认IT运维目标的实现和程度。日常运维场景很多,看起来很复杂。毕竟与对稳定、安全、高效这三个基本价值的更高追求是分不开的。通过基于数据的运维能力,IT运维可为企业决策提供有力支持,实现稳定、安全、效率提升、成本合理控制。应用场景如下:
(1)知识图谱:使用统一语言定义运维数据,通过实体与实体之间的关系表达运维对象,整合运维领域的实体关系生成知识图谱。运维领域的关系 包括但不限于产品、服务、集群、服务器、网络、IDC等。
(2)数据库室:是一个面向主题的、集成的、相对稳定的、反映历史变化的、用于支持管理决策的数据集合。数据库室为用户提供当前和历史数据用于决策支持,这种数据在传统运营数据库中难以获取或无法获取。机房技术是各种技术和模块的总称,将运营数据有效地整合到一个统一的环境中,提供决策数据访问。目的是让用户能够查询更快、更方便地获取所需信息,并提供决策支持。
(3)数据中台:建设面向运维领域的数据中台,统一管理资源数据、告警数据、性能数据、业务数据、日志数据、工单数据、指标数据、表盘测试数据等,为下层运维分析场景提供统一的数据访问路由、数据服务目录、数据访问管理、数据可视化等功能,以打破“数据孤岛”,深度挖掘价值运营数据通过整合关联和对外开放 前端数据需求,整合后端数据,处理输出数据,搭建数据中心级数据服务共享平台。和数据流集成,对现有数据进行处理和整合,实现数据服务的方法,实现数据监控和资源利用分析。
(4)数据可视化:通过数据的可视化,帮助运维人员直观、方便、快速地分析问题,同时也提供了一系列工具组件供运维人员根据自身需求分析海量数据。快速进行视图编辑、多层钻取分析、多维度关联分析、报表布局、纵横数据对比等,对传统运维体验进行数字化改造,极大提升问题排查、风险检测和知识积累。
4.智能运维能力
由于IT运维支持的业务规模不断下降,越来越多的运维场景和问题难以用传统的运维方式解决。同时,IT运维效率也逐渐无法满足系统要求。为此,如何解放运维自身的效率,解决传统运维方式难以解决的问题,成为企业发展转型的一大挑战。运维智能化能力是指将人类知识和运维经验与大数据和机器学习技术相结合,制定出一系列智能化策略,
目前,运维的智能化应用场景主要有以下几种:
(1)故障预测:主动容错技术可以根据对系统历史状态和当前行为的分析,生成告警预测的结果模型,判断系统是否正式形成故障,辅助系统避免故障或尽快采取故障恢复措施。故障预测可以使运维人员在日常工作中变被动为主动,提高系统整体运行质量。
(2)故障自愈:故障自愈过程包括感知、止损决策、止损三个阶段。感知阶段取决于监控系统的故障检测能力,补水阶段取决于在交通调度系统的调度能力上,更能提高企业的服务可用性,减少故障处理的人为投入,实现从人工处理到故障无人值守的转变。
(3)手动扩缩容:可以根据应用负载手动调整集群容量,满足需求。当集群有Pods因资源不足而难以调度时,手动触发扩容,从而降低人工成本。空闲等伸缩条件是手动触发缩容,节省资源成本。
(4)智能问答知识库:是知识库的最新形式,具有知识挖掘、知识管理、知识关联、知识推理与建模、智能检索、自学习训练等功能。智能知识基地改变了故障的处理方式,不仅提高了故障上报的准确性,而且简化了信息交换的中间环节,有效缩短了故障处理时间,提高了工作效率。
降低了使用门槛,提高了复用性,减少了人为错误。速度。
六、[未来洞察]
· 未来面向5G的IT解决方案
(1)端到端业务体验:主要涉及客户体验、应用体验、网络体验、接入设备体验的工具和平台。
(2)智能运维:针对B域和O域,提供微服务修复、编排修复、分段修复、智能预警、智能优化、故障自愈、持续集成、持续部署、持续测试;
·整个技术运营中心的管理能力
(1)运维层:三横一竖,B域运维,O域运维,边缘估计运维,端到端运维。
(2)能力分层:业务运维、技术运维、管理运维。