了解最新公司动态及行业资讯
企业通过成熟的技术实施和实施IT运维管理。 IT运维技术可以分四个阶段逐步落地:人工运维能力、平台化运维能力、数据化运维能力、智能化运维能力。相反,实现智能运维能力的前提是具备人工化、平台化、数据化的能力。企业应根据自身运维发展阶段和实际运维需求,分阶段实施相关技术能力。
一、IT运维业务面临挑战
随着中国联通“大链接”战略的深入实施,业务规模快速下滑,内外部竞争日趋激烈复杂,IT技术快速演进,中国联通的顶底线和内外部客户负责公司信息系统部门的IT运维管理。对执行效率和精细化运营管理能力提出了更高的要求和挑战:
为适应瞬息万变、新业务层出不穷的市场形势,中国联通提出“严节约、降本、增效”行动,引入人工智能技术,建立低成本高效的操作系统,推进“IT代人”战略,在日益激烈的同质化竞争中占据主动。在 2019 年 IT 工作思路中,中国联通提出“以积极赋能和发展 IT 为主线,大力推进 IT 支撑向 IT 运营转变”、“着力提升智能化运营能力、 IT运维能力重点发展目标明确方向。随着信息部门系统的云化、容器化、集中化、微服务化等架构调整,“系统架构和业务调用关系复杂,运维管理难度降低”的痛点也得到实时跟进。这个运维系统。 ,不断调整自身发展规划,向“大运维、一体化运营、专业化、实践敏捷、智能运营、卓越体验”的理念演进,为生产提供更好的运维支持服务系统。
二、【痛点与难点】
5G网元控制平面、传输前馈、传统(2G/3G/4G)运维平台,难以支撑5G网络资源的集中统一配置管理和运维; 5G网络实现产业提供的SDN 服务,现有运维平台无法实现端到端的部署、运维和交付; 5G网络的多层编排协同,目前还没有可视化的运维管理;对于垂直应用,难以理解行业端到端的客户体验和应用、服务、网络的智能运维; 5G商用广泛,缺乏AI手段实现网络故障预警、业务切换和故障恢复。
三、[实践路径]
基于能力梳理和方向规划,提出1个愿景、3个核心、5个阶段、3个基石的“1+3+5+3”智慧运维能力体系。
(1)1愿景:IT运营创造价值是构建智能运维体系的根本愿景。
(2)三个核心:稳定性和准确性、用户满意度和风险防范是智慧运维体系建设的三个核心价值。
(3)5个阶段:“初始阶段-标准化阶段-手动化/可视化阶段-中级智能阶段-中级智能阶段”是智慧运维体系建设中各项能力的演进路线。
(4)三大基石:工作规划、文化修养、能力提升,是智慧运维体系建设的三大基石。
(1)数据采集层:对于应用监控层面的采集,可以通过UDP合约传输、、Java等方式获取运维指标。建立和采集业务指标等。
(2)数据处理层:Flink流处理作为数据处理引擎,首先提供低延迟、高吞吐、实时处理能力,以及更多的监控、智能分析等系统。完美支持各种应用场景,同时Flink还支持批处理等常用数据预处理、清洗、过滤等方式的需求。
(3)数据存储层:各种数据根据需要和分工存储在不同的介质上,以达到最佳的效率和最佳的搭配等效果。(4)@ >数据通道层:根据运维工作和运维数据的特点,选用分布式发布-订阅消息中间件Kakfa作为通用数据通道,以其易扩展、高吞吐的特点,组件间数据共享并且可以实现微服务。通过Kafka进行分发。
(5)微服务层:后端功能微服务化,根据业务监控、人工运维、应用配置管理、智能分析、日志管理等定义微服务的范围和边界。 ,以及通过API网络段对外开放的能力。
(6)API网段层:API网段采用框架,API网段负责对外提供统一的外部访问入口,并提供合约聚合、路由分发、负载均衡、内部为前端服务配置服务、总线消息等功能,进而实现微服务的服务隔离、线性扩展和有效监控。(7)后端应用层:后端选择一个轻量级的,高性能,组件化的框架,适合运维这些都是数据驱动的web界面。
四、【实际疗效】
五、【实现IT智能化运维能力】
1.手动运维能力
日常IT运维工作中存在大量重复性任务。这些任务有的复杂冗长,有的严重依赖执行顺序,有的需要等待各种条件满足才能执行。虽然IT运维管理技术在不断提高,但实际上IT运维人员并没有真正得到解放。目前,很多企业的系统启动和关闭、系统更新升级、应急操作等大部分工作都是手动完成的。虽然简单的系统变更或软件复制粘贴升级,往往需要运维人员逐一登录各个设备进行手动更改。尤其是在云平台、大数据、海量设备的情况下,工作量可想而知。此类变更和检测操作在IT运维中每天都会发生,占用了大量的运维资源。通过手动操作工具,将运维人员从简单重复的工作中解放出来,降低误操作风险,带来系统稳定性、安全性和效率的提升。应用场景如下:
(1)日检手动化:日检内容简单,但占用IT运维人员大量时间。日检人工巡检可以改变硬件状态、设备负载、系统人工检查时间、C盘空间、线路流量、数据库表空间使用情况、网络设备端口状态、流量等,生成满足用户要求的检查报告。
(2)手动配置管理:手动从生产环境中提取配置库信息,手动更新到配置库中,保持配置库与生产环境的一致性。实现手动更新和同步需要对应用系统进行标准化改造,如标准化安装路径、统一版本等,有助于工具提取应用配置项的基本信息,最终实现配置项和属性的手动更新。
(3)手动应用部署:使用手动平台图形化流程编辑器创建组件流程。根据平台提供的插件,可实现与流行工具的集成,部署即可无需任何编程即可快速定义逻辑。可以使用相同的流程将相同的应用程序部署到多个环境。这进一步有助于节省时间和提高效率,以及早期验证应用程序和部署过程。手动平台可以同时在数千台机器上运行部署过程。
(4)容灾切换操作手动化:通过容灾操作流程手动批量执行容灾切换流程。通过-为业务系统构建双活模式。主动数据中心,实现手动切换,减少停机时间。
2.平台运维能力
运维工作相当复杂,包括网络、服务器、操作系统、数据库、发布、变更、监控、故障排除、运行环境信息维护等。同时面对日益复杂和庞大的企业IT架构,IT运维需要在不同架构、不同平台之间实现IT资源的优化配置和高效管理,从而实现整个系统的稳定运行,满足相应的企业业务场景。当需求出现时,可以应对用户量和数据量的快速膨胀。
因此,平台化运维的目标是针对不同的业务形态,对企业IT架构进行有针对性的管控和集成管理,利用大数据和基于PaaS的平台能力进行底层运维技术和业务能力。封装、轻量级运维技术工具体系进入运维APP场景应用,逐步集成运维工具。应用场景如下:
(1)日志采集平台:采集各个应用形成的本地日志数据并汇总。一方面方便查看和定位问题;趋势分析为有效规避提供依据风险失败并指导决策。
(2)应用性能监控平台:包括多级应用性能监控、应用性能故障快速定位、应用性能综合优化三个模块。可使用事务处理过程监控、模拟等指实现点对点应用检测,检测应用系统的各个组件,快速定位系统故障,并进行修复或提出修复建议,准确分析各个组件占用系统资源的情况,及时了解库存和产品生产进度it运维技术,从而实现利益最大化。
(3)统一资源配置管理平台:只有这样才能集中管理不同环境、不同应用集群的配置,实时推送配置变化,保证底层数据配置项通过统一管理资源和配置准确。
(4)应用部署平台:只为了部署容器和物理机,支持线上线下服务、定时任务和静态文件的部署,提供部署资源管理、运行环境搭建、部署流程定义和部署执行跟踪,可用于金丝雀发布和蓝绿部署。应用部署平台可以提高业务迭代率,避免失败,提高产品发布节奏。
3.数据运维能力
由于用户数和业务量的下降,数据量也迅速处于井喷发展阶段。 IT运维数据化能力由此成为企业能力发展的重要方向。 IT运维数字化是利用数据采集、数据存储、数据处理、可视化等全数据系统对运维过程进行评估,以确认IT运维目标的实现和程度。日常运维场景很多,看起来很复杂。毕竟与对稳定、安全、高效这三个基本价值的更高追求是分不开的。通过基于数据的运维能力,IT运维可以为企业决策提供强有力的支持,实现稳定、安全、效率提升、成本合理控制。应用场景如下:
(1)知识图谱:使用统一语言定义运维数据,通过实体与实体之间的关系表达运维对象,整合运维领域的实体关系,生成一个知识图谱。运维领域关系包括但不限于产品、服务、集群、服务器、网络、IDC等。
(2)数据库室:是一个面向主题的、集成的、相对稳定的、反映历史变化的、用于支持管理决策的数据集合。数据库室为用户提供决策支持和历史数据的当前数据。数据,这是传统运营数据库中难以或不可能获取的数据。 机房技术是将运营数据有效地整合到一个统一的环境中,为决策数据访问提供各种技术和模块,目的是让用户能够查询到所需的信息更快、更方便,并提供决策支持。
(3)数据中心:建设面向运维领域的数据中心,资源数据、告警数据、绩效数据、业务数据、日志数据、工单数据、指标数据等统一管理,拨号数据 为下层运维分析场景提供统一的数据访问路由、数据服务目录、数据访问管理、数据可视化等功能,打破“数据孤岛”,深度挖掘运营通过整合关联和对外开放的数据价值。识别前端数据需求,整合后端数据,处理和输出数据,构建数据中心级数据服务共享平台。通过数据整理,数据源规划、数据处理整合,对现有数据进行处理和整合,通过数据服务实现数据监控和资源利用分析。
(4)数据可视化:通过数据的可视化呈现,帮助运维人员直观、方便、快速地分析问题,同时也提供了一系列工具组件供运维人员跟进快速进行视图编辑、多层次下钻分析、多维度关联分析、报表整理、海量数据纵横数据对比等,传统运维体验数字化改造,大幅改善问题故障排除、风险检测和知识沉淀。
4.智能运维能力
由于IT运维支撑的业务规模不断下降,越来越多的运维场景和问题难以用传统的运维方式解决。同时,IT运维效率也逐渐无法满足系统要求。为此,如何解放运维自身的效率,解决传统运维方式难以解决的问题,成为企业发展转型的一大挑战。运维智能化能力是指将人类的知识和运维经验与大数据和机器学习技术相结合,制定出一系列智能策略,然后集成到运维系统中,实现运维通过智能运维平台完成工作。
目前,运维智能化应用场景主要有:
(1)故障预测:主动容错技术,基于对系统历史状态和当前行为的分析it运维技术,可以生成告警预测的结果模型,判断系统是否已经正式形成故障,并协助系统尽快避免故障或采取措施。可以发现,可以预知报警。故障预知可以使运维人员在日常工作中由被动响应变为主动,从而提高系统的整体运行质量。
(2)故障自愈:故障自愈过程包括感知、止损决策、止损三个阶段。感知阶段取决于监控系统的故障检测能力,补货阶段取决于流量调度系统的调度能力。故障自愈可以提高企业的服务可用性,减少故障处理的人为投入,实现从人工处理到无人值守故障的过渡。
(3)手动扩缩容:可以根据应用负载手动调整集群容量以满足需求。当集群中有Pods由于资源不足而难以调度时,扩容手动触发,降低人工成本。当满足节点空闲等伸缩条件时,手动触发伸缩,节省资源成本。
(4)智能问答知识库:知识库的最新形式,具有知识挖掘、知识管理、知识关联、知识推理与建模、智能检索、自学训练等功能。智能知识库 改变故障处理方式,不仅提高了故障上报的准确性,而且简化了信息交换的中间环节,有效减少故障处理时间,提高工作效率。
(5)智能发布变更:可否管理大规模发布变更流程,具有手动部署、分层发布、智能变更策略等功能。用户通过UI配置整个变更流程的执行策略/API ,专用执行系统解析策略,手动执行批次及其变更。分层发布将变更过程定义为基于强度组的多个阶段,并在每个阶段引入人工检测案例。阶段变更可以有效提高管理和通过引入智能模板生成、智能变更检测等智能策略,降低使用门槛,提高可复用性,减少了人力。操作错误率。
六、[未来洞察]
(1)端到端业务体验:主要涉及客户体验、应用体验、网络体验、接入设备体验的工具和平台。
(2)智能运维:针对B域和O域,提供微服务修复、编排修复、切片修复、智能预警、智能优化、故障自愈、持续集成、持续部署和持续测试;
(1)运维层:三横一纵、B域运维、O域运维、边缘估计运维、端到端运维。
(2)能力分层:业务运维、技术运维、管理运维。