行业动态

了解最新公司动态及行业资讯

当前位置:首页>新闻中心>行业动态
全部 4048 公司动态 912 行业动态 3136

从服务器、集约化、绿色化不断演进看服务器智能运维

时间:2022-07-14   访问量:2028

北京,2022年4月27日——随着互联网、5G、IoT等的快速发展,数字化、智能化建设对算力提出了更高的要求,数据中心不断向大型化、集约化方向发展和绿色演进,根据《全球数据中心托管服务市场机遇》报告,超大规模数据中心预计将从2019年的509个增长到2025年的890个,这将改变数据中心的建设和使用方式,规模的数据中心继续增长。不断扩大,大型数据中心服务器数量已达到10万多台,这意味着对运维的难度、人力、成本、专业性提出了更高的要求,企业数据中心的运维压力也越来越大面临前所未有的压力。解决问题的关键在于打破传统运维方式,打造“监督、管理、控制、预防”的智能化运维。

【图片】

什么是智能运维?

首先要了解数据中心运维的发展历程,主要包括三个阶段:人工运维、自动化运维和智能运维。

所谓人工运维是指——在早期,数据中心的大部分运维工作都是由运维工程师手动完成的。服务器的运行状态取决于运维工程师日常的目视检查来定位和解决问题。每个工程师的运维上限为400台左右。这种低效的运维方式,在数据中心服务器越来越多、人工成本越来越高的时代很难维护。

it运维 it服务_信息安全运维服务_服务器运维

于是自动化运维应运而生。运维工程师根据运维经验编写脚本进行批量设备巡检,后来发展为任务型设备巡检。这是自动化运维的早期方式。这大大提高了发现异常设备的效率,降低了运维成本。然而,面对故障根源、故障预测、性能趋势和控制决策,自动化运维却无能为力。

根据发布的《2021中国ICT技术成熟度周期报告》,AIOps市场将持续增长,影响整个IT运营管理市场。报告预测,AIOps 将在未来 2-5 年内进入成熟阶段,将帮助企业节省大量成本。从服务器运维角度分析服务器智能运维,目标是收集带外信息(配置信息、状态信息、性能信息、日志等)和带内信息(配置参数、性能信息、日志信息),利用机器学习解决上述问题,提高系统预警能力和稳定性,降低运维成本,提高运维效率。

浪潮信息构建智能物理基础设施管理平台(ISPIM)

浪潮信息物理基础设施管理平台ISPIM,在异常检测、故障诊断、故障预测、故障自愈、性能预测等维度实现多维度智能运行。

服务器运维中,最基本的就是异常检测。最常见的是检测三大数据:状态指标、性能指标和日志数据。

状态指示灯:当服务器状态异常时,浪潮信息ISPIM管理软件以主动/被动模式聚合服务器的异常情况,防止重复告警和误告警。警报风暴服务器运维,产生警报瘫痪。

性能指标:在性能指标检测方面,传统的方法是设置阈值,但由于某一时刻产生的噪声数据,经常会出现误报。通过重复次数、阈值抖动范围和自学习数据密度分布等,解决99%的噪声数据产生的误报;但面对周期性变化的数据,无法动态调整,也会出现误报,大大降低了报警的准确性。浪潮信息ISPIM管理软件通过AI优化,对性能数据进行时域、频域、能量等变化的动态分析,利用LSTM和随机森林进行预测,报警准确率达到98%。

日志数据:日志一般是半结构化数据。警报是根据日志级别生成的。准确性不足,只能检测到已知的和确定性的异常模式。浪潮信息ISPIM管理软件拥有4000+运维专家资源库,有助于实现服务器故障的快速诊断。同时,在日志智能故障诊断方面,将对采集到的日志进行重新编码,深化对深度学习、LSTM等算法的研究,在实际应用中可以多维度分析服务器异常,并将异常检测准确率高达99%。

为了进一步提高运维效率,浪潮信息ISPIM管理软件不仅对日志进行故障诊断,而且对系统宕机后的数据进行深度分析,方便用户使用快速定位问题,提高效率。

信息安全运维服务_服务器运维_it运维 it服务

通过对收集到的海量数据进行分析,浪潮发现服务器宕机通常是由CPU MCE(Check)故障引起的。一般来说,MCE的来源有两种,一种是CPU本身的故障,另一种是CPU本身的故障。外部零件。浪潮信息ISPIM管理软件带外采集服务器CPU寄存器数据,基于MCA(Check)技术架构,定位CPU触发源,分析MC Bank,分析CSR和MSR寄存器,实现故障原因确认和准确定位有故障的组件。并根据浪潮信息专家经验库,对故障问题给出专业的解决方案,提高运维效率。

据统计,数据中心内存和硬盘造成的故障中,50%以上是由于硬盘和内存量大、生命周期相对较短、使用率高造成的。当内存或硬盘出现故障时,极易发生严重的停机事故。

对于内存来说,内存产生的CE(可纠正错误)可以通过ECC(Error Code)机制来纠正,但是频繁的CE往往会产生UCE(Error),而一旦产生UCE,往往会导致系统停机机器。因此,预测内存故障可以转化为预测UCE。浪潮信息ISPIM管理软件通过多个维度分析内存CE,包括总CE频率、内存固定物理地址CE频率阈值、固定Cell CE频率阈值、CE分布范围、频率阈值等维度统计,得到UCE与CE,从而预测UCE。

信息安全运维服务_it运维 it服务_服务器运维

在硬盘方面,数据中心的大部分存储阵列都会使用一些冗余机制,但这只能保证有限的硬盘故障场景。一旦故障磁盘数量超过 RAID 冗余的限制,就有可能导致系统停机或数据丢失的风险。浪潮信息ISPIM管理软件分析SMART(自和)标准,获取硬盘故障预测的关键数据特征,基于模型算法训练,优化模型算法,输出推理算法模型。通过SMART指标和硬盘操作日志,预测风险盘。同时,当硬盘预测达到换盘索引时,可以支持换盘操作。

通过这些技术优化,浪潮信息ISPIM管理软件可以实现内存和硬盘的故障预测,大大提高系统稳定性。

浪潮信息ISPIM管理软件在故障自愈方面支持内存故障自动隔离。在操作系统层面,结合MCE(Check)日志数据信息,根据CE故障信息服务器运维,通过虚拟内存故障Page诊断算法确定内存故障Page,并在操作系统内核中执行Page,通过虚拟内存技术,隔离对故障内存区域的访问,实现内存故障隔离。在物理内存层面,根据CE故障信息,通过物理内存故障诊断算法,使用SPPR(Soft Post)和HPPR(Hard Post)隔离物理内存故障Row。操作系统的稳定性和可靠性,从而保证业务的稳定可靠运行。

性能预测是指服务器的性能数据。通过ARIMA、指数平滑、LSTM等智能算法,可以感知系统数据在未来几小时、几天或一年内的趋势、增长或周期性变化。等待。浪潮信息ISPIM管理软件凭借自主研发的性能分析核心组件,可支持数万台服务器同时对性能数据进行秒级监控和告警,帮助运维人员实时掌握设备性能状态,并实现对磁盘寿命和容量的准确预测。率达到99%。

浪潮信息物理基础设施管理平台ISPIM()具有资源管理、故障监控、性能监控、能耗管理、自动部署、报表统计、网络拓扑、3D视图等功能。对服务器、存储、网络设备等设备进行监控、运维,统一进行告警管理,运维效率成倍提升。基于浪潮信息故障专家库的大数据规则故障诊断功能,故障诊断准确率可提升至93%。此外,能够快速处理故障的同时,大大降低数据泄露风险,帮助用户搭建无人值守数据中心,提高运维效率,降低运维成本,保障数据中心安全、可靠、稳定运行.

上一篇:IT运维行业如何突围?资本董事总经理陈军、擎创科技CEO何泽松

下一篇:虚拟化与私有云有什么意思?行云管家云管平台平台

发表评论:

评论记录:

未查询到任何数据!

在线咨询

点击这里给我发消息 售前咨询专员

点击这里给我发消息 售后服务专员

在线咨询

免费通话

24小时免费咨询

请输入您的联系电话,座机请加区号

免费通话

微信扫一扫

微信联系
返回顶部