行业动态

了解最新公司动态及行业资讯

当前位置:首页>新闻中心>行业动态
全部 4048 公司动态 912 行业动态 3136

从服务器、集约化、绿色化不断演进,看服务器智能运维

时间:2022-08-19   访问量:1863

随着互联网、5G、IoT等的快速发展,数字化、智能化建设对算力提出了更高的要求,数据中心正朝着规模化、集约化、绿色化发展方向发展。根据《全球数据中心托管服务市场机遇》报告显示,超大规模数据中心预计将从 2019 年的 509 个下降到 2025 年的 890 个,这将改变数据中心的建设和使用方式。规模不断扩大,小型数据中心的服务器数量已经达到10台,超过10000台的数量级,这意味着对运维的难度、人力、成本、专业性提出了更高的要求。企业数据中心的运维压力面临着前所未有的挑战。“监督、管理、控制、预防”智能运维是解决问题的关键。

什么是智能运维?

首先,我们需要了解数据中心运维的发展历程,主要包括三个阶段:人工运维、自动化运维、智能化运维。

所谓人肉运维,是指在早期,数据中心的大部分运维工作都是由运维工程师手动完成的。服务器的运行状态取决于运维工程师日常的目视检查来定位和解决问题。每个工程师的运维上限为400台左右。这些低效的运维形式在数据中心服务器数量不断增加、劳动力成本不断增加的时代是不可持续的。

运维项目服务巡检报告_it运维 it服务_服务器运维技术

因此,人工操作和维护应运而生。运维工程师根据运维经验编写脚本进行批量设备巡检,后来发展为任务型设备巡检。这是人工操作和维护的初始形式。这大大提高了检测异常设备的效率,降低了运维成本。而且,面对故障根因、故障预测、性能趋势和控制决策,人工运维是不够的。

根据发布的《2021中国ICT技术成熟度周期报告》,AIOps市场将持续下滑,影响整个IT运营管理市场。报告预测,AIOps将在未来2-5年内进入成熟阶段,将帮助企业大幅节省成本。从服务器运维的角度分析智能服务器运维,目标是收集带外信息(配置信息、状态信息、性能信息、日志等)和带内信息(配置参数、性能信息、日志信息),利用机器学习的方法解决上述问题,提高系统的预警能力和稳定性,降低运维成本,

浪潮信息构建智能数学基础设施管理平台(ISPIM)

it运维 it服务_服务器运维技术_运维项目服务巡检报告

浪潮信息数学基础设施管理平台ISPIM通过对数据中心IT设备的7*24h管理和监控,实现异常检测、故障诊断、故障预测、故障自愈、性能预测等多维度的智能运维。

在服务器运维中,最根本的就是检查异常,而最常见的三个数据是状态指标、性能指标和日志数据的度量。

状态指示灯:当服务器状态异常时,浪潮信息ISPIM管理软件以主动/被动的形式聚合服务器的异常情况,避免重复告警和误报。形成警报麻痹。

性能指标:在性能指标检测方面,传统的方法是设置一个阈值,但由于某个时刻暗角数据的形成,经常会出现误报。可解决99%由噪声数据引起的误报;但是面对周期性变化的数据很难动态调整,也会出现误报,大大降低了报警的准确性。浪潮信息ISPIM管理软件通过AI优化,对性能数据的频域、频域、能量变化进行动态分析,利用LSTM和随机森林进行预测,报警准确率达到98%。

日志数据:日志通常是半结构化数据,根据日志级别形成告警,不够精确服务器运维技术服务器运维技术,只能衡量已知和确定模式的异常。浪潮信息ISPIM管理软件拥有4000+运维专家资源库,助力实现服务器故障快速诊断。同时,在日志智能故障诊断方面,将对采集到的日志进行重新编码,深化对深度学习、LSTM等算法的研究。在实际应用中,可以从多个维度对服务器异常进行分析,异常检查的准确率高达99%。

为进一步提升运维效率,浪潮信息ISPIM管理软件不仅对日志故障进行诊断,还对系统宕机后的数据进行深度分析,快速定位问题,提高效率。

通过对收集到的海量数据进行分析,我们发现服务器宕机一般是由于CPU MCE(Check)故障造成的。一般来说,MCE有两种来源,一种是CPU本身的故障,另一种是来自CPU以外的组件。浪潮信息ISPIM管理软件通过带外方式采集服务器CPU寄存器数据,基于MCA(Check)技术框架,通过定位CPU触发源,分析,分析CSR和MSR寄存器,实现原因确认故障和故障部件的精确位置。根据浪潮信息专家经验库,提供专业的故障问题解决方案,提升运维效率。

据统计,数据中心因显存和硬盘引起的故障占50%以上。主要原因是硬盘和内存量大,生命周期相对较短,使用率高。当显存或硬盘出现故障时,很容易发生严重的停机车祸。

对于显存来说,显存形成的CE(可纠正错误)可以通过ECC()机制进行纠正,频繁的CE往往会形成UCE()。一旦形成UCE,系统经常崩溃。因此,视频内存故障的预测可以转换为UCE预测。浪潮资讯ISPIM管理软件通过多维度统计分析显存CE,从CE的总频率、内存固定化学地址CE频率阈值、固定频率阈值、CE分布范围、频率阈值等维度统计到获得UCE和CE之间的关系,从而预测UCE。

至于硬盘,数据中心的存储阵列大多采用了一些冗余机制。但是,这只能保证有限的硬盘故障场景。一旦故障磁盘数量超过 RAID 冗余的限制,就有可能导致系统停机或数据丢失的风险。浪潮信息ISPIM管理软件分析SMART(自与)标准,获取硬盘故障预测关键数据特征,基于模型算法进行训练,优化模型算法,输出推理算法模型,贯穿SMART指标和硬盘日志,预测风险盘。同时,当硬盘预测达到换盘指标时,可以支持换盘操作。

通过本次技术优化,浪潮信息ISPIM管理软件可以实现显存和硬盘的故障预测,大大提高系统稳定性。

浪潮信息ISPIM管理软件可支持手动隔离显存故障,实现故障自愈。在操作系统层面,结合MCE(Check)日志数据信息,根据CE故障信息,采用虚拟显存故障页诊断算法确定显存故障页。,并在操作系统内核中执行Page,通过虚拟显存技术隔离对故障显存区域的访问,从而实现显存故障隔离。在数学显存层面,基于CE故障信息,通过数学显存故障诊断算法,借助SPPR()和HPPR()隔离化学显存故障行,技术上实现故障显存永久隔离,完善操作系统。稳定性和可靠性,从而保证业务的稳定可靠运行。

性能预测是指服务器的性能数据。通过ARIMA、指数平滑、LSTM等智能算法,系统可以感知数据在未来几小时、几天或一年内的趋势、增长或周期性变化。等待。凭借自主研发的性能分析核心组件,浪潮信息ISPIM管理软件可支持数万台服务器同时对性能数据进行秒级监控和告警,帮助运维人员及时掌握设备的性能状态。实时,实现对C盘寿命和容量的预测。,准确率为 99%。

浪潮信息数学基础设施管理平台ISPIM()具有资源管理、故障监控、性能监控、能耗管理、自动部署、报表统计、网络拓扑、3D视图等功能。对存储、网络设备等设备进行统一监控、运维、告警管理,运维效率成倍提升。基于浪潮信息故障专家库的大数据规则故障诊断功能,故障诊断准确率可提升至93%,在快速处理故障的同时,大大降低数据泄露风险,帮助用户建立无人值守数据中心,提高运维效率,降低运维成本,确保安全、可靠、

上一篇:IT系统是否应该外包,如何规避外包风险?(图)

下一篇:东软教育成功中选上海第46届世界技能大赛商务软件解决方案项目

发表评论:

评论记录:

未查询到任何数据!

在线咨询

点击这里给我发消息 售前咨询专员

点击这里给我发消息 售后服务专员

在线咨询

免费通话

24小时免费咨询

请输入您的联系电话,座机请加区号

免费通话

微信扫一扫

微信联系
返回顶部