行业动态

了解最新公司动态及行业资讯

当前位置:首页>新闻中心>行业动态
全部 4048 公司动态 912 行业动态 3136

大规模数据中心运维存在如下的痛点问题系统

时间:2023-03-12   访问量:2500

本文来自《数据中心服务器智能故障诊断系统》,分析了云和数据中心的发展趋势、工业互联网时代的智能化运营需求和TIFDS故障诊断系统。

f4b4f944-06f5-11ed-ba43-dac502259ad0.png

随着云技术的普及,特别是“新基建”和“数字化转型”需求带动数字经济快速发展,CDC数据中心的服务器部署规模也呈指数级下降。 突发运维管理越来越复杂和困难,传统海量服务器数据中心的故障运行也面临着更大的挑战和更昂贵的成本。 从最初的脚本运维、工具运维演进到平台运维服务器运维,人力已经接近极限,越来越难以满足快速修复故障、恢复业务运营的要求。

大型数据中心运维存在以下痛点:

1、机器出现故障后,重要日志信息不完整,人工难以定位故障部位;

2、故障诊断效率低下。 服务器出现问题后,主要靠人工分析和经验判断结果,人工和智能化程度不高。

3、成本高,时效性差。 人工体验分析依赖大量运维人力,运维时间(MTTR)长,影响业务快速恢复。

联通公司运维服务管控工作总结_组织级运维服务目录_服务器运维

4. 由于诊断结果清晰度低,二次故障修复比例高,造成额外的数据迁移成本和业务影响。

TIFDS(&Fault)故障诊断系统是服务器健康监测技术和故障预警诊断技术的统称。 故障诊断系统提高了服务器故障预警能力、故障诊断清晰度和停机维护效率,减少了非计划停机时间,提高了服务器全生命周期的RAS强特性(可靠性、可用性、可维护性)。

系统依托腾讯超过100万台服务器的维护数据,深度定制服务器风暴日志,利用AI技术实时分析服务器运行数据服务器运维,实现CPU、显存、硬盘、PCIe的人工预警等设备,将服务器故障诊断人工澄清率提高到95%以上。

服务器运维_组织级运维服务目录_联通公司运维服务管控工作总结

f4d7a5d4-06f5-11ed-ba43-dac502259ad0.png

停机故障诊断

TIFDS可以涵盖IERR(Error)和非IERR引起的系统宕机,准确定位故障部件,如CPU、显存、显卡、PCIe外接卡、存储等设备。 一旦服务器运行过程中出现异常,TIFDS系统会第一时间做出响应,准确诊断出故障部件,并上报故障原因、故障部件的具体位置、部件的型号信息和维修建议及时到运维管理系统。 运维管理系统可人工生成维修工单,运维人员可根据TIFDS的指引快速更换故障部件或排除故障,使机器快速恢复到健康状态。 将传统的小时预估修复时间级别压缩到分钟级别。 大幅提升运维效率,实现云服务快速恢复。

服务器运维_联通公司运维服务管控工作总结_组织级运维服务目录

f4f4e98c-06f5-11ed-ba43-dac502259ad0.png

非停机故障诊断

TIFDS系统通过BMC实时监控服务器系统各处的电流、电流、温度传感器信息,实时监控电源、风扇以及各部件的工作状态和工作负载; 基于可在线更新的告警阈值和预警阈值及故障判断规则,可对服务器中的风险位置实现故障预警、故障告警或故障判断,并时刻上报智能运维系统。

服务器运维_联通公司运维服务管控工作总结_组织级运维服务目录

f505cd88-06f5-11ed-ba43-dac502259ad0.png

故障预警与隔离

TIFDS可以跟踪服务器中所有组件的生命周期和运行状态,通过机器学习算法对高危组件进行预警,减少服务器在高负载运行情况下的突发故障。 此外,对于发生故障的部件,TIFDS可以根据部件类别采取相应的隔离措施,防止单个非关键部件的故障影响整机系统的运行。

f5271786-06f5-11ed-ba43-dac502259ad0.png

TIFDS是腾讯云运维监控系统的重要组成部分。 它是服务器带外数据的主要来源。 对内存、CPU、PCIe等元器件的故障监测、故障预测、大规模告警做出了巨大贡献。 通过多样化的日志手动适配腾讯云备件系统,降低腾讯云健康管理系统的参考维度,开发基于带内带外日志的在线诊断系统。 深度多元化的模式和简单易用的运维工具,让整个运维系统变得更加智能和高效。

上一篇:零基础Java从入门到精通编程自学入门配视频教学

下一篇:中国IT服务市场有个系统的发展现状分析

发表评论:

评论记录:

未查询到任何数据!

在线咨询

点击这里给我发消息 售前咨询专员

点击这里给我发消息 售后服务专员

在线咨询

免费通话

24小时免费咨询

请输入您的联系电话,座机请加区号

免费通话

微信扫一扫

微信联系
返回顶部