了解最新公司动态及行业资讯
(环球网8月2日讯)7月27日,由OCP社区主办,浪潮承办的第三届OCP 成功举办。会上,浪潮联合腾讯云发布了《数据中心服务器智能故障诊断TIFDS(&Fault)系统技术蓝皮书》。蓝皮书详细分析了当前大型数据中心运维面临的挑战,并对腾讯云与浪潮联合开发的TIFDS系统进行了探讨。该框架为大型数据中心提高服务器运维效率,保障数据中心稳定运行提供重要参考。
基于腾讯云百万级服务器运行数据和浪潮深厚的固件开发专家经验库,“TIFDS”系统可以利用AI技术实时分析海量服务器运行数据,对各种组件故障进行实时预警,并诊断出故障“一目了然”,故障人工查明率提高到95%以上,远超行业平均水平。
,腾讯云星海实验室研发总工程师刘超介绍蓝皮书内容
大型数据中心服务器暴涨,人力运维逼近极限
随着互联网公司的崛起服务器运维技术,云估算市场已经走过了十多年。据统计,2020年全球云测算市场将快速下滑,增幅超过40%,而中国云测算市场将继续以两位数的速度下滑。 ,市场下行势头逐渐从泛互联网向工业化迅速渗透,且下滑继续加速。
蓝皮书强调,云测算的快速扩张带来了数据中心服务器数量的爆发式下降,服务器运维管理的复杂度和难度骤增,而传统运维大规模服务器故障面临着更大的挑战和更昂贵的成本。从最初的脚本运维、工具运维到平台运维,人力已经逼近极限,越来越难以满足快速修复故障和恢复业务运营的要求。为了高效管理10万台甚至数百万台服务器,智能监控诊断系统已成为大型数据中心不可或缺的工具。
TIFDS系统架构公布,人工故障排除率超过95%
TIFDS(&Fault)是腾讯云与浪潮联合开发的故障诊断系统。是服务器健康监测技术和故障预警诊断技术的总称,从而实现运维工作从人工离线分析到人工智能在线识别的发展。构建以带外BMC为核心的故障诊断系统。蓝皮书认为服务器运维技术,TIFDS系统具有风险实时预警、故障诊断准确、日志多样化、透明化、安全等特点,对提升大型数据中心的运维效率具有重要意义。