了解最新公司动态及行业资讯
欢迎来到腾讯云技术社区服务器运维技术,获取更多腾讯海量技术实践干货~
作者:知云平台团队,腾讯SNG社交平台业务运维团队,负责QQ空间、微云、QQ相册、天天Ptu、优图等产品的技术运营。致力于服务质量优化、服务保障、自动化运维体系建设等工作。经历了农牧场、红包、“军装”P图等诸多活动。团队一直在进行自动化运维、智能化运维探索与实践。
前言
这两天人民日报+腾讯云联合运营的“军装合影”活动,想必炸了你的朋友圈。在这场营销盛宴的背后,还有另外一个海量运维能力:4000台设备、峰值24G带宽、5次自动运维扩展。
这种由社会关系引爆的运营事件,对于腾讯SNG的运维团队来说,并不新鲜。从全民农牧场、全民红包、甄嬛传记、军装照片,SNG运维团队已经应对了业务突发事件。变化是智云智能运维平台的核心能力。今天,就让我们一起来探索智云智能运维平台的关键技术和核心功能。
智云智能运维平台1、标准化运维
智云智能支撑平台管理着10万多台服务器,24小时为上万个功能提供服务,但运维人员却寥寥无几。一个人维护了近万台服务器,当军装事件来临时,4000台服务器可以快速无误地上线。它的依据是什么?主要的好处是智云长期贯彻的标准化服务和运维的理念和要求。智云平台提供的统一包框架、集中配置管理、统一路由、统一组件等标准化技术手段,帮助运维研发质量等多个团队完成高效协同、标准交付、和快速反应。标准化的运维体系,帮助我们随时快速响应各种突发业务需求。
2、强大的 IAAS 供应基础
依托腾讯云海量资源,智云可提供秒级IAAS供给能力,结合自动变扩缩技术,快速响应万级服务资源线上供给需求。
3、CMDB应用配置介绍
智云CMDB的设计以模块为管理节点(模块:提供单一功能服务的集群)。相关配置信息将被记录,包括:硬件配置、软件配置、操作设置、软件包、配置文件、脚本、流程、测试用例等自动化依赖的关键系统。
日常P图业务CMDB应用配置示意图如下。
4、 自动化流程简介
智云倡导的自动化理念是:标准化->配置->自动化,让企业的常用操作固化成流程工具。不要依赖容易过时的文档,也不要依赖容易流失的人的经验。
参照持续交付的原则“为软件发布创建可重复且可靠的流程”,为解决人类操作体验差异的问题,运维团队利用流程DIY编排能力,实现标准化操作的固化. “军装合影”活动扩容,任何运维人员只需执行每日P图的扩容功能即可实现扩容,云织过程将自动完成整个业务部署和上线运营。(如下所示)
5、 关键技术点:
(1)智云路由:L5
调用对象 IP 和端口被抽象为名称服务。调用时,调用者不需要关注实际被调用的服务器,只需要确定名称服务ID即可。这样,被调整方的IP变更对主调整者来说是完全透明的。
由于部分转入的服务器存在差异,存在计算能力不一致的可能。可以为不同的传输对象配置不同的权重。智云 Beam可以根据服务器的处理能力和容量自动配置权重,达到负载均衡的目的。.
当链路或机房环境发生故障时,可能导致单台服务器故障的概率很高。智云L5具备主动检测调机能力,主动将故障机踢出转机,故障机恢复后自动添加回转机。簇。在发生大规模机房故障时服务器运维技术,也可以借助L5调度功能将整体调整对象切换到其他机房。
(2)大并发传输
如何在运维平台上实现文件的快速分发,智云平台的技术实现主要有两个技术点:
(3)活动平台:自动缩放
社交运营活动是腾讯SNG的常态,智云专门针对这类活动业务的特点:快上快下,定义了活动平台的功能来支持。
自动伸缩功能支持定时伸缩和低负载伸缩,不同的策略触发自动化运维流程。《军装照》4000台设备活动结束后,运维人员可以设置自动伸缩策略,实现自动伸缩,无需人工干预。(收缩操作如下图)
容量监测方法
1、 高低负载日常管理
运维工作要尽量减少消防任务,鼓励有计划有准备的工作,把容量管理变成重要的、非紧急的工作。因此,我们倾向于将这部分工作例行化,将容量管理从计划外任务变为计划任务。
以腾讯SNG的生产环境容量管理计量方法为例,智云平台提供统计数据(以模块为管理单位):
2、 容量异常处理
在腾讯SNG运维的日常工作中,与容量相关的运维对象有:单机、模块、SET。
(1)利用智云L5路由服务的请求权重调度能力(参考开源nginx、、LVS等)解决集群IP负载不均的问题。
(2)利用云一致性管理能力解决应用或配置文件部署不一致的问题。
λ SET容量管理,结合压力测试寻找SET的性能短句柄,保持SET容量模型在关键时刻调度可靠。
3、 实时模块容量监控
在模块内IP容量相同的情况下,智云监控实时采集单机硬件性能指标,并可汇总计算模块实时容量指标,进行自动决策。
智云主机监控技术的技术架构如下图所示,支持10W设备主机性能数据采集,为腾讯社交业务提供精准高效的基础监控能力。
写在最后
在腾讯云和智云平台的协助下,SNG社交平台业务运维团队为人民日报“军照”运营活动提供了强有力的运维支持。虽然运维在聚光灯下并不常见,但我们依然为腾讯的产品感到自豪,为我们的运维工作感到自豪!
阅读建议
“云+未来”峰会北京站,开发者专场报名开启
深度探索(一)
是的,腾讯投票已经拥抱腾讯云
本文已获得作者授权在腾讯云技术社区发布。转载请注明文章出处。
原文链接:///