了解最新公司动态及行业资讯
我在一家游戏公司做运维有一段时间了,分享一下我的经验。
游戏公司的运维可以分为几大模块:
1、网站
2、游戏
3、支持
4、数据
5、安全
6、成本
网站
技术是web的技术,如lvs、lnmp、.cdn、持续更新CI、人工运维等。搜索中可以解决的常见问题,结构和估计量根据情况增减以实际业务规模为准。由于没有涉及到电商业务,所以搜索和大数据业务会有所不同,细节我们就不展开了。日均pv保持在500、600w是正常的,推广期间会形成高峰。
游戏是公司的主营业务,但也是行业相对封闭的一部分。由于这类产品基本上是自己开发和修补的,如果有bug,会开发并提供热更新解决方案,并通过运维来实现。剩下的就是换衣服、版本更新、和服等日常操作了。
游戏项目的生命周期也与错误的数量有关。上线初期,各种废话都会纠缠运维。以下是笔者遇到的一些反例:idc值班人员在巡查时踢了机柜电源导致宕机游戏进程句柄泄露;游戏存在bug,资源需要临时维护;游戏出现意外的峰值带宽,导致用户卡顿;运营商带宽小的用户认为网卡(长宽联通断网还想玩游戏);机房光纤被切断;手动工具配置更新错误;数据库表结构不一致等;有很多很多,想想运维,说好的一点是挑战自己,运维的丑点就是抖M!
项目稳定后,所有 ,等流程都梳理清楚,通过手动工具实现后,运维每天晚上需要做的就是看监控(起床)
支持
监控系统服务器运维,我只知道所有核心游戏进程都被监控,但是关键业务数据需要开发并提供。要么是数值匹配错误,要么是有漏洞被玩家刷了。其他对cpu、内存、io、磁盘空间、网络带宽的监控也要扎实做好,定期做好相关告警和统计报表。也是运维的一项重要工作。
支持客服朋友,查看日志,想办法给客服朋友他们想看的数据。 Sql是最好的,可以教,可以优化。
他们通常需要支持运营市场的是报告、转化率、arpu、返回玩家信息等,主要是为了吹嘘自己的会议和迎合老板。
知识管理也是支持的一部分。文档、工具使用指南、历史故障记录、优化解决方案等各类知识都可以消化分享给部门,甚至跨部门。
它也是支持的一部分,可以使用,还有厨师等,你必须了解并能够掌握其中之一的使用。容器技术目前可以作为玩具和吹牛的资本,不要放在线环境中。
数据
数据也是一个大坑。运维必须纠正它在这个环节中的作用。很多原始数据在运维手里,但是需求端可能只需要一小部分,但是查询需求可以说是五花八门,玩死开发,开发会议和运维讨论,有时侯太坑的需求直接被堵死了。在游戏行业,每个公司的标准都不一样服务器运维,都是根据自己公司的需求来执行的。关系型数据库、大表、开放式数据库、剖析工具、需求和实现方案,需要有一定的了解。
查询业务将涉及软硬件选型、ssd、cpu、显存数据库、主从架构读写分离等技术。
安全
运维又一个大坑。在被黑和注入之前,运维和研发都觉得自己的架构是安全的。
流量命中、DDos 也是我考虑将所有业务迁移到云端的原因。传统IDC没有可靠的流量清洗系统。基本上同一个机房被攻击,你们都吃亏。如果受害者是你自己,你基本上无法在 24 小时内恢复业务。切换到云端后,去年承受了高达 63G/s 的功率冲击,但也花了不少钱。
费用
在公司成立初期,被认为过于开放,无法扩大规模。它买了很多服务器,在带宽和其他资源上花了很多钱。一旦框架成熟稳定,老板就会开始考虑成本控制,是否把没用的服务器发回去卖掉,带宽能不能降低。幸运的是,如果所有服务器都是 linux,则无需担心 的版权问题。粗略测算,之前的业务切换到云端后,运维成本增加到原来的1/3。
最后,将您的业务放到云端确实是一个不错的选择。其实上云之后还要处理一系列的问题,这里就不多说了。