了解最新公司动态及行业资讯
多年来,云供应商停机并不是新闻:
运维失误,硬盘故障服务器运维技术,机房被雷击,调试时输入错误的命令,不同的错误会导致不同的BUG,最终导致云服务故障,造成较大损失。 AWS的费良洪先生在回忆云计算的发展历程时曾说:“在我眼里,云计算是十年的积淀,十年的教训。” 故障一直是云服务命运的双胞胎。 一次次的断层之痛,都在逼着云服务厂商和用户加速成长,但这一次对于初创公司“ CNC”来说,实在是太过痛苦了。
InfoQ 认为,云供应商和用户在此类云服务故障事件中吸取了宝贵的教训。
对于厂商来说,需要学习的是:
注意错误
供应商工程师在编写代码时应捕获异常服务器运维技术,然后进行适当的错误处理。
尽可能缓存动态内容,甚至是静态内容
Redis缓存、Nginx缓存、CDN都是缓存甚至静态化内容的一些手段。 虽然多级缓存维护起来比较麻烦,但是当底层服务出现问题时,它们是不可多得的战略缓冲。 缓存给你买来的半小时到几个小时几乎就是救命灵芝,可以帮助你度过最艰难的时刻(,相对冷静地寻找解决方案,紧急发布新页面,或者迁移服务,把损失降到最低。
失败演练很重要
一个系统的高可用有很多因素,不仅仅是系统架构,更重要的是——高可用运维。 对于高可用运维,平时的故障演练非常重要。 每个季度掷一次骰子,随机关闭一个 IDC 一天。 借助 Chaos,路透社每年还进行一次大规模的故障演练——灾难演练。 目的是提高应对意外故障的能力。
充分告知用户云计算服务并非 100% 可靠
云提供商在提供云服务时,应告知用户存在极小概率的云存储损坏或数据丢失。 建议用户自行备份或购买云备份。 如果不告知或强调不够,很多用户会认为云提供商将对数据丢失造成的所有损失负责。
尊重用户,妥善处理危机
如果你是一家科技公司,你会更相信技术而不是管理。 相信技术就会用技术解决问题,相信管理,那么只有制度、流程、价值观才会解决问题。 没有人愿意看到问题发生; 但出现问题后,最重要的是解决问题,反思问题,吸取教训。 ——陈浩
对于用户来说,需要学习的是:
检查核心依赖性并增加关键服务的冗余
很多云服务,比如AWS自己的系统,在构建上都有冗余的特性,但是完全使用会增加很多管理复杂度和成本支出,因为跨环境之间的数据同步需要云用户自己来处理。 大多数企业不会选择以上方案,但单纯的数据备份在短短几个小时的周期内起不到任何作用。 但这是一件值得去做的事情。
主动做好备份
根据美国标准TIA-942《数据中心通信基础设施标准》,从可用性、稳定性和安全性分为四个级别:T1,可用性为99.67%; T2,可用性为99.749%; T3,可用性为99.982%; T4,99.995% 的可用性。 年平均停机时间也从0.4小时到28.8小时不等,这意味着每年都可能因为各种原因出现不可用。 不管有多少个“9”的云服务,其可靠性仍然不是100%。 用户需要自己做备份。 当云服务出现故障时,有恢复数据的通道,而不是像“边疆CNC”一样被蒙蔽了双眼。
整理/江湖“云计算一姐”之称的上海云畅网络科技创始人兼CEO顾一楠,GLG签约中国云计算行业信息化顾问,致力于用一站式人工智能运维管理平台,国际一流的专业服务和标准化流程,帮助中国企业选好云、用好云、用好云。