AWS费良宏：云厂商故障宕机这些年来一直不是(图)-行业动态-武汉网络综合布线公司-弱电布线-安防监控安装-服务器维修-UPS清灰保养-机房巡检-收银机维修-湖北IT外包公司-专业数据恢复-湖北IT外包公司

多年来，云供应商停机并不是新闻：

运维失误，硬盘故障服务器运维技术，机房被雷击，调试时输入错误的命令，不同的错误会导致不同的BUG，最终导致云服务故障，造成较大损失。 AWS的费良洪先生在回忆云计算的发展历程时曾说：“在我眼里，云计算是十年的积淀，十年的教训。” 故障一直是云服务命运的双胞胎。一次次的断层之痛，都在逼着云服务厂商和用户加速成长，但这一次对于初创公司“ CNC”来说，实在是太过痛苦了。

InfoQ 认为，云供应商和用户在此类云服务故障事件中吸取了宝贵的教训。

对于厂商来说，需要学习的是：

注意错误

供应商工程师在编写代码时应捕获异常服务器运维技术，然后进行适当的错误处理。

尽可能缓存动态内容，甚至是静态内容

Redis缓存、Nginx缓存、CDN都是缓存甚至静态化内容的一些手段。虽然多级缓存维护起来比较麻烦，但是当底层服务出现问题时，它们是不可多得的战略缓冲。缓存给你买来的半小时到几个小时几乎就是救命灵芝，可以帮助你度过最艰难的时刻（，相对冷静地寻找解决方案，紧急发布新页面，或者迁移服务，把损失降到最低。

失败演练很重要

一个系统的高可用有很多因素，不仅仅是系统架构，更重要的是——高可用运维。对于高可用运维，平时的故障演练非常重要。每个季度掷一次骰子，随机关闭一个 IDC 一天。借助 Chaos，路透社每年还进行一次大规模的故障演练——灾难演练。目的是提高应对意外故障的能力。

充分告知用户云计算服务并非 100% 可靠

云提供商在提供云服务时，应告知用户存在极小概率的云存储损坏或数据丢失。建议用户自行备份或购买云备份。如果不告知或强调不够，很多用户会认为云提供商将对数据丢失造成的所有损失负责。

尊重用户，妥善处理危机

如果你是一家科技公司，你会更相信技术而不是管理。相信技术就会用技术解决问题，相信管理，那么只有制度、流程、价值观才会解决问题。没有人愿意看到问题发生；但出现问题后，最重要的是解决问题，反思问题，吸取教训。 ——陈浩

对于用户来说，需要学习的是：

检查核心依赖性并增加关键服务的冗余

很多云服务，比如AWS自己的系统，在构建上都有冗余的特性，但是完全使用会增加很多管理复杂度和成本支出，因为跨环境之间的数据同步需要云用户自己来处理。大多数企业不会选择以上方案，但单纯的数据备份在短短几个小时的周期内起不到任何作用。但这是一件值得去做的事情。

主动做好备份

根据美国标准TIA-942《数据中心通信基础设施标准》，从可用性、稳定性和安全性分为四个级别：T1，可用性为99.67%； T2，可用性为99.749%； T3，可用性为99.982%； T4，99.995% 的可用性。年平均停机时间也从0.4小时到28.8小时不等，这意味着每年都可能因为各种原因出现不可用。不管有多少个“9”的云服务，其可靠性仍然不是100%。用户需要自己做备份。当云服务出现故障时，有恢复数据的通道，而不是像“边疆CNC”一样被蒙蔽了双眼。

整理/江湖“云计算一姐”之称的上海云畅网络科技创始人兼CEO顾一楠，GLG签约中国云计算行业信息化顾问，致力于用一站式人工智能运维管理平台，国际一流的专业服务和标准化流程，帮助中国企业选好云、用好云、用好云。

行业动态

AWS费良宏：云厂商故障宕机这些年来一直不是(图)

发表评论：

评论记录：

武汉深度动力科技有限公司

联系我们

在线咨询

免费通话

微信扫一扫