了解最新公司动态及行业资讯
点击▲关注“IT168企业级”到公众号置顶
更精彩的第一次直达
在信息时代,服务器宕机频繁发生,即使各种掠食者都无法阻止,比如最近发生的一些服务器宕机。
1.12月14日晚,微软云服务器全球再次宕机,多个国家和地区的用户深受影响。最后发现服务中断的原因是云服务器存储空间满了。2.12 月 25 日期间,许多用户经历了激活失败和登录失败的情况。除此之外,就连Apple Watch等产品的激活都受到了影响。由于高流量负载,Apple 的客户服务在线响应。3.12月25日中午服务器运维,中信期货交易软件死机,易金APP始终无法登录交易。这件事一度在微博上火了。4.12 月 26 日,任天堂 eShop 遭遇停机,任天堂发表声明称“
...
这种风波层出不穷,相信运维也不陌生。所谓“失败者有轮回,天之骄子”。停机时间使运维工作处于被动“救火”状态。运维就像一块砖头,哪里需要搬?这些模式也让 IT 部门感到疲倦。
理论上,没有绝对安全、绝对可用和绝对没有问题的服务器和应用程序。作为运维人员,有必要全面了解服务器宕机的原因和解决方法。
服务器宕机的原因
1.运行环境有问题,如机房停电导致服务器断电(欠压、过载、波动)、机房室温低、散热不良、资源冲突、文件损坏、系统故障等。服务器宕机。
2.服务器不堪重负,最常见的情况是大规模高消耗服务器资源,如C盘空间耗尽、访问值过高、程序中毒、遭受电源攻击等。
3.主备数据不一致导致的复制问题。
4.性能问题、SQL或索引设计运维不佳等。
运维需要检查哪些方面?
☛ 硬件
(1)检查是否有硬件冲突;
(2)比较服务器电源加载的电源,判断电源是否有故障;
(3)扫描硬盘表面检测是否有低帧;
(4) 由错误报告和操作系统错误信息决定;
(5)使用更换方法判断显卡、CPU、SCSI/RAID卡或其他PCI设备是否有故障。
☛ 软件
(1)查看操作系统的系统日志,可以通过系统日志判断蓝屏的一些原因;
(2)判断硬件没有故障后服务器运维,再考虑系统软件出现bug和漏洞的原因;
(3)如果是因为软件使用不当或者系统工作压力过大,可以适当增加服务器的工作压力;
(4)笔记本病毒。
在了解了原因和故障排除方法后,运维一定要从源头上防止停机的发生。一般是因为故障预警机制不完善,使得运维只能在停机发生后进行处理,大大提高了工作效率。