了解最新公司动态及行业资讯
文档介绍 本文档根据爱特项目服务器硬件设备和系统应用的管理要求,总结了日常维护内容的技术分类,描述了具体的操作步骤和操作方法服务器运维技术,积累了服务器风暴处理能力,使其服务运维。能够更加主动和可控。本文档的目的是指导标准的服务器故障处理方法,将硬件和系统软故障分开处理。服务器硬件管理 1.检测与故障判断:服务器硬件主动检测方式主要有3种:设备面板指示灯检测硬件系统日志检测第三方工具检测(一)面板指示灯检测IBM服务器有、电源指示灯、硬盘/IDE设备活动指示灯,网卡指示灯,系统过热报告指示灯。硬盘插槽也有硬盘指示灯。图解(二)第三方检测工具检测IBM诊断工具:IBM服务器运维技术,IBM2。硬件设备改变操作标准:判断并判断最快恢复时间 服务器运维管理指南判断是否有冗余设置判断是否需要c盘设备crash检查判断阵列信息判断数据备份是否对其他相关应用有影响制定 方案,保证数据和应用的可用性 设备变更 运营设备 c兼容性测试 应用系统运行 测试设备变更应用 服务器系统管理 Linux系统管理 Linux系统管理1.1平均负载()1.2c磁盘空间使用率(df1.3进程监控( ps–ef) 查看应用启动进程数是否正常1.4 显存监控(免费说明:服务器运维管理指南total:总化学内存使用大小:已使用多少free:如何much is :多个进程共享的显存消耗/:c盘缓存的大小。
第三行(-/+/):used:已经使用了多少。免费:有多少可用。 1.5CPU使用率(top) 说明:top提供当前运行系统,即运行进程的实时动态视图。默认情况下,CPU 使用率最高的任务排在最前面,每 5 秒刷新一次。 1.610)1.7 日志系统-系统日志(cat/var/log/grep'Jul23')记录报告信息服务器运维管理指南)记录系统启动错误信息——应用系统日志服务器各个应用的日志系统,如:/var/log/httpd/等监控和报告机制。根据监控软件设置相关资源监控值和对应服务端口的在线监控。如果资源使用率过高或异常,将通过短信报告通知相关运维人员。运维人员接到报告后,将根据相应的故障情况采取措施。服务器运维管理指南3.1资源占用过高 当资源占用过高时,运维人员登录服务器查看导致资源占用过高的原因,并采取调整措施影响生意。可以停止服务进行故障维护操作3. 遇到相关业务服务故障后,查看应用后台日志,从日志中发现问题,并通知项目负责人安排相关开发人员配合处理故障。故障解决后整理相关文件,描述故障原因及处理方法,并给出防止此类故障的具体措施