了解最新公司动态及行业资讯
编辑推荐:
本文主要介绍IT运维服务内容、IT运维服务流程、IT运维服务管理体系规范和IT运维应急服务响应措施。
本文来自腾讯云,火龙果软件Linda编辑推荐。
编辑前注意事项:信息系统服务的目标是对用户现有的基础信息系统资源进行监控和管理,及时掌握网络信息系统资源的当前状态和配置信息,反映网络信息系统资源的可用性和健康状况。信息系统资源。创造一个可知可控的IT环境,保证用户信息系统各业务应用系统的可靠、高效、持续、安全运行。
IT运维服务总体规划
IT运维服务内容
IT运维服务流程
IT运维服务管理体系规范
IT运维应急服务应对措施
一、服务内容
1.1 服务目标
运维服务包括信息系统相关主机设备、操作系统、数据库和存储设备等信息系统的运维和安全防护服务,保障用户现有信息系统的正常运行,提高整体管理水平费用。提高网络信息系统整体服务水平。同时,根据日常维护的数据和记录,提供用户信息系统的整体建设规划和建议,更好地为用户信息化发展提供有力保障。
用户信息系统的组成主要可以分为硬件设备和软件系统两大类。硬件设备包括网络设备、安全设备、主机设备、存储设备等;软件设备可分为操作系统软件、典型应用软件(如数据库软件、中间件软件等)、业务应用软件等。
通过对运维服务的有效管理,提高用户信息系统的服务效率,协调各业务应用系统内部运行,改善网络信息系统部门与业务部门的沟通,提高服务质量。结合用户现有环境、组织结构、IT资源和管理流程的特点,从流程、人员、技术三个方面规划用户网络信息系统的架构。使用 IT 服务协调用户的运营目标和业务需求。
信息系统服务的目标是监控和管理用户现有的基础信息系统资源,及时掌握网络信息系统资源的当前状态和配置信息,反映信息系统资源的可用性和健康状态,并创建一个知可控的IT环境,进而保证用户信息系统各业务应用系统的可靠、高效、持续、安全运行。
服务项目所涵盖的信息系统资源的以下几个方面的关键状态和参数指标:
运行状态、故障情况
配置信息
可用性和健康绩效指标
统计运维数据,提供信息系统管理和工作报告,汇总并提供用户想知道的数据报告
1.2 信息资产统计服务
本服务为基础服务,包含在运维服务中,有助于我们了解用户现有的信息资产,更好地提供系统运维服务。
服务包括:
硬件设备型号、数量、版本等统计记录
软件产品型号、版本和补丁的统计记录
网络结构、网络路由、网络IP地址统计记录
综合布线系统配光概述
其他辅助设备的统计记录
硬件设备列表统计
1.3 网络与安防系统运维服务
网络系统的运维管理从网络连通性、网络性能、网络监控管理三个方面实现。网络与安全系统基本服务内容:
(1)用户现场技术人员值班
根据用户需求,我们常年提供现场技术人员服务,保证网络的实时连通性和可用性,保障接入交换机、汇聚交换机、核心交换机的正常运行。
现场技术人员记录网络交换机的端口是否可以正常使用,网络的转发和路由是否正常,交换机的性能测量,网络整体性能评估。为网络扩展和优化提出优化建议。
现场值班人员还监控安全设备的日常运行状态,查看各种安全设备的日志,记录重点风暴,找出并解决安全风暴形成的原因,及时发现问题,预防从发生的问题。还没有。
同时还可以记录设备的运行数据并生成报表进行统计分析,从而对网络系统进行分析,提前预测故障。具体记录数据包括:
配置数据
性能数据
故障数据
(2)现场检查服务
现场检查服务是对客户的设备和网络进行全面检查的服务项目。通过这项服务it运维,客户可以获得设备运行的第一手信息,从而找出隐患,保证设备的稳定运行。
同时会提出针对性的预警和解决方案,让客户提前防控,将运营风险降到最低。
检查包括以下内容:
(3)网络运营分析与管理服务
网络运行分析与管理服务是指工程师对网络运行状态和网络问题进行定期检测和分析后,向客户提供指导和建议的综合性中间服务。内容包括:
p>
(4)重要时刻有专人值班
确保设备在重要时刻稳定运行对于客户的成功尤为关键。为此,我们可以在重要时刻为客户提供现场现场支持,包括政府客户重大会议期间、金融客户年终结算日、运营商客户生产等。重大网络切换或客户认为可能对其业务运营产生重大影响的任何其他时刻。
如果需要专人,客户应至少提前3周联系授权服务商的客户服务总监。对于每一位签约客户,授权服务商均需按照事先约定提供专人值守服务。如果客户需要超出协议范围的更多值班支持,他们需要支付额外的人工和差旅费用。
1.4主机、存储系统运维服务
主机和存储系统运维服务包括:主机和存储设备日常监控、设备运行状态监控、故障排除、操作系统维护、补丁升级。
大型机存储系统基本服务内容:
现场人员可监控管理的内容包括:
CPU 性能管理;
视频内存使用管理;
硬盘利用率管理;
系统进程管理;
主机性能管理;
实时监控主机电源、风扇使用情况及主机机箱内部温度;
监控主机硬盘的运行状态;
监控主机网卡、阵列卡等硬件状态;
监控主机 HA 运行状况;
主机系统文件系统管理;
监控存储交换机设备状态、端口状态、传输速率;
监控备份服务进程、备份状态(起止时间、成功、错误告警);
监控和记录C盘阵列、磁带库等存储硬件故障提示和告警,及时解决故障问题;
监控存储性能(例如缓存、光纤通道等)。
1.5个数据库系统运维服务
数据库运维服务包括主动数据库性能管理,对系统运维非常重要。通过主动的性能管理,可以了解数据库日常运行状态,识别数据库性能问题出现在哪里,有针对性地进行性能优化。同时密切关注数据库系统的变化,主动预防可能出现的问题。
数据库运维服务还包括快速检测、诊断和解决性能问题。当出现问题时,能够及时发现性能难点,解决数据库性能问题,维护高效的应用系统。
数据库运维服务,主要工作是利用技术手段达到管理的目的it运维,以系统的最终运维为目标,提高用户的工作效率。
具体数据库运维监控的基本服务内容包括:
1.6个中间件运维服务
中间件管理是指BEA、MQ等中间件的日常维护管理和监控,提高对中间件平台风暴的分析和解决能力,保障中间件平台持续稳定运行。中间件监控指标包括配置信息管理、故障监控、性能监控。
执行线程:监控配置执行线程的空闲数。
JVM显存:JVM显存曲线正常,可以及时回收显存空间。 JDBC连接池:连接池的初始容量和最大容量应设置为相等,且至少等于执行线程数,以防止在运行过程中创建数据库连接造成性能消耗。
检查日志文件是否有异常错误
如果有集群配置,需要检查集群配置是否正常。
二、运维服务流程
建议用户采用两种服务形式:一种是技术人员上门值班,另一种是定期检查结合故障上门服务。
技术人员上门运维服务的基本操作流程如右图所示:
定期巡检结合现场运维服务的基本操作流程如右图所示:
三、服务管理系统规范
3.1个服务小时
(1)接收服务请求和咨询:在工作时间5*8小时内设立专人热线,回答内部服务请求,记录服务台风波结果。
(2)设置联通电话热线,非工作时间7*24小时接听,用于解决内部技术问题,7*24小时回答机房监控人员上报机房紧急情况。
(3)服务响应时间:
在解决故障时,技术支持人员会最大限度的保护数据,准备故障恢复的文件,力求恢复故障点前的业务状态。
对于“系统瘫痪,业务系统无法运行”的故障级别,如无法在12小时内解决故障,将在16小时内提出应急预案,确保业务系统正常运行。故障解决后24小时内提交故障处理报告。说明故障类型、故障原因、故障排除技术以及故障损失。
3.2 行为准则
(1)违反用户规章制度,严格按照用户相应规章制度执行。
(2)与用户运维系统的其他部门和环节,密切配合,共同组织技术支持工作。
(3)遇到技术难点、业务问题和重大突发事件及时向负责人报告。
(4)现场技术支持要细腻,着装得体,文明,说话简单。接电话时,文明礼貌,语言清晰,语气温和。
(5)遵循保密原则,负责所支持的网络、主机、系统软件、应用软件等的密码、核心参数、业务数据等的保密单位,不得随意复制和传播。
3.3 现场服务支持规范
运维服务人员应提供耐心、细心、热情的服务。工作要做好记录、反馈、重大问题及时报告。严格按照工作时间安排,严格按照服务流程操作。
(1)现场支持工程师着装整齐,言行有礼,技术专业,操作熟练,严谨规范;现场支持必须遵守相关规章制度用户单位。
(2)现场支持工程师在进行现场支持工作时,必须在保证数据和系统安全的前提下工作。
(3)现场支持过程中如果出现暂时未解决的故障或其他新的故障,应及时通知用户并报告负责人,寻找其他解决方案。
(4)故障解决后,现场支持工程师详细记录问题的时间、地点、提出者和问题描述,并生成书面文件。必要时现场支持工程师应向用户介绍故障原因和预防技术以及解决方法。
3.4 问题记录规范
根据用户提出的问题类型,问题分为咨询问题和系统缺陷问题两类:咨询问题是指用户提出的可以通过服务热线现场解决的问题,或者- 现场故障排除。直接、快速、实时的特点,问题可由现场支持人员终止,并可使用咨询问题记录模板记录此类问题的记录。系统缺陷问题是指用户提出的涉及系统相应环节的确认和修改,需要经过提交、诊断、确认、处理和回复等阶段的问题。 ,并将解决方案反馈给用户。具体提交流程如下:
(1)问题提交。应用信息系统用户发现属于系统缺陷的问题时,应填写系统缺陷提交表,提交给服务支持中心。
(2)问题分析。服务中心收到用户提交的问题表,应组织相应人员对问题表中描述的问题进行分析判断,确定问题类型(技术问题) 、业务问题或运营问题)问题)。
如果是技术问题,应提交服务中心技术人员对存在的问题提出具体处理意见和建议;如果是业务问题,应提交服务中心业务人员处理;如果是操作问题,可以安排相关人员向提出问题的人说明问题,并将系统缺陷问题提交表转换为系统咨询问题提交表。
(3)问题确认与解决。收到系统缺陷问题提交表后,服务中心的技术人员和业务人员会对提交的问题进行分类、总结、分析和确认。
如能解决,应明确解决问题的具体处理建议和措施。经主管签字同意后,交给实施人员实施方案实施。服务人员确认解决方案是否解决,并将解决方案附在系统缺陷问题提交表中反馈给问题提出者。
(4)报告问题。服务人员收到业务或技术人员确认的系统缺陷问题提交表后,向服务中心报告。
(5)问题回复。服务中心对提交的问题进行分析,制定解决方案并实施解决方案,并保留变更记录。汇总解决方案后,将及时发送给问题提交单位或问题分配单位 回答并提交分析过程以及问题的基本原理。
四、紧急服务响应
项目制定了详细的设计和应急预案,整个过程严谨有序。并且,在服务维护过程中,也不会完全杜绝意外情况。
下面,我们将详细分析项目实施的意外风险,但针对各种突发风暴,我们设计了相应的预防和解决措施,并提供了完整的应急处理流程。
4.1 基本应急程序
维修服务应急处理流程
4.2防控措施
针对现场服务过程中可能遇到的各种风险,制定了一系列预防和处理措施,针对一些可能的情况,举例如下:
4.3 突发风暴应急响应策略
系统运维应急预案是快速响应和处理中断或严重影响业务的故障,如停机、数据丢失、业务中断等,在最短时间内恢复业务系统并尽量减少损失。
在系统维护过程中,很难完全避免突发风暴的出现。针对这些情况,设计并制定了突发风暴应急响应策略。
系统巡检人员要定期检查各种硬件设备和应用软件的运行情况,同时做好日常数据增量备份和定期全量备份。
在向各级负责人报告发现的问题时,要协调相关资源,分析问题症结,确定解决办法和临时解决办法,防止产生更大的影响。待问题稳定或彻底解决后,应生成问题报告,以防日后出现类似的重大突发事件。
在向负责人报告发现的问题时,要协调相关资源,分析问题的症结所在,确定解决方案和临时解决方案,防止产生更大的影响。待问题稳定或彻底解决后,应生成问题报告,以防日后出现类似的重大突发事件。
当获悉突发动乱时,技术支持人员可以立即从知识库中获取相应的应急策略,并根据用户的具体情况提供相关的解决方案,然后通过电话和尽快发送电子邮件。或者以现场服务的形式帮助用户解决问题,尽量减少突发风暴对用户日常应用的影响。
应急策略服务流程图如下: