找回密码
 立即注册
搜索
查看: 3|回复: 0

企业运维管理制度大揭秘!为保障系统运行到底制订了啥?

[复制链接]

6351

主题

0

回帖

1万

积分

管理员

积分
19125
发表于 3 天前 | 显示全部楼层 |阅读模式
1、总则

为确保公司信息系统的软硬件设备能够稳定运行,同时使员工在运维方面的作业达到制度化的要求,流程化管理和规范化操作,因此特别制定了这一项制度。

第二条运维工作核心目标:以根本为出发点推动企业成长,积极拓展运维工作的新领域。在企业发展步入壮大阶段,通过实施网络、桌面、系统等方面的运维工作,助力企业实现稳定且持续的进步与发展。

第三条运维管理制度的适用范围:运维部全体人员。

2、编制方法

本细则涵盖了运维服务整个生命周期内的管理策略、执行的标准或规范、运用的管理模式、所需的管理辅助工具、管理的具体对象,以及基于流程的管理技术。

本细则立足于ITIL框架,旨在信息化项目的运维管理,借助管理辅助工具,采取流程化、规范化及标准化的管理模式,通过全生命周期的PDCA循环进行持续改进,全面展现了运维服务全过程的系统化管理理念。

3、运维部工作职责

一、负责网站运维和技术支撑

依据网站运营的战术与愿景,承担起构建网站整体结构、各类栏目以及应用系统等的技术开发计划的编制与实施工作,确保网站技术的稳定运行和持续创新。

承担网站栏目及应用系统的操作培训与使用手册的编制工作,同时负责用户在使用过程中遇到问题的交流与处理。

拟定网站设备及软件的采购方案,需明确所需数量、品牌型号及技术指标,并将此方案与行政部门协同执行采购事宜。

制定网站及软件的操作规范和管理条例,同时承担对其实施情况的监督与落实工作。

(五)网站设备和软件安装、调试和验收,使用培训和维修保养。

在网站日常运营期间,需协调处理信息安全及技术难题,确保网站能够全天候保持安全与稳定状态。

网站技术服务的外包管理涉及多个方面,包括技术外包的开发工作、运行服务的托管以及空间域名的管理。

负责对网站管理系统的保密口令进行设定与维护,设置完毕后需向中心主任进行登记,任何人未经允许不得擅自修改保密口令,且保密口令需每季度进行一次更新。

负责设计开发网站的新程序、新系统,以及制定网站改版和升级的技术方案。

二、负责网站信息和技术安全

遵循国家及省级网络安全法规,与通信及网络安全监管机构保持联系,迅速应对网站信息技术安全中的问题,保障网站运行的安全、稳定与可靠。

(二)制定网站的信息技术安全保密相关制度与工作流程,确保信息技术安全保密责任得到切实履行,遵循“主管负责、主办负责”的基本原则,确保责任落实到具体个人。

(三)需在服务器与电脑间部署硬件防火墙,并在服务器与工作站上安装相应的防病毒软件,以此实现硬件与技术的双重防护措施,从而有效保障网站免受病毒及黑客的侵害。

(四)负责网站信息技术安全应急处理预案制定和实施。

(五)指派专人负责监督网站各频道、页面、版块及栏目内容,构建信息技术安全监控值班记录体系,对发现的问题进行即时处理,并做好问题的记录及处理结果的登记。

构建多机备份的网站信息服务平台体系,若主系统遭遇故障或遭受攻击而无法正常运作,便能在极短时间内实现主系统的替换,确保服务不间断。

构建网站权限管理系统,依据各岗位职责分配员工操作权限;对各类应用系统、设备以及操作者,分别设定共享数据库的访问权限,并实施密码保护。为不同操作者分配独特的用户名,并定期更新,严格禁止泄露密码。

4、运维服务管理体系

运维服务管理体系详细阐述了运维过程中所涉及的各类要素,并明确了这些要素之间的相互联系。这些要素依据运维服务管理体系的要求,被有序地组织起来,协同运作,依照服务协议的规定,提供不同层次的IT运维支持。

4.1 运维服务管理对象

运维服务管理的范畴涵盖了基础架构、应用程序系统、用户群体、合作伙伴企业,以及负责IT运维的部门与员工,具体涉及内容包括:

基础设施涵盖了网络设施、主机系统、存储与备份系统、终端设备、安全防护体系,还包括机房的动力和环境保护等。

该系统涵盖了内部办公平台、门户网站以及面向公众的服务应用系统等多个组成部分。

(3)用户包括使用如上应用系统的用户。

供应商群体涵盖了基础设施与应用系统的提供者,以及IT运维服务的相关企业。

运维团队涵盖了内部参与运维工作的各个部门和员工,同时还包括那些提供运维支持的企业及其工作人员。

4.2 运维系统功能框架

依据建设单位所采用的系统架构及业务拓展需求,运维项目团队将项目维护体系细分为九个关键模块,包括服务台、时间跟踪、工单处理、问题追踪、变更控制、配置维护、工程师评估、知识库维护、数据统计以及系统维护等九个子系统。这些子系统构成了运维工作的基础框架,所有具体的运维操作都将依照这一框架进行。

4.3 运维管理组织结构

本运维项目的管理体系采用三层架构,具体布局可参照下方的图示。项目负责人与甲方就业务范围进行洽谈,并将交流成果向下级传达。项目经理承担着项目运维的全面职责,涵盖了各项规章制度的制定与执行。同时,运维工程师在项目经理的指导下执行维护任务。

4.3.1 项目负责人

职责:负责项目商务、整体协调事宜。

职位描述:

全面承担起制定建设单位运维项目服务计划的职责,对项目经理进行领导,并对其工作进行安排,对项目经理执行的具体维护工作进行指导,每周定期听取项目经理的工作进展汇报,并对项目经理的工作完成情况进行评估和考核。

协助相关单位对新增项目进行深入研究,制定详细方案,并对项目经理在项目实施过程中的具体操作提供指导。

4.3.2 项目经理

职责涵盖:负责信息化项目的规划、实施与优化,同时指导网络及数据库维护工程师进行日常作业。

职位描述:

依据企业的发展战略,引领团队中的技术工程师投身于客户服务领域,力求确保我们的运维支持能够完全契合客户的实际需求。

构建并不断优化运维管理体系,对运维流程进行精简与提升,有效应对运维服务过程中出现的各类特殊状况。

制定并增强运维工程师的专业服务水平,从而全面提升客户对服务的满意度。

4、制定和持续完善绩效考核体系;

5、制定整理运维项目的应急预案系统,并指导运维工程师实施;

提升个人专业水平,对网络管理人员及数据库管理人员进行业务指导。

4.3.3 技术主管

职责:应用、数据库管理,性能调优,实现应用负载均衡。

职位描述:

1、技术主管非项目常驻人员,根据项目需要进行专业方面指导;

承担数据库性能分析和优化工作,对数据库运行状况进行持续监控,能够迅速发现并有效应对各种异常情况。

3、熟练掌握的RAC技术,能够实现部署及调优。

熟练理解WAS等中间件的运作机制,并具备进行部署优化和故障排除的能力。

精通各类Linux操作系统,包括但不限于red-flag,并具备其部署与MySQL数据库管理的技能。对相关技术熟练运用,确保数据库实现冗余灾备、数据安全防护以及故障的快速恢复。

6、负责应用负载均衡的部署和调试。

7、负责指导数据库工程师管理员开展工作。

4.3.4服务台

职责:故障电话受理,文档管理。

职位描述

1、负责业务的救助电话的受理工作;

故障处理的启动者,需同步负责指派维护工程师,并持续监控事件处理的进展情况。



3、进行维护故障统计、用户满意度统计、工作报表输出等工作;

4、协助项目经理,进行文档整理、归类、保存等工作。

4.3.5 应用、数据库管理员

职责:维护建设单位业务系统运行正常,解决应用和数据库故障。

职位描述:

对业务系统的运行状态进行监控,对应用软件和数据库的性能进行监视与提升,并实施必要的调整。

对各类数据的生存周期进行规划,并设立相应的备份、数据恢复、数据迁移以及灾难恢复策略,依据业务需求实施数据转换和迁移等相应操作。

3、保证应用和数据库系统的安全性、完整性和运行效率。

4、负责数据库平台的整体架构及解决方案的制定和实施;

工作态度严谨,操作细致入微,主动积极,条理清晰,具备出色的沟通技巧和团队协作精神。

4.3.6 终端管理员

职责:维护建设单位桌面系统运行正常,解决终端、外设故障。

职位描述:

1、各部门电脑、打印机、传真机的维护;

2、对各部门职员进行电脑相关的技术支撑及培训工作;

熟练掌握XP系统的操作,且具备对XP及后续版本的应用能力,能够编制相关教程,对其他部门的员工进行专业培训。

4.4 运维服务流程

IT运维服务管理流程涵盖了服务台运作、事件处理、问题追踪、配置维护、变更控制、发布实施、服务等级监控、财务核算、能力评估、可用性保障、服务连续性规划、知识库管理和供应商协作等多个环节。随着运维工作的不断推进和持续优化,其他相关流程也将逐步实现独立化和规范化。

4.4.1 项目运维服务工作流程图

4.4.2 服务台

服务台作为运维服务的关键环节,与各项流程紧密相连。在管理流程中,服务台是用户获取单一联系点的渠道,负责解答用户疑问、满足用户需求,并协助用户寻找所需的支持人员。

本系统内,服务台作为唯一渠道,承担着接收各类服务请求与信息反馈的重任,并且是处理常规请求以及可由知识库(即历史事件)解答的请求的核心;此外,它还充当着解决复杂问题的二线支持桥梁。

4.4.3 事件管理

事件管理流程的核心宗旨在于迅速恢复服务供应,并尽量降低其对业务造成的负面影响。同时,力求确保服务质量和可用性等级达到最佳状态。这一流程通常包括对事件的监测与记录、对事件的分类与支持、对事件的调查与诊断、对事件的解决与恢复以及最终对事件的关闭。

本系统将所有服务请求及报警统一视为事件。事件管理模块旨在为服务台及事件管理者提供事件记录、处理、查询、审核、派发等全方位功能。此外,该模块还具备与第三方监控系统对接的能力,能够将监控系统发送的报警信息转化为事件进行处理。

4.4.4 工单管理

工单在运维现场操作和二线技术支持中扮演着关键角色,它是执行运维任务的基础。运维人员根据收到的工单来执行相应的运维活动。工单管理模块负责工单的创建、修改、查询、浏览、分配以及监督等一系列操作。

4.4.5 问题管理

问题管理流程的核心宗旨在于防止问题和事故的反复出现,同时将未解决事件所带来的影响降至最低。此流程涵盖了分析事件根本原因以及确定问题解决方案所需的一系列行动,通过恰当的控制措施,特别是变更控制和发布控制,确保解决方案得到有效执行。此外,问题管理还负责维护与问题、应急计划及解决方案相关的信息。

问题管理主要关注那些已经解决的事件中遗留的问题,或者那些仅仅解决了表面问题而未能从根本上解决问题的处理方案。这一模块的考虑基于具体事件及其处理措施,要求问题处理者通过调查和分析,最终提出切实可行的解决方案。

4.4.6 变更管理

变更管理负责对基础设施及应用程序的所有调整进行操作,同时需对提出的每一项变更进行详细的记录和分类。此外,变更管理还需对变更请求可能带来的风险、影响以及对企业业务的潜在收益进行综合评估。其核心宗旨是在尽量减少对服务造成干扰的前提下,确保变更带来的益处。

变更管理旨在对新增、调整、升级等关键资源的运维操作进行审查,以防止这些操作对现有资源的可用性产生不必要的负面影响或损害;此外,它还需具备对工单中产生变动进行事后审查的能力。

4.4.7 配置管理

配置管理流程需对基础设施和应用系统中实施的所有变更进行核实,确认这些变更与配置项之间的关联是否已正确记录;同时,还需确保配置管理数据库能够精确地呈现当前配置项的实际版本状况。

配置管理实质上是对所有资源进行统一调控的功能,这一过程涵盖了资源在整个生命周期内参数或配置的变动记录。管理信息主要围绕分类、型号、版本、位置、状态以及相关资料等基础信息展开,同时亦包括核心参数等内容。

4.4.8知识库管理

知识库管理对于运维人员而言,是至关重要的技术资料集合,其中汇聚了他们在工作中所遇到的典型案例的归纳总结以及全面实用的资料手册。在当前系统中,知识库管理实现了便捷的人机交互界面,并提供了快速查询以及维护的相应技术支持。

4.4.9 统计及工作报告

运维管理系统具备提供一线解决率、客户满意度等统计数据,能够对按类别的事件进行汇总,并支持工作报告的生成。该系统依照既定格式,基于事件、工单、问题、配置和变更等数据,助力运维管理者清晰展示运维工作的各项内容。

5、运维服务内容

5.1 服务目标

运维项目组所提供的运维服务涵盖了信息系统中的主机设备、操作系统、数据库以及存储设备等方面的维护,旨在确保用户现有信息系统的稳定运行,同时减少整体管理费用,并提升网络信息系统的整体服务质量。此外,基于日常维护所收集的数据和记录,我们还能够为用户提供全面的信息系统建设规划及建议,从而为用户的信息化进程提供坚实的保障。

用户信息系统的构建主要涵盖两大类要素:一是硬件设施,涵盖了网络设备、安全设施、主机设施以及存储设备等;二是软件体系,它又细分为操作系统软件、常见的应用软件(例如数据库软件、中间件软件等)以及业务应用软件等。

服务项目所涵盖的信息系统资源,包括以下关键状态和参数指标:

运行状态、故障情况

配置信息

可用性情况及健康状况性能指标

5.2IT资产统计服务

服务内容包括:

硬件设备型号、数量、版本等信息统计记录

软件产品型号、版本和补丁等信息统计记录

网络结构、网络路由、网络IP地址统计记录

综合布线系统结构图的绘制

其它附属设备的统计记录

5.3 网络、安全系统运维服务

对网络系统进行运维管理,需从网络连接的顺畅程度、网络运行效率以及网络监控与管理三个方面进行综合考量。

设备基础性能检测:cpu、内存使用情况监测;

设备日志查看;

设备snmp状态;

测试Ping,等工具的连通性;

网络安全策略应用是否正常;

带宽流量的实时监测;

网络拓扑链路状态监测;

异常网络数据包流量;

Dos、ddos等网络攻击情况监测;

线路的误码率、丢包率监测;

5.4 主机、存储系统运维服务

所提供的运维服务涵盖了主机及存储系统的日常监控,设备运行状况的实时跟踪,故障的排除,操作系统的维护以及补丁和升级等各项工作。

进行监控管理的内容包括:

CPU 性能管理;

内存使用情况管理;

硬盘利用情况管理;

系统进程管理;

主机性能管理;



实时监控主机电源、风扇的使用情况及主机机箱内部温度;

监控主机硬盘运行状态;

监控主机网卡、阵列卡等硬件状态;

监控主机HA运行状况;

主机系统文件系统管理;

监控存储交换机设备状态、端口状态、传输速度;

对监控备份服务流程进行细致检查,包括备份操作的起始与结束时间、操作的成功与否,以及任何出现的错误警报信息。

对存储硬件如磁盘阵列、磁带库等产生的故障提示和告警进行监控记录,同时迅速采取措施,有效解决故障问题。

对存储的性能(如高速缓存、光纤通道等)进行监控。

5.5 数据库系统运维服务

所提供的数据库运维服务涵盖了主动性能监控,这种对数据库的主动性能监控对于系统维护至关重要。借助主动性能监控,我们可以掌握数据库的日常运作状况,明确性能问题出现的位置,并针对性地进行性能提升。此外,还需密切关注数据库系统的变动,主动预防潜在问题的发生。

进行监控管理的内容包括:

数据库相关基础信息包括:文件系统状况、数据碎片处理、死锁问题应对,以及那些占用CPU资源较多或执行时间较长的SQL查询语句。

表空间使用信息监测;

数据库文件I/0读写情况;

连接数量监控;

数据库监听运行状态监测;

查看每日数据备份、数据同步是否正常;

报警日志监测;

对表和索引进行,检查表空间碎片;

检测数据库后台进程;

数据库对象的空间扩展情况监测;

5.6 中间件运维服务

中间件管理涵盖了BEA、MQ等中间件的日常维护、监控以及管理工作,旨在增强对中间件平台事件的分析与处理能力,以保证中间件平台的持续稳定运行。其监控指标主要包括配置信息的管理、故障的监控以及性能的监控。

执行线程:监控中间件配置执行线程的空闲数量。

JVM内存状况良好,内存曲线显示回收操作能够顺利进行,且回收效率较高。

在设置JDBC连接池时,其初始容量与最大容量应当保持一致,且这一数值应至少与执行线程的数量相当,这样做可以防止在系统运行期间因不断创建数据库连接而导致的性能损耗。

检查中间件日志文件是否有异常报错

如果有中间件集群配置,需要检查集群的配置是否正常。

5.7 终端、外设运维服务

负责维护终端个人电脑、笔记本电脑和工作站的操作系统、应用软件及硬件,处理使用者在使用过程中遭遇的问题,提供基础培训,并负责打印机等外围设备的故障排除。

6、应急服务响应措施

运维团队精心编制了一套周密的紧急应对计划,其操作流程既严格又井然。然而,在服务维护的实际操作中,意外状况仍有可能发生。我们将对项目执行过程中可能出现的突发风险进行深入剖析,并针对不同类型的紧急事件,制定了相应的预防及应对策略,同时构建了一套完备的应急处理步骤。

6.1应急预案实施基本流程

6.2 突发事件应急策略

值班人员需在日常工作中对应急事件进行严密监控,遇到突发状况时,需细致分析、精确判断故障发生的具体数据范围,并负责持续追踪事件直至其圆满解决。对于非运维中心的故障,应立即通知相关负责人前往现场处理,同时密切留意事件的发展过程和进展动态,并妥善记录相关信息上报给上级领导。

在常规情况下,值班人员需在十分钟内对事件进行核实。若事件性质普通,便需依照既定流程进行分配与处理;反之,则需立即启动《应急预案》,并严格遵循《应急预案》中规定的操作步骤,迅速执行应急措施。同时,要及时向上级领导汇报,确保对处理进展有实时了解。

在处理事务时,若遇到需要其他部门人员到场协助的情况,务必立即向领导层报告,并积极进行协调与沟通。同时,要迅速联络技术工程师或厂家技术支持人员,确保他们能够及时赶到现场提供帮助。

7、服务管理制度规范

7.1服务时间

在规定的工作时长内,安排专人负责值守热线电话,负责受理内部的服务咨询,并对服务台事件的处理结果进行详细记录。

在非工作时段,设有专人全天候7天24小时不间断值守的移动电话热线,此热线旨在处理内部技术难题,并负责接收机房监控人员就突发情况的实时汇报。

(3)服务响应时间:

故障级别

响应时间

故障解决时间

I级问题属于紧急类别;具体表现为系统发生崩溃,进而导致业务中断以及数据遗失。

10分钟,30分钟内提交故障处理方案

3小时以内

II级问题属于严重范畴;具体表现为某些部件出现故障、系统性能有所降低,尽管如此系统仍能继续运行,并不会对日常业务造成影响。

10分钟,30分钟内提交故障处理方案

6小时以内

III级问题属于较为严重的一类;具体表现为系统会显示错误或警告信息,尽管如此,业务系统仍能维持正常运行,并且其性能并未受到任何影响。

10分钟,30分钟内提交故障处理方案

12小时以内

IV级问题属于一般性难题;具体表现为:涉及系统技术功能的咨询、安装或配置方面的询问,以及那些明显不会对业务运营造成影响的预约服务。

10分钟,2小时内提交故障处理方案

24小时以内

7.2 行为规范

严格遵守用户制定的所有规则,并依照这些规则进行各项操作。

与用户运行维护体系内其他部门及环节紧密协作,保持高度一致,共同推进技术支持活动。

遇到技术难题、业务上的疑问以及紧急状况,应立即向相关负责人进行汇报。

在进行现场技术支持时,应保持精神焕发,着装得体,言谈文雅,行为举止庄重。接听电话时,需展现文明礼貌,确保言语清晰易懂,态度和蔼可亲。

坚守保密规定。对于受支持单位的网络系统、主机设备、系统软件、应用软件等,包括其密码、关键参数以及业务数据,承担着保密的义务,严禁擅自进行复制与扩散。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|【远见科技】 ( 京ICP备20013102号-58 )

GMT+8, 2025-5-18 01:15 , Processed in 0.975841 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表