运维变更规范
目的
为规范运维人员的变更行为,降低变更风险,提升整体运维质量,特制定本变更规范。
变更本身具有不确定性,每一次变更都可能对系统稳定性和业务连续性产生影响。在缺乏统一记录和规范流程的情况下,一旦出现问题,往往需要多名成员临时介入排查,信息不对称,责任边界模糊,最终只能被动兜底。
因此,我们通过 Redrock Horizon 平台发起变更单 的方式,对每一次变更进行记录和管理,使变更过程可追溯、可评估、可复盘。
同时,完整地编写变更单,有助于运维人员在变更前进行系统性思考,这对于培养全局视角和风险意识具有长期价值。
发起变更单

变更分类
技术变更
主要面向 SRE 的系统操作 以及 研发人员的代码发布行为。
包括但不限于:
- 涉及代码部署、服务启停、服务升级等底层系统操作
- 日常版本发布(功能迭代、热修复、补丁更新等)
- 基础资源调整(服务器扩容、网络架构变更、存储资源配置等)
运营变更
主要指 由 SRE 发起的策略或参数调整类操作。
包括但不限于:
- 通过后台管理系统实施的操作(如向 WAF 黑名单添加 IP 等)
- 业务规则或策略配置更新(如风控阈值、安全封禁参数调整,服务配置项变更等)
变更分级
紧急变更、危险变更、重大变更: 在提交变更单后,需在运维群内同步说明,由相关人员评估风险并确认后,方可执行变更。
低风险变更
简单、常规、风险可忽略的变更。一般不强制记录,以避免产生大量无效信息;如对后续学习或复盘有参考价值,可酌情记录。
标准变更
全流程可控、透明,且具备快速回滚能力的变更。例如非核心组件变更、业务代码的常规发布。
紧急变更
用于处理突发事故,或变更失败后的紧急回滚操作,需要立即执行。
危险变更
涉及运维核心组件、关键基础设施或重要业务数据的变更。
重大变更
同时具备紧急性和危险性的变更操作。
变更目的
说明本次变更的背景和原因,即为什么需要发起该变更。
需简要描述前因后果,并说明在变更前的主要考虑点。
影响范围
明确本次变更可能影响的范围:
- 生产集群:在生产集群上的变更,可能影响网校的核心业务和基础设施
- 办公区:可能影响办公区相关业务,如办公网络、内部系统等
- 云服务:在阿里云、腾讯云等云平台上的操作,如 DNS 解析修改、云资源调整等
变更详情
详细描述本次变更的具体内容,包括但不限于:
- 做了哪些变更
- 如何实施变更
- 在什么系统、什么位置进行变更
要求尽量详尽、清晰,便于后续回溯和复盘。
影响评估
在变更前对潜在影响进行评估,并给出分析说明,包括但不限于:
- 是否会导致业务中断
- 可能的中断时长
- 是否影响业务 QoS
- 是否存在数据丢失或不一致风险
同时,需要明确是否具备可行的回滚方案。
回滚方案
说明在最坏情况下,本次变更的容灾或回滚处理方案,确保在出现异常时可以快速恢复。
备注
补充其他需要说明的信息(可选)。
若无相关内容,请填写 “无”。
变更单结单
当变更执行完成后,请在 Redrock Horizon 上将对应变更单的状态更新为”变更结束”,以完成结单。
系统将自动记录结单时间。至此,本次变更流程结束。


