目的

为规范运维人员的变更行为,降低变更风险,提升整体运维质量,特制定本变更规范。

变更本身具有不确定性,每一次变更都可能对系统稳定性和业务连续性产生影响。在缺乏统一记录和规范流程的情况下,一旦出现问题,往往需要多名成员临时介入排查,信息不对称,责任边界模糊,最终只能被动兜底。

因此,我们通过 Redrock Horizon 平台发起变更单 的方式,对每一次变更进行记录和管理,使变更过程可追溯、可评估、可复盘

同时,完整地编写变更单,有助于运维人员在变更前进行系统性思考,这对于培养全局视角和风险意识具有长期价值。


发起变更单

33c9286d-4820-4c4b-b067-1f37fb97449a

变更分类

技术变更

主要面向 SRE 的系统操作 以及 研发人员的代码发布行为

包括但不限于:

  1. 涉及代码部署、服务启停、服务升级等底层系统操作
  2. 日常版本发布(功能迭代、热修复、补丁更新等)
  3. 基础资源调整(服务器扩容、网络架构变更、存储资源配置等)

运营变更

主要指 由 SRE 发起的策略或参数调整类操作

包括但不限于:

  1. 通过后台管理系统实施的操作(如向 WAF 黑名单添加 IP 等)
  2. 业务规则或策略配置更新(如风控阈值、安全封禁参数调整,服务配置项变更等)

变更分级

紧急变更、危险变更、重大变更: 在提交变更单后,需在运维群内同步说明,由相关人员评估风险并确认后,方可执行变更。

  • 低风险变更

    简单、常规、风险可忽略的变更。一般不强制记录,以避免产生大量无效信息;如对后续学习或复盘有参考价值,可酌情记录。

  • 标准变更

    全流程可控、透明,且具备快速回滚能力的变更。例如非核心组件变更、业务代码的常规发布。

  • 紧急变更

    用于处理突发事故,或变更失败后的紧急回滚操作,需要立即执行。

  • 危险变更

    涉及运维核心组件、关键基础设施或重要业务数据的变更。

  • 重大变更

    同时具备紧急性和危险性的变更操作。


变更目的

说明本次变更的背景和原因,即为什么需要发起该变更。

需简要描述前因后果,并说明在变更前的主要考虑点。


影响范围

明确本次变更可能影响的范围:

  • 生产集群:在生产集群上的变更,可能影响网校的核心业务和基础设施
  • 办公区:可能影响办公区相关业务,如办公网络、内部系统等
  • 云服务:在阿里云、腾讯云等云平台上的操作,如 DNS 解析修改、云资源调整等

变更详情

详细描述本次变更的具体内容,包括但不限于:

  • 做了哪些变更
  • 如何实施变更
  • 在什么系统、什么位置进行变更

要求尽量详尽、清晰,便于后续回溯和复盘。


影响评估

在变更前对潜在影响进行评估,并给出分析说明,包括但不限于:

  • 是否会导致业务中断
  • 可能的中断时长
  • 是否影响业务 QoS
  • 是否存在数据丢失或不一致风险

同时,需要明确是否具备可行的回滚方案。


回滚方案

说明在最坏情况下,本次变更的容灾或回滚处理方案,确保在出现异常时可以快速恢复。


备注

补充其他需要说明的信息(可选)。

若无相关内容,请填写 “无”


变更单结单

当变更执行完成后,请在 Redrock Horizon 上将对应变更单的状态更新为”变更结束”,以完成结单。

系统将自动记录结单时间。至此,本次变更流程结束。

d141540d-de48-4c56-82e1-54cbb4ec895b

bd31f052-abaa-498f-8e72-e292c65f452b