Skip to main content

2 posts tagged with "SRE"

View All Tags

DevOps实践指南:如何保证系统稳定性、高可用性与一致性 | 2025 运维工程师必备技能

· 7 min read

一、 核心目标分解

  • 稳定性 (Stability):
    • 系统抵御故障、快速恢复的能力。
    • 目标:降低故障发生率 (MTBF - Mean Time Between Failures)
  • 可用性 (Availability):
    • 系统在需要时可被正常使用的程度。
    • 目标:最大化正常运行时间 (Uptime),通常用 SLA (如 99.9%, 99.99%) 衡量。
  • 一致性 (Consistency):
    • 确保环境、配置、部署流程、行为在开发、测试、生产等所有阶段高度一致
    • 目标:消除“在我机器上是好的”问题,减少环境差异导致的故障

二、 DevOps 达成目标的支柱策略

1. 基础设施即代码 (IaC)

2025 年运维工程师核心能力框架:稳定性保障与高可用系统管理

· 11 min read

运维工程师需要掌握的知识体系非常广泛且不断演进,核心在于保障系统/服务的稳定性、安全性、效率和成本可控。以下是一个结构化的框架和表格,帮助你系统性地理解和拆分运维所需掌握的核心内容:

核心框架:四大能力域 + 两大支撑域

  1. 基础设施管理: 支撑应用运行的物理/虚拟基础。
  2. 系统与平台管理: 操作系统、数据库、中间件等核心软件平台的管理。
  3. 应用部署与运维: 应用的发布、运行监控、问题排查、性能调优。
  4. 自动化与流程: 提升效率、减少人为错误、保证一致性的关键。
  5. 网络与安全: 贯穿所有层次的连接和安全保障。
  6. 监控与可观测性: 系统的“眼睛”和“听诊器”,是稳定性的基石。

详细拆分表格