Skip to main content

如何使用开源方案做出类似 datadog 的完整监控方案呢?

· 3 min read

最近做了几个运维工程师的面试,发现其实很多运维工程师并未使用像 Datadog 这类全栈监控Saas方案,大部分都是 Prometheus 的监控方案,所以我就有一个问题:

如果我们不使用 Datadog 服务,我们是否能够通过开源软件构建出一个全栈监控解决方案?

引用 全局架构设计

可使用技术栈

核心开源组件全家桶 (CNCF 生态为主)

功能模块推荐开源方案作用说明
指标监控Prometheus + VictoriaMetrics/Thanos采集、存储、查询时间序列指标,VictoriaMetrics 性能更好,Thanos 适合大规模集群
日志管理Loki + Promtail/FluentBit低成本日志聚合,支持 LogQL 查询,天然集成 Prometheus 标签体系
链路追踪Tempo/Jaeger + OpenTelemetry (OTel)分布式追踪系统,OTel 提供统一的数据采集标准
前端监控OpenTelemetry RUM + Grafana Faro浏览器端性能监控 (需自行开发部分埋点)
告警中心Alertmanager + Grafana Alerting统一告警管理,支持多级路由、静默、去重
可视化Grafana统一仪表板和探索界面,支持关联指标/日志/追踪
基础设施Node Exporter + kube-state-metrics服务器/K8s 基础监控
合成监控Blackbox Exporter + Grafana Synthetic模拟用户访问的主动监控 (HTTP/TCP 等)
统一采集OpenTelemetry Collector一站式数据采集、处理、转发 (替代 Datadog Agent)

全局架构设计