Datadog vs 무료 Observability Stack — 비용·시간 효율의 *손익분기점* 분석 (Prometheus·Grafana·Loki·Tempo·Alertmanager)
Datadog 한 달 청구서 5,000 만원. 스타트업 CTO 들이 2026 년에도 자주 듣는 충격. 그 5,000 만원의 실제 가치 는 얼마인가? Prometheus + Grafana + Loki + Tempo 무료 stack 으로 같은 가시성 을 얻는 데 진짜 비용 (셋업 시간 + 운영 시간 + 클러스터 자원) 은 얼마인가?
이 글은 (1) Datadog 가격 구조 해부 + (2) 무료 stack 매핑 + (3) 손익분기점 계산 + (4) 시나리오별 결정 으로 정리한다. 이전 IntelliJ vs Eclipse 손익분기점 글 의 observability 버전.
TL;DR — 손익분기점 한 줄
호스트 < 30 대 + 엔지니어 < 10 명 = 무료 stack 이 압도적 ROI 호스트 > 300 대 + 엔지니어 > 50 명 = Datadog 이 압도적 ROI 중간 구간 (30~300 호스트) = 결정 변수가 *팀 시간 단가** + 온콜 빈도
| 측면 | Datadog | 무료 stack (Prometheus 외) |
|---|---|---|
| 초기 비용 | $0 (트라이얼) | $0 (오픈소스) |
| 월 운영 비용 (호스트당) | $15~$70 (티어 + 통합 별) | 클러스터 자원 + 운영 시간 |
| 셋업 시간 | ~2~8 시간 (agent 설치) | ~3~10 일 (각 컴포넌트 + 통합) |
| 운영 시간 (월) | ~5 시간 (대시보드 만들기) | ~10~30 시간 (튜닝, 패치, 장애) |
| 알람 룰 작성 | UI 클릭 | YAML / PromQL |
| 데이터 보존 | 기본 15 개월 (옵션) | 자체 관리 (Postgres / S3 / object) |
| 장애 대응 | 24/7 SaaS 가 책임 | 너 책임 (운영 중 깨지면 알람도 안 옴) |
| 벤더 lock-in | 강함 | 없음 |
1. Datadog 의 가격 구조 — 각 product 별 독립 청구
Datadog 은 단일 제품 가격 이 아닌 9 개 product 의 모듈식 청구:
1.1 핵심 라인
| Product | 단위 | 가격 (2026 기준) |
|---|---|---|
| Infrastructure | per host / 월 | $15 (Pro) / $23 (Enterprise) |
| APM (트레이싱) | per host / 월 | $31 / $36 |
| Log Management — Ingest | per GB | $0.10 |
| Log Management — Retention | per million events / 월 | $1.27 ~ $3.75 (보존 기간별) |
| Synthetics — API | per 10k tests / 월 | $5 |
| Synthetics — Browser | per 1k tests / 월 | $12 |
| RUM (Real User Monitoring) | per 1k sessions / 월 | $1.50 |
| Security Monitoring | per host / 월 | $19 |
| Database Monitoring | per database host / 월 | $70 |
1.2 실제 청구 시나리오
스타트업 (호스트 20대, 엔지니어 15명):
20 호스트 × $15 (Infra) = $300
20 호스트 × $31 (APM) = $620
1 TB 로그/월 × $100 (ingest) = $100
+ retention 15일 = $50
+ Synthetics API 100k tests = $50
─────────────────────────────────
월 청구: 약 $1,120 (~150 만원)
중견 (호스트 100대, 엔지니어 80명):
100 × $15 + 100 × $31 = $4,600
5 TB 로그/월 = $500
DB monitoring × 10 = $700
Synthetics + RUM 등 = $300
─────────────────────────────────
월 청구: 약 $6,100 (~820 만원)
대기업 (호스트 1000대):
호스트 × ($15 + $31) = $46,000
로그 50 TB = $5,000
DB / Security / Synthetics = $5,000
─────────────────────────────────
월 청구: 약 $56,000 (~7,500 만원)
연 청구: 약 9 억원
→ 호스트 수와 선형적 으로 증가. 클라우드 비용보다 빠르게 폭증 가능.
1.3 숨은 비용
- Custom metrics: 추가 $0.05 per metric / 월. 100 metrics = $5/host. 대규모 환경에선 큰 부담
- Indexed log retention: 15 일 기본, 그 이상 추가 청구
- Trace 100% 보존 → $$$. 보통 sampling 1~5%
- Cardinality 폭발: user_id label 같은 high-cardinality 가 청구 폭증
2. 무료 Stack — 어느 도구가 Datadog 의 어느 product 대체
2.1 매핑 매트릭스
| Datadog Product | 무료 대안 | 비고 |
|---|---|---|
| Infrastructure metrics | Prometheus + node_exporter | Pull 기반, scrape interval 15s |
| APM (트레이싱) | Tempo (Grafana) + OTLP | Jaeger 도 가능 |
| Log Management | Loki (Grafana) | “Prometheus for logs” |
| Dashboards | Grafana | Datadog dashboard 보다 덜 화려, 충분 |
| Alerts | Alertmanager + PrometheusRule | YAML 정의, Git-managed |
| Synthetics (uptime) | Blackbox Exporter / k6 | 또는 uptime-kuma |
| RUM | Sentry / OpenTelemetry web SDK | RUM 은 완전 대체 어려움 |
| Database monitoring | postgres_exporter / mysqld_exporter | Postgres 의 pg_stat 노출 |
| Security monitoring | Falco + Wazuh | 별도 학습 곡선 |
| Real-time profiling | async-profiler + Pyroscope | JVM 한정엔 충분 |
2.2 통합된 Grafana LGTM 스택
L — Loki (logs)
G — Grafana (UI)
T — Tempo (traces)
M — Mimir (metrics, Prometheus 호환)
Grafana Labs 가 통합 stack 으로 push. Datadog 의 *Logs + Traces + Metrics 통합 UX 와 거의 동등*.
2.3 내가 운영 중인 무료 stack
- Prometheus (kube-prometheus-stack helm chart) — metrics
- Grafana — UI
- Loki + Promtail / Fluent-bit — logs
- Tempo + OpenTelemetry Collector — traces
- Alertmanager — alerts → Telegram bot
- Blackbox Exporter — uptime
- postgres-exporter / kafka-exporter / nginx-exporter — DB / Queue 별
- uptime-kuma — *추가* 외부 가시성
클러스터 자원: ~3 CPU + 4 GB RAM + 100 GB 디스크 (prod 30+ 서비스 모니터링).
3. 진짜 비용 계산 — 호스트 수별
3.1 호스트 비용 모델
Datadog 청구식:
월 청구 = hosts × ($15 + $31) # infra + APM
+ log_TB × $100 # 로그 ingest
+ retention_GB × $X # 보존
+ custom_metrics × $0.05/100 # 사용자 정의
무료 stack 비용식:
월 비용 = 클러스터 자원 (CPU/RAM/디스크)
+ 셋업 시간 × 엔지니어 시간단가 # 일회성, 첫 해만
+ 운영 시간/월 × 시간단가 # 반복
+ 장애 시간 × 비즈니스 비용 # 가끔
3.2 예시 계산 — 호스트 20 대 환경
Datadog:
- 월 $1,120 (위 시나리오) = 연 $13,440 = 약 1,790 만원
무료 stack:
- 클러스터 자원: 3 CPU + 4GB + 100GB ≈ 연 $200 (AWS 기준) 또는 0 원 (홈랩)
- 셋업 시간: 5 일 × 8 시간 = 40 시간 × 시간단가 $30 = $1,200 일회성
- 운영 시간 (월): 15 시간 × $30 = 월 $450 = 연 $5,400
- 합산 첫 해: $200 + $1,200 + $5,400 = $6,800 (~ 900 만원)
- 이후 매년: $200 + $5,400 = $5,600 (~ 750 만원)
연간 절약: $13,440 - $6,800 = $6,640 (~890 만원)
호스트 20 대 환경에서 무료 stack 이 우세.
3.3 예시 계산 — 호스트 1,000 대 환경
Datadog:
- 월 $56,000 = 연 $672,000 = 약 9 억원
무료 stack:
- 클러스터 자원: 더 큼. 10 CPU + 32GB + 5TB ≈ 연 $5,000
- 셋업: 50 일 작업 (대규모는 전담 SRE 팀 필요)
- 운영 (월): 80 시간 = $2,400 → 연 $28,800
- 첫 해 = $5,000 + $12,000 + $28,800 = $45,800 (6,100 만원)
- 이후 = $33,800/년 (4,500 만원)
연간 절약: $672,000 - $45,800 = $626,200 (~84,000 만원 = 8 억원)
호스트 1,000 대 환경에서도 무료 stack 이 절약은 큼. 단:
- Datadog 의 *24/7 SaaS 보장, 즉각적 새 feature 추가 는 무료 stack 이 못 줌
- 운영 인력의 *전문성** 이 진짜 비용
4. 시간 효율 — 진짜 ROI 의 판단
4.1 Datadog 의 시간 절감 영역
✅ 알람 룰 빠른 설정 — UI 클릭으로 5 분. 무료 stack 은 YAML 30 분~수 시간
✅ 대시보드 — 기본 템플릿 풍부. AWS/Postgres/Redis 등 자동 감지 + 대시보드
✅ APM 자동 instrumentation — Java agent 하나로 모든 메서드 trace. 무료 stack 은 OpenTelemetry 직접 통합
✅ 장애 자동 분석 — Watchdog 이 anomaly 자동 감지 + root cause 추측
✅ upgrade 부담 0 — SaaS 가 알아서 패치
4.2 무료 stack 의 시간 비용 영역
⚠️ 셋업 — 5~10 일 (각 컴포넌트 + Helm chart + 통합)
⚠️ 튜닝 — Prometheus retention, Loki chunk size 등 직접 조정
⚠️ 알람 룰 작성 — PromQL 학습 필요
⚠️ 패치 — Prometheus 새 버전, Grafana 업그레이드 직접
⚠️ monitoring 의 monitoring — Prometheus 자체가 죽으면 알람도 안 옴. meta-monitoring 필요
⚠️ 장애 시 모든 책임 너
4.3 손익분기 시간
Datadog 의 *연 비용 차액* (vs 무료) = $7,000 (호스트 20대 기준)
무료 stack 의 *추가 운영 시간 / 년* = 100 시간 (위 계산)
→ 시간단가 $70 미만 면 *무료 stack 이 ROI 양수*
→ 시간단가 $70 초과 면 *Datadog 이 ROI 양수*
한국 백엔드 / SRE 시간단가 추정:
- 주니어 (3년 미만): ~$15/h
- 미드 (3-7년): ~$30/h
- 시니어 (7년+): ~$50/h
- 외국 stake 회사: ~$100+/h
→ 국내 대다수 환경에선 무료 stack 이 ROI 양수. 단 시니어 SRE 가 *비싸진 시간 을 Datadog 으로 절약 할 수 있다면* Datadog 도 합리.
5. 경영학적 분석 — 결정 변수
5.1 호스트 수 비례 비용 — Datadog 의 치명적 패턴
호스트 수 증가 → Datadog 청구 *선형* 증가
무료 stack → 자원만 *완만하게* 증가
cross-over point (손익분기):
~30-50 호스트 부근
소규모 (< 30 호스트) → 무료 stack 압도 중간 (30-300) → 결정 변수 (시간단가, 운영 능력) 대규모 (> 300) → 진영 분리:
- Datadog 의 24/7 보장 가치 큼
- 그러나 비용도 매월 1000 만원+ — 전담 SRE 팀 가능 비용
5.2 팀 규모 vs 도구 비용
Datadog 비용 = 호스트 수 × $45 / 월
무료 stack 운영 = SRE 1 명 풀타임 (대규모 환경)
→ 호스트 500 대 = 월 $22,500 = *SRE 1 명 풀타임 비용*
대규모 환경에선:
- Datadog 비용 = SRE 1 명 비용 인 시점에 선택지
- SRE 가 *없으면 Datadog*
- *SRE 가 *있으면 *Datadog 절약분으로 다른 사람 채용**
5.3 위험 가중치
| 위험 요인 | Datadog | 무료 stack |
|---|---|---|
| 도구 자체 다운 | SaaS 가 책임 | 너 책임 |
| 데이터 손실 | 거의 없음 (SaaS) | 자체 백업 필요 |
| 벤더 lock-in | 강함 (마이그레이션 어려움) | 0 |
| 가격 인상 | 가능 (2024 inflation 30%) | 0 |
| 보안 / 데이터 거버넌스 | 외부 SaaS | 자체 운영 |
보안 민감 산업 (금융, 공공, 의료) 은 Datadog 의 *외부 SaaS** 가 *허용 안 됨 — 무료 stack 만 가능.
5.4 Hidden ROI — 가격에 안 보이는 가치
Datadog 의 진짜 가치 (가격표 안 나옴):
- Watchdog 의 자동 anomaly detection
- Service Map 자동 생성
- Notebooks 협업
- Incidents workflow
- SLO dashboard
- Audit log (보안 / 컴플라이언스)
무료 stack 의 Hidden 가치:
- 벤더 lock-in 회피
- 팀의 *PromQL / observability 깊이 학습*
- 오픈소스 기여 가능
- *자체 호스팅 = *데이터 주권**
6. 결정 가이드 — 시나리오별
시나리오 A: 1 인 개발자 / 사이드 프로젝트
무료 stack 100%. 호스트 1~5 대. Datadog 가격 부담. Prometheus + Grafana 가 충분.
시나리오 B: 시드 ~ 시리즈 A 스타트업 (호스트 5~30)
무료 stack 우선 + Datadog free tier 사용 (5 hosts 한정 무료):
- Datadog 의 Watchdog / RUM 만 무료 tier 로 부분 사용
- 본격 모니터링은 Prometheus + Grafana
시나리오 C: 시리즈 B/C (호스트 30~300)
결정 변수:
- SRE 시간단가 < $50/h → 무료 stack
- SRE 시간단가 ≥ $50/h → Datadog 검토 (특히 APM)
- 24/7 oncall 부담 → Datadog 의 Watchdog 자동 분석 가치
대다수 한국 스타트업은 무료 stack 이 합리.
시나리오 D: 대기업 / 글로벌 (호스트 300+)
Datadog 이 기본, 단 고비용 통제:
- 비용 가시화 — DD Cost Insights 활용
- high-cardinality 차단 — user_id 같은 label 회피
- Sampling 비율 조정 (APM trace 1~5%)
또는 하이브리드:
- Critical 시스템 (결제, 인증) — Datadog
- 비핵심 (배치, 분석) — 무료 stack
시나리오 E: 금융 / 공공 / 의료
무료 stack 필수 — 데이터 외부 SaaS 금지.
7. 내 환경의 결정 — K3s 홈랩 + 30+ 서비스
내 환경:
- 호스트: 5 노드 (K3s) + 곧 R730xd 추가
- prod 서비스: 30+ namespace
- 트래픽: 작음 (대부분 학습 + 작은 trial prod)
- 비용 부담: 개인 비용
결정: 무료 stack 100%.
현재 운영:
Prometheus (kube-prometheus-stack)
├─ node-exporter (모든 노드)
├─ kube-state-metrics
└─ postgres-exporter / kafka-exporter
Grafana
├─ Kubernetes 클러스터 대시보드
├─ JVM 대시보드 (Micrometer Prometheus)
├─ Postgres 대시보드
└─ 비즈니스 KPI (settlement / lemuel-xr)
Loki + Fluent-bit
├─ 모든 pod 로그 수집
└─ Grafana Explore 에서 검색
Tempo + OpenTelemetry Collector
└─ Spring Boot 의 traces (Micrometer tracing bridge)
Alertmanager
└─ → Telegram bot (lemuel CPU 알람 등 실제 운영)
연 비용 추정:
- 인프라: $0 (홈랩)
- 시간: ~80 시간/년 (튜닝, 패치) × $0 (개인 시간) = $0
- 학습 가치: 높음 — 직접 PromQL / LogQL 등 학습
→ 무료 stack 의 ROI = 무한대 (홈랩 환경).
회사 환경이면 호스트 30 대 미만 + 시간단가 < $50/h 시 무료 stack 권장.
8. 흔한 함정 5 가지
❌ 함정 1: Datadog 가 *알아서 다 해준다 는 환상*
비용 통제 안 하면 매월 예상의 3 배 청구. Custom metrics, high-cardinality, retention 폭증.
❌ 함정 2: 무료 stack = *공짜 라는 착각*
시간 비용 이 진짜 비용. 5 일 셋업 + 월 15 시간 운영 = 시니어 시간단가에 따라 큰 금액.
❌ 함정 3: monitoring 의 monitoring 부재
Prometheus 자체가 죽으면 알람도 안 옴. 외부 uptime 도구 (Pingdom / uptime-kuma) 로 Prometheus 자체 모니터 필요.
❌ 함정 4: Cardinality 폭발
http_requests_total{path="/api/users/12345"}
http_requests_total{path="/api/users/12346"}
...
path 에 user_id 들어가면 metric 수 폭증. Datadog 청구 폭증 / Prometheus 메모리 폭증. path label 은 route pattern 만.
❌ 함정 5: vendor lock-in 후 마이그레이션 비용
Datadog → 무료 stack 마이그레이션 = 모든 대시보드 / 알람 / runbook 재작성. 6 개월~1 년 작업. 처음 선택 이 진짜 lock-in.
9. 결론 — 경영 의사결정 변수 5 가지
| 변수 | 무료 stack 유리 | Datadog 유리 |
|---|---|---|
| 호스트 수 | < 50 | > 300 |
| 엔지니어 시간단가 | < $50/h | ≥ $50/h |
| 산업 규제 (금융/공공) | ✅ | ❌ 금지 |
| 운영 인력 보유 | ✅ | 없으면 Datadog |
| 학습 가치 | 추구 | 결과 우선 |
2026 년 5 월 추천:
- 소규모 스타트업 / 사이드 프로젝트 → 무료 stack (Prometheus + Grafana + Loki + Tempo)
- 중견 30~300 호스트 → 시간단가 기반 결정. 둘 다 가능
- 대기업 300+ 호스트 → Datadog 또는 전담 SRE + 무료 stack
- 금융 / 공공 / 의료 → 무료 stack 만 가능
한 줄 결론: Datadog 의 5,000 만원 청구서는 *호스트 1000 대 + SRE 부재 의 합리적 가격 이지만, 호스트 30 대 환경에선 *시간 단가 무시한 사치**. *경영의 핵심 은 호스트 수 × 시간단가 의 교차점 을 측정 하고 결정하는 것.*
참고
- Distributed Systems Observability — Cindy Sridharan (2018)
- Observability Engineering — Charity Majors, Liz Fong-Jones, George Miranda (2022)
- Datadog Pricing
- Grafana LGTM Stack
- Prometheus: Up & Running — Brian Brazil (2018)
- 관련 글: