정백경/운영 학습과 Postmortem
이 문서는 내부 장애 상세가 아니라 운영 학습 방식만 공개 가능한 범위로 정리합니다.
운영 학습은 정백경의 커리어에서 덜 보이지만 중요한 축이다. 문제를 단순 사고나 개인 실수로 끝내지 않고, 탐지, 복구, 재발 방지, 문서화의 흐름으로 바꾸는 방식이다.
핵심 관점
- 운영 이슈는 숨길 사건이 아니라 다음 품질 기준을 만드는 원천이다.
- MTTD/MTTR 같은 관찰 지표는 팀이 문제를 더 빨리 보고 회복하게 만드는 언어다.
- 재발 방지는 누군가를 탓하는 것이 아니라 시스템과 문서의 빈칸을 줄이는 일이다.
- 회고 문서는 다음 사람이 같은 상황을 만났을 때 더 빨리 판단하게 하는 지식 자산이다.
회고가 남기는 것
| 단계 | 남겨야 하는 것 |
|---|---|
| 탐지 | 무엇을 통해 알았는지, 더 빨리 알 수 있는 신호는 무엇인지. |
| 복구 | 어떤 판단과 조치가 효과적이었는지. |
| 재발 방지 | 코드, 테스트, 모니터링, 문서 중 어디를 바꿔야 하는지. |
| 학습 | 다음 작업자가 읽고 바로 사용할 수 있는 기준. |
AI Native와 연결
AI Native 환경에서는 회고 문서가 더 중요해진다. 에이전트가 반복 작업을 수행할수록 실패 조건, 재현 경로, 완료 기준, 금지 패턴이 문서로 남아야 다음 실행 품질이 올라간다. 이 점에서 운영 학습은 업무 운영체계의 검증·기록 축이다.