GitHub가 겨우 3개의 9(99.9% 가용성)로 어려움을 겪고 있음

GitHub appears to be struggling with measly three nines availability

요약

GitHub은 2월 초 Actions, 풀 리퀘스트, 알림, Copilot 등 여러 서비스에서 장애를 경험했으며, 상태 페이지 변경으로 인해 가용성 추적이 어려워졌다. 2025년 중 한때 가용성이 90% 아래로 떨어진 것으로 보이며, GitHub의 SLA는 99.9%를 명시하고 있다.

핵심 포인트

  • 2월 9-10일 Copilot 정책 전파 문제로 새로운 모델이 나타나지 않는 문제 발생
  • GitHub의 상태 페이지 재설계로 90일 가용성 추적이 어려워짐
  • 공식 비공개 상태 피드에 따르면 2025년 중 가용성이 90% 이하로 떨어진 시점 존재

왜 중요한가

개발자가 의존하는 주요 플랫폼의 안정성 저하는 CI/CD 파이프라인과 협업 워크플로우에 직접적인 영향을 미친다.

📄 전문 번역

GitHub, 겨우 3개의 나인도 못 지키다

클라우드 서비스의 장애는 이제 일상이 되었습니다. 5개의 나인(99.999% 가용성)은 꿈도 못 꾸고, 이 추세라면 1개의 나인도 달성하기 어려울 지경입니다.

GitHub는 최근 들어 정말 힘든 시간을 보내고 있습니다. 2월 9일만 해도 Actions, Pull Request, 알림, 그리고 Copilot까지 동시에 문제가 발생했거든요. Microsoft 산하의 GitHub는 한국시간 새벽 1시경 "일부 GitHub 서비스"에 문제가 있다고 인정했고, 이후 알림 지연이 약 50분에 달한다고 발표했습니다.

상황이 정상화되는 데까지 약 3시간 반이 걸렸습니다. 오후 1시 57분쯤에는 지연이 약 30분으로 줄어들었다고 했지만요.

Copilot이라는 주력 서비스도 피해를 입었습니다. 2월 9일 오후부터 2월 10일 오전까지 약 18시간동안 Copilot 정책 배포에 문제가 있었던 겁니다. GitHub는 "새로 활성화된 모델이 사용자에게 표시되지 않을 수 있다"고 설명했습니다.

투명성이 낮아진 상태 페이지

GitHub는 최근 상태 페이지를 개편했는데, 이게 오히려 서비스 가용성을 파악하기 어렵게 만들었습니다. 상세한 정보는 앞에 나오지만, 지난 90일간 전체적인 가동 시간이 어땠는지 한눈에 보기가 힘들어졌거든요.

다행히 공개 상태 피드를 통해 비공식적으로 예전 페이지의 정보를 확인할 수 있습니다. 물론 공식 출처가 아니라 조심스러운 해석이 필요하지만요. 이를 통해 본 결과는 좋지 않습니다. 2025년 한 시점에 GitHub의 가동률이 90% 아래로 떨어졌거든요.

혼자만의 문제가 아니다

GitHub만 이런 건 아닙니다. 5개의 나인(99.999% 가용성)이 업계 표준이지만, 90% 가용성도 못 지키는 서비스 제공자들이 많습니다. 이런 플랫폼에 의존하는 고객들에겐 심각한 문제죠.

GitHub의 Enterprise Cloud 고객을 위한 SLA(Service Level Agreement)는 99.9% 가용성을 명시하고 있습니다. 다만 모든 사용자에게 이를 보장하는 것은 아닙니다.

결론: 장애도 계획해야 한다

GitHub 고객들의 이번 사건이 시사하는 점은 명확합니다. 가동 시간뿐 아니라 장애 시간도 함께 계획해야 한다는 거입니다. 더 이상 "항상 작동한다"는 가정으로 서비스를 설계할 수 없다는 뜻이죠.