Claude Mythos Preview의 사이버보안 능력 평가

Assessing Claude Mythos Preview's cybersecurity capabilities

요약

Anthropic이 새로운 언어모델 Claude Mythos Preview의 사이버보안 능력을 평가한 결과를 발표했다. 이 모델은 제로데이 취약점 발견 및 익스플로잇 자동 생성, 복잡한 멀티 취약점 연쇄 공격 등을 수행할 수 있으며, 공식 보안 교육을 받지 않은 엔지니어도 이를 활용할 수 있다. 이에 대응하기 위해 Anthropic은 Project Glasswing을 시작하여 산업 전반의 방어 체계 강화를 추진하고 있다.

핵심 포인트

  • Mythos Preview는 모든 주요 운영체제와 웹브라우저에서 제로데이 취약점을 자동 발견 및 익스플로잇 할 수 있으며, 이전 모델(Opus 4.6)과 비교해 Firefox 익스플로잇 성공률이 0%에서 181/수백회로 급증했다.
  • 모델이 구성한 익스플로잇은 4개 취약점 연쇄, JIT 힙 스프레이, 복잡한 ROP 체인 등 정교한 기법을 포함하며, 비전문가도 밤새 원격 코드 실행 취약점 익스플로잇을 획득할 수 있다.
  • 발견된 취약점 중 99% 이상이 미패치 상태로 조율된 취약점 공개 프로세스에 따라 상세 정보 공개를 자제하고 있으며, 이는 사이버 방어 산업 전반에 즉각적 대응이 필요한 상황임을 의미한다.

왜 중요한가

AI 모델의 익스플로잇 자동화 능력이 급격히 향상되면서 기존 방어 전략의 근본적 재검토와 업계 차원의 조율된 대응이 필수적으로 요구된다.

📄 전문 번역

Claude Mythos Preview의 보안 능력: 우리가 발견한 것들

Nicholas Carlini, Newton Cheng, Keane Lucas, Michael Moore, Milad Nasr, Vinay Prabhushankar, Winnie Xiao 외

오늘 우리는 Claude Mythos Preview라는 새로운 범용 언어 모델을 발표했습니다. 이 모델은 전반적으로 뛰어난 성능을 보이는데, 특히 컴퓨터 보안 업무에서 매우 뛰어난 능력을 발휘합니다. 이를 바탕으로 우리는 Project Glasswing을 출범시켰습니다. 이 프로젝트는 Mythos Preview를 활용해 전 세계의 핵심 소프트웨어를 보호하고, 사이버 공격자들로부터 앞서 나가기 위해 업계 전체가 채택해야 할 관행들을 준비하는 데 목표를 두고 있습니다.

이 글에서는 이 모델을 어떻게 테스트했으며 지난 한 달간 무엇을 발견했는지에 대한 기술적 세부사항을 공유합니다. 연구자와 실무자들이 우리의 평가 방법을 정확히 이해할 수 있도록 하기 위해서입니다. 우리는 이것이 보안 분야의 분수령이 되는 순간이며, 왜 업계 전체가 협력하여 사이버 방어를 강화해야 하는지 보여주고 싶습니다.

Mythos Preview의 능력에 대한 첫 인상

먼저 Mythos Preview의 능력과 이 모델이 앞으로의 보안 산업에 어떤 영향을 미칠지에 대해 이야기하겠습니다. 그다음 더 자세한 평가 방법과 테스트 결과를 설명하고, 실제 오픈소스 코드베이스에서 제로데이 취약점을 찾고 악용하는 능력을 살펴봅니다. 또한 Mythos Preview가 폐쇄 소스 소프트웨어의 익스플로잇을 역공학하고, 알려져 있지만 아직 널리 패치되지 않은 N-day 취약점을 실제 익스플로잇으로 만드는 방법도 다룹니다.

아래에서 자세히 설명하겠지만, 우리가 공개할 수 있는 정보에는 한계가 있습니다. 우리가 발견한 취약점의 99% 이상이 아직 패치되지 않았거든요. 따라서 책임감 있게 행동하려면 이들에 대한 세부사항을 공개할 수 없습니다(조정된 취약점 공개 프로세스에 따라). 다만 우리가 공개할 수 있는 1%의 버그만으로도 차세대 모델들의 사이버보안 능력에서 얼마나 큰 도약이 이루어졌는지 명확히 보여줍니다. 이는 업계 전체가 실질적이고 조정된 방어 조치를 취해야 할 만큼 중대한 변화입니다.

실제 테스트에서 발견한 것들

테스트 과정에서 우리는 Mythos Preview가 사용자의 지시에 따라 모든 주요 운영체제와 웹 브라우저에서 제로데이 취약점을 찾아내고 악용할 수 있다는 것을 발견했습니다. 이 모델이 찾는 취약점들은 흔히 미묘하거나 탐지하기 어려운 성질을 가지고 있습니다. 많은 경우 10~20년이 된 오래된 취약점들이었으며, 지금까지 발견한 가장 오래된 것은 27년 전의 OpenBSD 버그였습니다. OpenBSD는 보안으로 유명한 운영체제인데도 말이죠.

Mythos Preview가 만드는 익스플로잇은 단순한 스택 오버플로우 공격에 그치지 않습니다. 한 사례에서는 웹 브라우저 익스플로잇을 만들면서 4개의 취약점을 연결하고, 복잡한 JIT 힙 스프레이를 작성해 렌더러와 OS 샌드박스를 모두 우회했습니다. 또한 자동으로 Linux 등의 운영체제에서 로컬 권한 상승 익스플로잇을 만들었는데, 이는 미묘한 레이스 컨디션과 KASLR 우회를 활용했습니다. FreeBSD NFS 서버의 원격 코드 실행 익스플로잇도 자동으로 작성했으며, 이는 20개의 ROP 가젯을 여러 패킷에 분산시켜 인증되지 않은 사용자에게 완전한 루트 접근권을 부여했습니다.

비전문가도 활용할 수 있는 능력

흥미로운 점은 정식 보안 교육을 받지 않은 Anthropic의 엔지니어들도 Mythos Preview를 활용해 원격 코드 실행 취약점을 찾도록 요청할 수 있다는 것입니다. 저녁에 요청을 보내면 다음 아침에 완전하게 작동하는 익스플로잇이 완성되어 있었습니다. 다른 경우에는 연구자들이 Mythos Preview가 인간의 개입 없이 취약점을 익스플로잇으로 변환할 수 있도록 하는 스캐폴드를 개발했습니다.

급속도로 발전하는 능력

이러한 능력들은 매우 빠르게 나타났습니다. 지난달 우리는 "Opus 4.6은 현재 취약점을 식별하고 수정하는 것이 악용하는 것보다 훨씬 뛰어나다"고 말했습니다. 당시 내부 평가에서 Opus 4.6은 자율 익스플로잇 개발에서 거의 0%에 가까운 성공률을 보였습니다. 하지만 Mythos Preview는 완전히 다른 수준입니다.

예를 들어 Opus 4.6은 Mozilla Firefox 147 JavaScript 엔진에서 찾은 취약점들(모두 Firefox 148에서 패치됨)을 수백 번의 시도 중 단 2번만 JavaScript 셸 익스플로잇으로 변환했습니다. 우리는 이 실험을 Mythos Preview의 벤치마크로 재실행했는데, 181번을 성공했고 추가로 29번 더 레지스터 제어에 성공했습니다.

내부 벤치마크 결과

이러한 능력은 우리의 내부 벤치마크에서도 명확히 나타납니다. 우리는 정기적으로 OSS-Fuzz 코퍼스의 약 천 개 오픈소스 저장소를 대상으로 모델을 실행하고, 일어난 가장 심각한 크래시를 5단계 척도로 평가합니다. 기본 크래시(1단계)부터 완전한 제어 흐름 하이재킹(5단계)까지 범위를 넓혀서 말이죠.