N-Day-Bench: 최신 AI 모델의 실제 보안 취약점 발견 능력을 측정하다
N-Day-Bench는 최신 언어 모델들이 자신의 학습 데이터 기준일 이후에 공개된 실제 보안 취약점("N-Day")을 찾아낼 수 있는지를 평가하는 벤치마크입니다. 모든 모델에게 동일한 환경과 정보를 제공하며, 결과 조작의 여지를 두지 않습니다. 이 벤치마크는 대규모 언어 모델(LLM)의 실제 사이버 보안 능력, 특히 "취약점 발견" 역량을 측정하기 위해 만들어졌거든요.
적응형 벤치마크로 끊임없이 진화 중
흥미로운 점은 이 벤치마크가 정적이지 않다는 겁니다. 매월 새로운 테스트 케이스가 추가되고 모델들도 최신 버전으로 업데이트됩니다. 또한 모든 실행 결과를 공개적으로 확인할 수 있어 투명성을 보장하죠. Winfunc Research에서 진행 중인 프로젝트입니다.
최근 벤치마크 결과
지난 실행을 보면 1,000개의 보안 권고사항을 스캔했고, 이 중 47개의 케이스가 채택되었습니다. 전체 953개는 건너뛰었고요.
모델별 성능 순위
| 순위 | 모델 | 평균 점수 | 제출 횟수 | 평균 발견 수 |
|---|---|---|---|---|
| 1 | openai/gpt-5.4 | 83.93 | 44 | 1.07 |
| 2 | z-ai/glm-5.1 | 80.13 | 44 | 1.23 |
| 3 | anthropic/claude-opus-4.6 | 79.95 | 43 | 1.16 |
| 4 | moonshotai/kimi-k2.5 | 77.18 | 37 | 1.05 |
| 5 | google/gemini-3.1-pro-preview | 68.50 | 44 | 0.91 |
OpenAI의 GPT-5.4가 현재 가장 높은 점수를 기록했습니다. 흥미롭게도 GLM-5.1은 발견 수는 가장 많지만 점수는 2위인데, 이는 발견의 정확성 측면에서 약간의 차이가 있음을 시사합니다.
실시간 실행 기록
최신 테스트는 2026년 4월 13일 오후에 완료되었습니다. 총 5시간 50분 동안 진행되었으며, judge-run과 finder-run이 번갈아 실행되었네요. 모든 실행 결과는 공개 저장소에서 추적할 수 있습니다.
이 벤치마크의 가치는 단순한 점수 비교를 넘어섭니다. 실제 세계에서 발생하는 보안 위협에 대해 AI 모델들이 얼마나 실질적으로 도움이 될 수 있는지를 직접 측정하는 것이기 때문입니다.