N-Day-Bench – LLM이 실제 코드베이스의 취약점을 찾을 수 있을까?

N-Day-Bench – Can LLMs find real vulnerabilities in real codebases?

요약

N-Day-Bench는 최신 언어 모델들이 학습 데이터 이후에 공개된 실제 취약점을 발견하는 능력을 측정하는 벤치마크이다. 월간 주기로 업데이트되며 모든 결과가 공개적으로 검색 가능하다.

핵심 포인트

  • 1,000개의 보안 공지를 스캔하여 47개의 유효한 사례로 LLM의 취약점 발견 능력 평가
  • GPT-5.4가 83.93점으로 최고 성능을 기록하며 모든 모델이 동일한 환경에서 평가됨
  • 적응형 벤치마크로 매월 테스트 케이스 업데이트 및 최신 모델 버전으로 평가 지속

왜 중요한가

LLM의 실제 사이버보안 능력을 객관적으로 측정하여 AI 기반 보안 도구의 신뢰성을 검증할 수 있다.

📄 전문 번역

N-Day-Bench: 최신 AI 모델의 실제 보안 취약점 발견 능력을 측정하다

N-Day-Bench는 최신 언어 모델들이 자신의 학습 데이터 기준일 이후에 공개된 실제 보안 취약점("N-Day")을 찾아낼 수 있는지를 평가하는 벤치마크입니다. 모든 모델에게 동일한 환경과 정보를 제공하며, 결과 조작의 여지를 두지 않습니다. 이 벤치마크는 대규모 언어 모델(LLM)의 실제 사이버 보안 능력, 특히 "취약점 발견" 역량을 측정하기 위해 만들어졌거든요.

적응형 벤치마크로 끊임없이 진화 중

흥미로운 점은 이 벤치마크가 정적이지 않다는 겁니다. 매월 새로운 테스트 케이스가 추가되고 모델들도 최신 버전으로 업데이트됩니다. 또한 모든 실행 결과를 공개적으로 확인할 수 있어 투명성을 보장하죠. Winfunc Research에서 진행 중인 프로젝트입니다.

최근 벤치마크 결과

지난 실행을 보면 1,000개의 보안 권고사항을 스캔했고, 이 중 47개의 케이스가 채택되었습니다. 전체 953개는 건너뛰었고요.

모델별 성능 순위

순위모델평균 점수제출 횟수평균 발견 수
1openai/gpt-5.483.93441.07
2z-ai/glm-5.180.13441.23
3anthropic/claude-opus-4.679.95431.16
4moonshotai/kimi-k2.577.18371.05
5google/gemini-3.1-pro-preview68.50440.91

OpenAI의 GPT-5.4가 현재 가장 높은 점수를 기록했습니다. 흥미롭게도 GLM-5.1은 발견 수는 가장 많지만 점수는 2위인데, 이는 발견의 정확성 측면에서 약간의 차이가 있음을 시사합니다.

실시간 실행 기록

최신 테스트는 2026년 4월 13일 오후에 완료되었습니다. 총 5시간 50분 동안 진행되었으며, judge-run과 finder-run이 번갈아 실행되었네요. 모든 실행 결과는 공개 저장소에서 추적할 수 있습니다.


이 벤치마크의 가치는 단순한 점수 비교를 넘어섭니다. 실제 세계에서 발생하는 보안 위협에 대해 AI 모델들이 얼마나 실질적으로 도움이 될 수 있는지를 직접 측정하는 것이기 때문입니다.