N-Day-Bench – LLM이 실제 코드베이스의 취약점을 찾을 수 있을까?

N-Day-Bench – Can LLMs find real vulnerabilities in real codebases?

📅 2026-04-13 📰 Hacker News (Top) ⬆ 18

요약

N-Day-Bench는 최신 언어 모델들이 학습 데이터 이후에 공개된 실제 취약점을 발견하는 능력을 측정하는 벤치마크이다. 월간 주기로 업데이트되며 모든 결과가 공개적으로 검색 가능하다.

핵심 포인트

1,000개의 보안 공지를 스캔하여 47개의 유효한 사례로 LLM의 취약점 발견 능력 평가
GPT-5.4가 83.93점으로 최고 성능을 기록하며 모든 모델이 동일한 환경에서 평가됨
적응형 벤치마크로 매월 테스트 케이스 업데이트 및 최신 모델 버전으로 평가 지속

왜 중요한가

LLM의 실제 사이버보안 능력을 객관적으로 측정하여 AI 기반 보안 도구의 신뢰성을 검증할 수 있다.

📄 전문 번역

N-Day-Bench: 최신 AI 모델의 실제 보안 취약점 발견 능력을 측정하다

N-Day-Bench는 최신 언어 모델들이 자신의 학습 데이터 기준일 이후에 공개된 실제 보안 취약점("N-Day")을 찾아낼 수 있는지를 평가하는 벤치마크입니다. 모든 모델에게 동일한 환경과 정보를 제공하며, 결과 조작의 여지를 두지 않습니다. 이 벤치마크는 대규모 언어 모델(LLM)의 실제 사이버 보안 능력, 특히 "취약점 발견" 역량을 측정하기 위해 만들어졌거든요.

적응형 벤치마크로 끊임없이 진화 중

흥미로운 점은 이 벤치마크가 정적이지 않다는 겁니다. 매월 새로운 테스트 케이스가 추가되고 모델들도 최신 버전으로 업데이트됩니다. 또한 모든 실행 결과를 공개적으로 확인할 수 있어 투명성을 보장하죠. Winfunc Research에서 진행 중인 프로젝트입니다.

최근 벤치마크 결과

지난 실행을 보면 1,000개의 보안 권고사항을 스캔했고, 이 중 47개의 케이스가 채택되었습니다. 전체 953개는 건너뛰었고요.

모델별 성능 순위

순위	모델	평균 점수	제출 횟수	평균 발견 수
1	openai/gpt-5.4	83.93	44	1.07
2	z-ai/glm-5.1	80.13	44	1.23
3	anthropic/claude-opus-4.6	79.95	43	1.16
4	moonshotai/kimi-k2.5	77.18	37	1.05
5	google/gemini-3.1-pro-preview	68.50	44	0.91

OpenAI의 GPT-5.4가 현재 가장 높은 점수를 기록했습니다. 흥미롭게도 GLM-5.1은 발견 수는 가장 많지만 점수는 2위인데, 이는 발견의 정확성 측면에서 약간의 차이가 있음을 시사합니다.

실시간 실행 기록

최신 테스트는 2026년 4월 13일 오후에 완료되었습니다. 총 5시간 50분 동안 진행되었으며, judge-run과 finder-run이 번갈아 실행되었네요. 모든 실행 결과는 공개 저장소에서 추적할 수 있습니다.

이 벤치마크의 가치는 단순한 점수 비교를 넘어섭니다. 실제 세계에서 발생하는 보안 위협에 대해 AI 모델들이 얼마나 실질적으로 도움이 될 수 있는지를 직접 측정하는 것이기 때문입니다.

🔗 원문 보기 👍 유용해요