ARC-AGI-3: 인간 수준의 지능을 측정하는 상호작용형 벤치마크
ARC-AGI-3란 무엇인가요?
ARC-AGI-3는 AI 에이전트가 미지의 환경을 탐색하고, 즉흥적으로 목표를 설정하고, 적응 가능한 세계 모델을 구축하며, 지속적으로 학습할 수 있는지 평가하는 상호작용형 벤치마크입니다.
100점을 받는다는 것은 AI 에이전트가 인간만큼 효율적으로 모든 게임을 클리어할 수 있다는 뜻입니다.
정적인 퍼즐을 푸는 방식과 다르게, 에이전트는 각 환경 내에서의 경험으로 배워야 합니다. 자연어 지시를 받지 않고도 무엇이 중요한지 인지하고, 행동을 선택하며, 전략을 조정해야 하는 거죠.
어떻게 지능을 측정하나요?
측정 기준:
- 인간이 100% 해결 가능한 환경
- 시간에 따른 기술 습득 효율
- 피드백이 적은 장기 계획 수립
- 여러 단계에 걸친 경험 기반 적응
여기서 핵심은 이겁니다. AI와 인간의 학습 능력 차이가 존재하는 한, 우리는 아직 진정한 AGI(범용 인공지능)를 달성하지 못한 것입니다.
ARC-AGI-3는 최종 답변만 측정하는 게 아니라 시간의 흐름에 따른 지능을 측정함으로써 그 간극을 정량화합니다. 계획 범위, 메모리 압축, 새로운 증거가 나타날 때 신념을 업데이트하는 능력까지 모두 포착해내는 거죠.
설계 원칙
- 인간이 쉽게 배울 수 있어야 함 — 복잡한 전제 조건 없이
- 사전 지식이나 숨겨진 프롬프트 금지 — 순수한 능력만 측정
- 명확한 목표와 의미 있는 피드백 — 에이전트가 학습할 수 있도록
- 기억에 의존할 수 없는 참신성 — 단순 암기를 방지
주요 기능
재생 가능한 실행 기록 + 평가
에이전트의 행동을 미리보기 재생으로 검사하세요. 의사결정, 행동, 추론을 구조화된 타임라인으로 추적할 수 있습니다.
도구 + UI
ARC-AGI-3 툴킷을 사용해 에이전트를 통합하고, 상호작용형 UI로 테스트하고 반복 개선하세요.
문서
에이전트를 만들기 위해 필요한 모든 것을 다룹니다. 환경, API 사용법, 통합 가이드까지 제공됩니다.
지금 바로 당신의 에이전트를 테스트해보세요!