책: 머신러닝 벤치마크의 부상하는 과학

Book: The Emerging Science of Machine Learning Benchmarks

요약

머신러닝 벤치마크의 성공과 한계를 다루는 책으로, 정적 테스트 세트 기반 벤치마크가 연구 진전을 이끌었지만 메트릭 게이밍, 편향 강화, 노동 착취 등 윤리적 문제를 야기한다고 지적한다. ImageNet과 MMLU 같은 벤치마크가 AI 발전의 핵심 동인이었음에도 불구하고 그 작동 원리와 한계를 과학적으로 분석한다.

핵심 포인트

  • 벤치마크는 이론적 근거 없이 등장했지만 ImageNet, MMLU 등을 통해 AI 발전을 주도함
  • 반복적인 테스트 세트 사용은 적응성 문제로 전통적 통계 분석을 무효화하고 메트릭 게이밍을 초래

왜 중요한가

AI/머신러닝 개발자는 벤치마크 기반 성능 평가의 한계를 이해하고 실제 문제 해결 능력과 윤리적 영향을 함께 고려해야 한다.

📄 전문 번역

머신러닝 벤치마크는 왜 작동하는가?

머신러닝의 핵심은 놀랍도록 단순합니다. 데이터를 훈련 세트와 테스트 세트로 나누고, 훈련 세트에서는 자유롭게 모델을 만든 뒤, 테스트 세트에서 성능을 비교하는 것이죠. 이것이 벤치마크입니다.

벤치마크에 대한 비판들

머신러닝 연구자들은 벤치마크의 한계에 대해 오래전부터 목소리를 높여왔습니다. 정적인 테스트 세트와 지표는 연구를 획일화하고, 더 창의적인 과학적 탐구를 억누른다는 겁니다. 게다가 벤치마크는 지표를 조작하려는 유인을 만들어내고, 결과적으로 부풀려진 성능 수치를 낳습니다.

구드하트의 법칙(Goodhart's law)은 통계 지표에 기반한 경쟁의 위험을 경고해왔는데, 벤치마크 문화는 이 경고를 무시해왔습니다. 시간이 지나면서 연구자들은 벤치마크 데이터셋에 과적합되어, 데이터의 특이한 패턴을 악용하는 모델들을 만들게 됩니다. 그 결과 테스트 세트의 성능이 실제 모델의 능력을 제대로 반영하지 못하게 되고, 특히 인간과 기계의 성능을 비교할 때 왜곡된 그림을 그리게 되는 거죠. 여기에 벤치마크의 성과가 현실 세계로 전이되지 않는 수많은 이유들이 더해집니다.

윤리적 문제

이러한 비판들과 함께 윤리적 문제도 제기됩니다. 벤치마크는 사람, 사회관계, 문화, 사회에 대한 편향을 강화하고 고착시킵니다. 더 심각한 문제는 대규모 인간 주석 데이터셋 구축 과정에서 소수 계층의 노동을 착취하면서도, 그로 인한 경제적 이득은 이들과 나누지 않는다는 점입니다.

이런 비판들이 타당하다는 점은 널리 인정됩니다. 특히 큰 기술 회사들이 벤치마크를 통해 구조적 우위를 확보한다는 주장은 설득력이 있습니다. 벤치마크에 대한 반박은 명확해 보입니다.

그런데 문제는 이것입니다. 벤치마크가 과학적으로 왜 작동하는지에 대한 설명은 훨씬 덜 명확합니다.

벤치마크의 성공

부인할 수 없는 사실은 벤치마크가 실제로 분야의 진전을 이끌었다는 것입니다. ImageNet은 2010년대 딥러닝 혁명과 분리할 수 없는 존재였고, 회사들은 개 품종 분류 성능을 두고 치열하게 경쟁했습니다. 블렌하임 스패니얼과 웰시 스프링거의 분류 정확도가 진지한 경쟁의 대상이 됐던 거죠. 10년이 지난 지금, 언어 모델 벤치마크는 지정학적 의미까지 갖게 됐습니다. 테크 CEO들은 주주에게 보고할 때 MMLU(대학 수준의 객관식 문제 세트)에서의 자사 모델의 점수를 읊습니다. DeepSeek의 R1이 OpenAI의 o1을 일부 추론 벤치마크에서 이겼다는 소식은 글로벌 주식시장을 흔들 정도의 파장을 일으켰습니다.

벤치마크는 왔다 가지만, 그 중심성은 변하지 않았습니다. 경쟁적 리더보드 등반이 머신러닝 진전의 주된 방식이었던 겁니다.

역설: 성공했지만 이상적이지 않은 벤치마크

만약 인공지능의 진전이 실제라면, 벤치마크도 어떤 의미에서 작동했다는 뜻입니다. 하지만 벤치마크가 작동했다는 사실은 사후 관찰일 뿐, 과학적 교훈은 아닙니다.

벤치마크는 패턴 인식의 초기 시절에 나타났습니다. 이론적 기초 없이 말이죠. 벤치마크가 어떤 이론적 지지를 받았다 해도, 그 이론은 사람들이 실제로 벤치마크를 사용하는 방식에 의해 금방 무효화됐습니다. 통계학은 테스트 세트를 금고에 잠가두라고 처방했지만, 머신러닝 실무자들은 정반대로 했거든요. 벤치마크를 인터넷에 공개해서 누구나 자유롭게 다운로드하고 평가할 수 있게 만들었습니다. 인기 있는 벤치마크는 수백만 번의 다운로드와 평가를 기록하면서, 모델 개발자들이 점진적으로 더 나은 수치를 두고 경쟁하게 됩니다.

이게 흥미로운 역설인데요. 벤치마크는 작동해서는 안 되는 것이었는데, 정말로 작동했습니다. 이 책의 목표는 벤치마크가 왜 작동하고, 무엇을 위해 작동하는지를 밝혀내는 것입니다.

이 책의 구조

이 책의 첫 번째 부는 기초를 다룹니다. 수학적인 것들도 있고 경험적인 것들도 있죠. 서론 다음의 처음 두 장에서는 책을 자체적으로 이해할 수 있도록 필요한 기본 개념들을 다룹니다. 그다음 장들에서는 훈련/테스트 분할(홀드아웃 방법)을 다룹니다.

먼저 홀드아웃 방법에 대한 고전적 이론 보장과 교차 검증 방법들을 살펴봅니다. 그런데 이런 이론적 보장들은 사람들이 실제로 홀드아웃 방법을 사용하는 방식에는 적용되지 않습니다. 문제는 적응성(adaptivity)에 있거든요. 반복적인 사용으로 모델과 데이터 사이에 피드백 루프가 생기고, 이것이 전통적 분석을 무효화합니다.

이 적응성 문제는 1980년대부터 통계학자들을 괴롭혀온 프리드먼의 역설(Freedman's paradox)과 맥락을 같이 합니다. 프리드먼은 데이터에 의존하는 통계 분석이 얼마나 쉽게 잘못될 수 있는지 보여줬습니다.

과학적 위기의 징조

프리드먼의 관찰은 통계 과학에서 진행 중인 과학적 위기를 예고했습니다. 연구자들이 통계치(예: p-값)에 기반해 경쟁할 때, 성공적인 재현은 제한적이고 거짓 발견은 흔해집니다. 물론 p-값만이 범인은 아닙니다.

연구자의 자유도(researcher degrees of freedom)가 통계적 측정을 항상 뛰어넘는 것 같습니다. 실제로 구드하트의 법칙은 경쟁적 압력 속에서 통계적 측정이 붕괴된다고 예측합니다. 그렇다면 고정된 테스트 세트에서 계산된 통계에 대해 연구자들이 경쟁하는 벤치마킹 생태계는 어떻게 될까요?

위기의 전제 조건들이 머신러닝에도 존재합니다. 무엇보다 다른 경험 과학과 마찬가지로 통계적 측정의 아킬레스건을 공유하고 있습니다.