확산 언어 모델의 새로운 가능성: 자기 성찰적 일관성으로 품질 격차 극복하다
확산 언어 모델(DLM)은 매력적인 약속을 제시합니다. 병렬 토큰 생성으로 자동회귀(AR) 디코딩의 순차 병목을 극복할 수 있다는 거죠. 그런데 현실은 냉혹합니다. DLM은 일관되게 같은 규모의 AR 모델보다 성능이 떨어집니다.
우리는 이 격차의 원인을 찾아냈는데, 바로 자기 성찰적 일관성의 근본적인 부재입니다. AR 모델은 자신이 생성한 것과 일치하지만, DLM은 그렇지 않거든요.
이 문제를 해결하기 위해 자기 성찰적 확산 언어 모델(I-DLM)을 소개합니다. I-DLM은 자기 성찰적 스트라이드 디코딩(ISD)을 사용해서 새로운 토큰을 생성하는 동시에 이전 토큰들을 검증합니다. 모두 하나의 순전파(forward pass) 안에서요.
I-DLM의 성능: 같은 규모 AR 모델을 처음으로 따라잡다
I-DLM-8B는 같은 규모의 AR 모델과 동등한 수준의 품질을 달성한 첫 DLM입니다. 놀랍게도 절반의 파라미터로:
- LLaDA-2.1-mini(16B)를 능가: AIME-24에서 +26점, LiveCodeBench-v6에서 +15점
- 처리량: 높은 동시성 환경에서 2.9~4.1배 향상
- 무손실 가속화: Gated LoRA를 통해 비트 단위의 손실 없는 가속화 가능
DLM의 세 가지 근본적인 병목 지점
1. 사전학습된 AR 모델 변환
인과 어텐션(causal attention), 로짓 시프트(logit shift), 완전 마스킹 목표함수를 통해 기존 AR 모델을 변환합니다.
2. 병렬 생성과 검증의 균형
한 번의 순전파에서 N개 토큰을 생성하면서 p/q 수락 기준으로 이전 토큰들을 검증합니다.
3. 인프라 의존성 제거
엄격한 인과 어텐션으로 SGLang에 직접 통합되며, 별도의 커스텀 인프라가 필요 없습니다.
처리량과 효율성: 동시성에서 진정한 가치 발휘
메모리 제한 디코딩 환경에서 TPF(초당 토큰 처리량)는 벽시계 속도 향상을 잘 근사합니다. TPF 2.5는 AR 대비 약 2.5배 빠른 디코딩을 의미합니다.
계산 효율성을 TPF²/쿼리_크기로 측정하면, 각 FLOP이 AR 대비 얼마나 유용한 출력을 생성하는지 알 수 있습니다(효율성 = 1):
> 효율성 > 1은 병렬 디코딩이 AR보다 총 계산량을 더 절약한다는 뜻입니다.
이것이 I-DLM의 처리량이 동시성에 따라 확장되는 반면, SDAR와 LLaDA는 처리량이 정체되는 이유입니다.
수락률과 기하급수적 감소
수락 확률은 기하급수적으로 감소합니다. 위치 k에서의 수락 확률은 $p^{k-1}$입니다. 첫 번째 토큰은 항상 수락됩니다(로짓 시프트 덕분).
실제 사용하기: 5분 안에 I-DLM 실행하기
기본 설정
먼저 필요한 패키지와 환경을 준비합니다. inference/README.md에서 자세한 환경 설정을 확인할 수 있습니다.
사전학습 모델 변환
기존 AR 모델을 I-DLM으로 변환하려면 자기 성찰적 일관성 학습을 진행하세요.
# 학습 스크립트와 설정은 training/README.md 참조
추론: 자기 성찰적 스트라이드 디코딩
한 번의 순전파에서 생성과 검증을 동시에 수행합니다.
# 알고리즘 설정은 inference/README.md 참조
프로덕션 배포
I-DLM은 엄격한 인과 어텐션을 사용하므로 SGLang에 바로 통합됩니다.
# 모든 모델은 trust_remote_code=True 필요
# (커스텀 SDARForCausalLM 아키텍처 사용)
전체 시스템은 단순한 기준선 대비 2.1~2.5배의 처리량을 달성합니다.
무손실 가속화: Residual ISD
Gated LoRA 어댑터를 추가하면 비트 단위의 손실 없는 가속화가 가능합니다.
평가: 15개 벤치마크에서 확인된 성능
4개 카테고리의 15개 벤치마크에서 사고 모드(thinking mode)를 활성화해 평가했습니다. 재현 스크립트는 inference/eval/에서 확인할 수 있습니다.
I-DLM은 모든 이전 DLM을 능가하며, 마침내 같은 규모의 AR 모델 수준의 품질을 달성한 첫 확산 언어 모델입니다.