Show HN: 1-Bit Bonsai, 최초의 상용 가능한 1-Bit LLM

Show HN: 1-Bit Bonsai, the First Commercially Viable 1-Bit LLMs

요약

1비트 가중치를 사용하는 상용화 가능한 첫 LLM으로, 1.15GB 메모리로 동작하며 풀정밀도 모델 대비 14배 작은 크기, 8배 빠른 속도, 5배 높은 에너지 효율을 제공한다.

핵심 포인트

  • 1-bit Bonsai 8B: 1.15GB 메모리에서 8배 빠른 속도로 풀정밀도 모델과 동등한 성능 제공
  • 에지 컴퓨팅, 로봇, 온디바이스 AI를 위한 최적화로 1.7B 모델은 iPhone에서 130 토큰/초 달성

왜 중요한가

리소스 제약이 있는 환경에서 고성능 LLM을 배포할 수 있는 새로운 가능성을 열어준다.

📄 전문 번역

1비트 가중치로 구현한 상용 수준의 경량 모델들

1-bit Bonsai 8B: 로봇과 엣지 환경을 위한 선택

1-bit Bonsai 8B는 상업적으로 실용 가능한 첫 1비트 가중치 모델입니다. 겨우 1.15GB의 메모리만으로 로봇, 실시간 에이전트, 엣지 컴퓨팅을 지원하도록 설계되었어요.

성능을 보면 정말 인상적인데요. 풀프레시전 8B 모델과 비교했을 때 크기는 14배 더 작으면서도, 벤치마크에서 동급의 성능을 유지합니다. 게다가 속도는 8배 빠르고 에너지 효율은 5배 높습니다. 결과적으로 풀프레시전 8B 모델 대비 10배 이상의 지능 밀도를 달성했다는 뜻입니다¹.

1-bit Bonsai 4B: M4 Pro에서 초고속 처리

0.57GB의 메모리로 구동되는 1-bit Bonsai 4B는 뛰어난 속도와 정확도의 균형을 잘 맞췄습니다. M4 Pro에서 초당 132 토큰을 처리하죠.

성능과 속력을 동시에 요구하는 작업에 제격입니다. 강력한 정확도와 뛰어난 에너지 효율성을 함께 제공하기 때문입니다¹.

1-bit Bonsai 1.7B: 아이폰에서 구동하는 경량 모델

0.24GB라는 아주 작은 메모리 풋프린트를 자랑하는 1-bit Bonsai 1.7B는 온디바이스 속도의 한계를 밀어붙였습니다. iPhone 17 Pro Max에서 초당 130 토큰에 달하는 속도를 냅니다.

가벼우면서도 무거운 작업을 감당할 수 있도록 설계된 모델입니다. 업계 최고 수준의 에너지 효율성과 견고한 정확도를 결합했거든요¹.


평가 지표 설명

  • 지능 밀도: 모델 크기로 나눈 에러율의 음의 로그값
  • 정확도: 여러 벤치마크의 평균 점수 (IFEval, GSM8K, HumanEval+, BFCL, MuSR, MMLU-Redux)
  • 처리 속도: 하드웨어 플랫폼 전반의 토큰/초 (높을수록 좋음)
  • 에너지 효율: 토큰당 밀리와트시 (낮을수록 좋음)