모든 것의 미래는 거짓입니다: 안전성 문제

The Future of Everything Is Lies, I Guess: Safety

📅 2026-04-13 📰 Hacker News (Top) ⬆ 257

요약

LLM 기반 ML 시스템의 안전성 문제를 비판적으로 분석하는 장문의 글입니다. 정렬(alignment) 시도가 근본적으로 실패할 것이며, 기술 장벽들이 빠르게 무너지고 있어 누구나 비정렬 모델을 훈련할 수 있게 될 것이라고 주장합니다.

핵심 포인트

LLM의 정렬은 선택적이고 비용이 많이 드는 과정이므로, 학습 하드웨어 접근성 증가, 소프트웨어 노출, 훈련 데이터 수집 용이로 인해 누구나 비정렬 모델을 만들 수 있게 될 것
현재의 정렬 기술도 완벽하지 않아 99%의 혐오표현을 막아도 대규모 배포에서 여전히 해로운 콘텐츠 생성, 생물무기 정보 제공 등의 위험이 존재

왜 중요한가

LLM 기반 시스템을 개발하는 개발자들이 보안 및 윤리적 한계를 이해하고 신중하게 배포해야 함을 강조합니다.

📄 전문 번역

미래는 거짓투성이다, 아마도: 안전성 문제

Software / LLM / 2026-04-13

본론

새로운 머신러닝 시스템은 우리의 심리적, 신체적 안전을 위협합니다. ML 기업들이 "AI"를 인간의 이익과 일치시킬 거라는 기대는 순진합니다. "착한" 모델을 만들 수 있게 되면서 동시에 "악한" 모델도 만들 수 있게 된 거거든요.

"착한" LLM이라고 해도 보안의 악몽입니다. 흔히 이야기하는 "치명적인 삼각형"은 사실 더 단순합니다. LLM에게는 문제를 일으킬 수 있는 권한을 줄 수 없다는 겁니다.

LLM은 악의적인 공격자의 비용 구조를 완전히 바꿔놨습니다. 이제 대규모의 정교하고 타겟팅된 보안 공격, 사기, 괴롭힘이 가능해졌거든요. 모델은 사람이 감당하기 힘든 텍스트와 이미지를 만들어낼 수 있습니다. 콘텐츠 모더이터들의 부담이 크게 증가할 걸 예상합니다. 준자율 무기는 이미 등장했고, 앞으로 그 성능은 계속 높아질 겁니다.

정렬(Alignment)은 장난이다

좋은 의도를 가진 사람들이 LLM을 인간 친화적으로 만들려고 열심히 노력하고 있습니다. 이를 "정렬(alignment)"이라고 부르는데, 저는 이게 작동하지 않을 거라고 봅니다.

먼저 ML 모델의 본질을 봅시다. 모델은 선형대수의 거대한 더미일 뿐입니다. 인간의 뇌는 생물학적으로 이타적 행동을 습득하도록 설계되어 있지만, 모델에는 그런 선천적 특성이 없습니다. 모델이 "착하게" 행동하는 건 순수하게 학습 데이터와 훈련 과정의 결과입니다.

OpenAI 같은 회사들은 거대한 팀을 투입해서 LLM과 대화하고, 생성된 텍스트를 평가하고, 가중치를 조정합니다. 또한 핵심 모델이 "폭탄 만드는 방법" 같은 위험한 내용을 말하지 않도록 감시하는 별도의 LLM을 만듭니다. 이 모든 과정은 선택사항이고, 비용이 많이 듭니다.

정렬되지 않은 모델을 만드는 건? 아주 간단합니다. 윤리 의식이 없는 조직이 이런 작업을 건너뛰거나 대충하면 됩니다.

정렬을 방해할 수 있는 네 가지 장벽

첫 번째: 훈련과 추론용 하드웨어의 접근성

하드웨어가 희귀해서 쉽게 구할 수 없다면? 현실은 그렇지 않습니다. 전 세계 기술 산업이 ML 칩 생산에 집중하고 있고, 데이터센터를 엄청난 속도로 짓고 있습니다. Microsoft, Oracle, Amazon은 훈련용 클러스터를 누구든 빌려주려고 경쟁 중입니다. 규모의 경제가 빠르게 비용을 낮추고 있거든요.

두 번째: 훈련과 추론 소프트웨어를 비밀로 유지

수학은 이미 공개됐으니까 막을 수 없습니다. 소프트웨어는 각 회사의 비밀로 남아있긴 한데, 오래 지속되지 않을 거라고 봅니다. 최첨단 연구소에서 일하던 사람들이 다른 회사로 옮기면서 지식이 자연스럽게 퍼질 테니까요. 국가 행위자들이 OpenAI 같은 회사에서 기술을 빼내려고 시도하지 않는다면 그게 더 이상할 겁니다. 사우디가 트위터에서 한 짓, 중국이 지난 20년간 미국 기술 업계에 해온 일들을 생각해보면 말입니다.

세 번째: 훈련 데이터의 획득이 어렵다는 가정

이건 이미 물 건너간 이야기입니다. Meta는 해적판 책을 토렌트로 받고 인터넷 전체를 스크래핑해서 LLM을 훈련했습니다. 둘 다 쉽게 할 수 있는 일입니다. 심지어 웹 스크래핑을 서비스로 제공하는 회사들도 있는데, 이들은 주거용 프록시 배열을 이용해서 탐지와 차단을 피합니다.

네 번째: 강화학습 과정에서 LLM 응답을 평가하는 계약직 노동자들

"AI"는 "African Intelligence"의 약자라는 농담이 있을 정도인데, 이 과정은 돈이 필요합니다. 하지만 다른 모델의 출력을 이용해서 자신의 모델을 훈련하면 비용을 줄일 수 있습니다. OpenAI는 Deepseek이 정확히 이런 방식을 사용했다고 생각합니다.

결론: 우리는 준비가 안 되어 있다

결국 충분한 자금만 있으면 누구든 정렬되지 않은 모델을 훈련할 수 있는 환경을 만들었습니다. ML 기업들은 악의적 AI의 진입장벽을 높이기는커녕 오히려 낮춰놨다는 뜻입니다.

게다가 지금의 정렬 노력도 그리 효과적이지 않아 보입니다. LLM은 복잡한 카오스 시스템이고, 우리는 어떻게 작동하고 어떻게 안전하게 만들 수 있는지 정말로 이해하지 못합니다. 수년간 엄청난 인력과 자본을 쏟아부었는데도, "정렬된" LLM은 계속 미성년자에게 성적 메시지를 보내고, 특정 공격 방식은 모델을 속여서 폭력 이미지를 생성하게 만들고, 누구든 "검열되지 않은" 버전의 모델을 다운로드할 수 있습니다.

물론 정렬이 많은 나쁜 일을 막기는 합니다. 하지만 모델은 수백만 번 실행되므로, 방어막을 뚫을 기회는 무수합니다. 증오 발언의 99%를 막는 정렬도 결국 엄청난 양의 증오 발언을 만들어냅니다. 생물 무기 제조법은 단 한 번만 제대로 나오면 충분하거든요.

우리는 이렇게 가정해야 합니다. 몇 년 안에 "착한" 모델마다 그에 맞먹는 "악한" 버전이 나타날 거라는 겁니다. 악한 모델의 등장을 막고 싶다면, 착한 모델도 만들지 말아야 합니다.

🔗 원문 보기 👍 유용해요

📬 FE 데일리 리포트