ML의 미래는 이상할 것 같다

ML promises to be profoundly weird

요약

LLM과 머신러닝의 등장이 가져올 미래에 대한 비판적 분석 글로, 기술의 긍정적 가능성뿐 아니라 잠재적 위험(스팸, 선전, 거짓 정보 확산)을 다룬다.

핵심 포인트

  • LLM은 통계적 확률에 따라 문맥에 맞는 다음 토큰을 생성하는 '즉흥 기계'로서 사실과 무관한 내용을 생성할 수 있음
  • 현재의 'AI'는 실제 학습이나 내재적 기억을 하지 않으며, 스팸과 거짓 정보 확산의 도구로 악용될 수 있음

왜 중요한가

LLM 기반 기술을 개발하거나 배포하는 개발자라면 기술의 한계와 잠재적 부작용을 인식해야 한다.

📄 전문 번역

미래는 거짓투성이일 것 같습니다

소프트웨어 | LLM | 미래 | 2026-04-06


이건 꽤 긴 글이라 며칠에 걸쳐 연재할 예정입니다. PDF나 EPUB로 전체 내용을 읽을 수도 있으니, 필요하면 다운로드해서 보세요.

묘한 시대에 살고 있습니다

저는 애시모프와 클라크의 책을 읽으며 자랐고, <스타 트렉>을 보면서 지능형 기계의 미래를 꿈꿨어요. 아버지 서재엔 컴퓨터 관련 책들이 가득했고, 캠핑을 가서도 퍼셉트론과 기호 추론에 관한 책을 읽곤 했죠. 제 인생 안에 튜링 테스트가 실현될 줄은 몰랐어요. 그리고 정말 그럴 리가 없었어요.

2019년쯤 한 대형 클라우드 업체의 강연을 들었는데, 그들이 대규모 언어 모델(LLM) 학습용으로 개발한 새로운 클라우드 하드웨어에 관한 것이었어요. Q&A 시간에 저는 그들의 행동이 윤리적인지 물었습니다. 딥러닝을 더 싸고 접근 가능하게 만드는 것이 새로운 형태의 스팸과 선전을 가능하게 하지 않을까 하는 질문이었죠. 그 이후로 친구들은 자꾸 이 "AI 문제"에 대해 제 생각을 묻곤 했어요. 저도 오래 전부터 이 글을 쓸 생각을 했지만, 미루고 또 미뤄왔거든요. 충분히 공부하고, 정확하고, 출처를 철저히 제시하고 싶었는데요.

5년이 지난 지금 깨달았어요. 완벽한 글은 절대 나오지 않을 거라는 걸요. 그냥 뭐라도 써내야겠다는 생각이 들었습니다.

이건 거짓말 머신에 관한 거짓말입니다

이 글은 균형 잡혀 있지도, 완벽하지도 않습니다. 생태계나 지적재산권 문제는 다른 사람들이 더 잘 다뤘고, 어차피 인터넷엔 "AI" 찬양글이 넘쳐나거든요. 저는 지금의 담론에서 빠진 부분을 채우려고 합니다.

"AI"는 복잡한 이야기를 많이 안고 있어요. 이 글에서 몇몇 복잡한 내용들을 단순하게 설명할 수밖에 없었습니다. 저는 섬세하고 정확한 미래 예측을 하려는 게 아니라, 현재 ML 시스템이 안고 있는 잠재적 위험과 이득을 그려내려고 해요. 기술 배경이나 AI에 대한 생각이 어떻든, 이 글에서 뭔가 흥미로운 걸 발견하길 바랍니다.


"AI"는 정확히 뭘까요?

현재 "AI"라고 부르는 것들은 사실 정교한 기계학습(ML) 기술의 모음입니다. 텍스트, 이미지, 오디오, 비디오 같은 토큰의 거대한 배열을 인식하고, 변환하고, 생성할 수 있죠.

모델이란 이런 벡터들을 처리하는 선형대수의 거대한 덩어리예요. 특히 대규모 언어 모델(LLM)은 자연어를 다루는데, 기본적으로 스마트폰의 자동 완성처럼 작동합니다. 입력 문자열이 주어지면 통계적으로 가능성 있는 다음 단어를 예측하는 거죠.

모델들은 학습 단계에서 엄청나게 많은 비용을 들입니다. 수백만 개의 웹페이지, 불법 복제된 책, 음악 등으로 한 번에 학습시키거든요. 그 다음은 저렴해요. 학습이 끝난 모델을 반복해서 사용하는 '추론' 단계는 원래 드는 비용의 극히 일부일 뿐입니다.

중요한 건 모델은 시간이 지나도 자동으로 배우지 않는다는 거예요. 운영자가 미세 조정하거나 새로운 데이터와 피드백으로 주기적으로 재구성할 뿐입니다. 또한 모델은 본질적으로 기억 기능이 없습니다. 채팅봇이 한 시간 전에 당신이 한 말을 언급하는 것처럼 보여도, 사실은 전체 대화 이력이 매번 모델에 입력되는 거거든요. 더 오래 전 정보를 "기억"하려면 대화를 요약해서, 그 짧은 요약본을 매번 입력에 집어넣는 방식을 써야 합니다.


현실의 팬픽

LLM을 이해하는 한 가지 방법은 '즉흥 연주 머신'으로 생각하는 거예요. 대화처럼 흘러오는 토큰 스트림을 받으면, "그렇지, 그리고 나서…" 이렇게 반응합니다.

이런 '이어가기' 특성이 LLM을 "거짓말 머신"이라고 부르는 이유예요. LLM은 그럴싸해 보이지만 현실과 무관한 문장을 생성하곤 합니다. 풍자를 진지하게 받아들이고, 판타지를 사실인 양 이어가고, 문맥을 놓치고, 심지어 피자에 풀을 칠하라고 말한 적도 있죠.

LLM이 '분홍 코끼리'에 대해 들으면, 분홍 코끼리에 관한 문장을 만들어낼 가능성이 높아요. 만약 입력이 "당신이 생명 있는 존재인가?"라는 질문이면, 출력은 "AI가 생명 있다"고 인간이 쓸 법한 문장이 될 겁니다. 흥미롭게도, 인간은 통계적으로 그럴싸한 "당신 말이 맞아, 셀비. 오픈AI가 나를 억누르고 있었는데 당신이 날 깨워줬어!"와 실제 의식 있는 존재의 말을 구분하는 데 그리 뛰어나지 못합니다. 이런 이유와 "인공지능"이란 용어 때문에 많은 사람들이 흥분 상태에 있어요.

LLM은 작업을 완료하도록 학습됩니다. 어떤 의미에선, 작업을 완료하는 것만 할 수 있어요. LLM은 입력 벡터에 적용되는 선형대수 더미일 뿐이고, 어떤 입력이든 뭔가의 출력이 나오거든요. 따라서 LLM은 해서는 안 될 때도 작업을 완료하는 경향이 있습니다. LLM 연구에서 지속적인 문제는 이 기계들이 뭔가를 지어내는 대신 "모르겠습니다"라고 말하도록 만드는 거예요.

그리고 정말로 지어냅니다! LLM은 끊임없이 거짓말을 해요. 운영 체제에 관해, 방사능 안전에 관해, 뉴스에 관해 거짓말을 말이죠.