AI는 인간이 될 수 없다. - 일리야 수츠케버

 

전세계 GDP의 1%가 AI 기술에 투자되고 있다.



기업이 천문학적인 돈을 투자했다는 이야기들,

예를 들자면 소프트뱅크가 OpenAI에 33조 달러를 투자한다는 등.

출처 : 연합뉴스

 

우리(일반인)는 보통 '타이틀'과 '숫자'에만 집중하지,

이 돈이 어디에 쓰일까? 에 대해서는 보통 생각하지 않는다.

 

그저, 'AI가 지금 주류이구나. 이 흐름에 AI 대장주가 뭐가 있지?

ETF에 투자해야되나?' 정도의 생각으로 이어질 뿐.

 

하지만 우리는 알고 있다.

Gemini 2.5 Pro가 나온지 6개월만에 Gemini 3.0 Pro가 나왔다.

단지 6개월만에.. 그 돈으로 만들어진 임팩트를 우리는 체감한다.


벤치마크와 현실의 괴리

그건 단지 벤치마크 평가(Evals)가 아니다.

벤치마크 평가는 우리 일상, 현실과는 조금 다르다.

마치 수학 경시대회 같달까?

벤치마크 평가는 보통 'ARC-AGI'로 테스트 한다.

 

ARC-AGI

ARC-AGI는 AI가 단순한 통계적 패턴 학습을 넘어, 인간처럼 보이지 않는 규칙을 유추해내는지를 측정하려는 시도다.

언어 모델이나 비전 모델이 아닌, 범용적 추론 엔진의 발전을 평가하기 위한 표준 지표로 설계되었다.

 

 

일리야 수츠케버가 하는 이야기는 이런게 아니다.

이런 성능은 경제적인 임팩트가 높은 건 아니다.

(ARC-AGI 벤치마크 지표가 무조건 경제적 임팩트와 정비례하는 것은 아니다.)

 

이 임팩트는 결국, '현실에서 통하는가'이다.

하지만, 현재의 LLM, AI 모델은 전혀 이상적이지 않다.


현실에서 마주하는 문제

실제 현실에서 사용하다보면 이런 일이 발생한다.

바이브 코딩으로 개발 -> 1번 오류 발생 -> 1번 오류 수정 완료 -> 2번 오류 발생 -> 2번 오류 수정 -> 1번 오류 재발 -> 무한 루프

이런 경험이 바이브 코더라면 다들 있을 것이다.

이 문제의 원인 중 한가지로 일리야는 'RL의 단일 목적 지향'을 꼽는다.

 

과적합의 문제

내가 이해하기로는, AI 모델의 '과적합' 이슈의 연장선이 아닐까 생각한다.

강화학습도 특성상, 보상이 주어지는 길로 학습을 연장하기 마련인데, 

우리의 현실은 답이 단 한가지만 있는 것은 아니다.

 

N가지 답 중에서 선택한 하나의 길로 가보니, 1차에선 답이었지만

2단계, 3단계로 넘어갈 수록 내가 의도한 것이 아닐 때도 있지 않은가?

RL의 보상-벌칙 매커니즘이 단계별 프로세스를 모두 거치면서 결국 하나의 올바른 정답으로 나아가는 것은 맞지만,

현재의 모델은 특정한 정답 프로세스 한가지에 '과적합' 되고 있는 것은 아닌가 라는 질문이 생긴다.

 

두 학생의 비유

일리야는 흥미로운 비유를 든다.

경쟁 프로그래밍 대회를 준비하는 두 학생이 있다고 가정해보자.

학생 A: 최고가 되기 위해 10,000시간을 투자했다. 모든 문제를 풀고, 모든 증명 기법을 암기하고, 모든 알고리즘을 빠르고 정확하게 구현하는 법을 익혔다.

학생 B: 경쟁 프로그래밍이 멋지다고 생각해서 100시간만 연습했다. 훨씬 적은 시간이지만, 그들도 매우 잘했다.

어느 학생이 나중에 커리어에서 더 잘할까?

 

당연히 학생 B다.

현재 AI 모델의 문제점

현재 AI 모델은 학생 A와 훨씬 더 유사하다. 아니, 더 심하다.

우리는 모델이 경쟁 프로그래밍을 잘하길 원하니까, 모든 경쟁 프로그래밍 문제를 수집한다.

그리고 데이터 증강(augmentation)을 통해 더 많은 문제를 만들어낸다.

 

그렇게 훈련하면, 훌륭한 경쟁 프로그래머가 탄생한다.

모든 알고리즘과 증명 기법이 즉시 떠오른다.

하지만 이 정도 준비한다는게 현실에 실현 가능하게끔 일반화되지 않을 가능성이 높다.

사전학습(Pre-training)과 RL의 차이

그렇다면 학생 B는 100시간의 미세조정 전에 무엇을 하고 있었을까?

일리야는 이를 "it factor"(타고난 재능)라고 부른다.

 

다만, 학생 A가 경험한 사전학습의 장점도 있지 않을까?

일리야는 이렇게 말하고 있다.

  1. 엄청난 양의 데이터 - 너무 방대해서 어떤 데이터를 넣을지 고민할 필요가 없다. 모든 것을 다 넣으면 된다.
  2. 자연스러운 데이터 - 텍스트로 투영된 전체 세계가 포함되어 있다. 사람들의 생각과 행동이 모두 담겨있다.
  3. 일반화의 착시 - 사전학습이 더 잘 일반화해서가 아니라, 단순히 데이터가 너무 많아서 모든 것이 이미 포함되어 있다.

RL 훈련의 선택 문제

하지만, 사전학습과 달리, RL 훈련을 할 때는 선택을 해야 한다.

"이런 것을 위한 RL 훈련, 저런 것을 위한 RL 훈련"

 

모든 회사가 새로운 RL 환경을 만들어내는 팀을 두고 있다.

그리고 문제가 생긴다.

 

여기엔 자유도가 너무 많다.

만들 수 있는 실제 환경의 다양성은 이미 엄청나게 많다.

그래서 뭐가 정답인지 알 수 없다. 모든 환경을 다 구축할 수는 없으니.

 

그래서 사람들은 무엇을 하는가?

평가 지표(Evals)에서 영감을 얻는다.

"모델을 출시할 때 성능이 대박이었음 좋겠다. 평가 지표에서 1등을 했으면 좋겠는데,, 이 작업에 도움이 될 RL 훈련이 뭘까?"

이것이 바로 우리가 보고 있는 현상을 설명할 수 있다.

인간과 AI의 학습 효율성

왜 AI는 인간보다 학습에 훨씬 더 많은 데이터가 필요할까?

왜 인간에게 가르치고 싶은 것을 가르치는 것이 모델보다 훨씬 쉬울까?

인간의 학습 방식

인간은 검증 가능한 보상이 없어도 학습한다.

예를 들어, 개발자를 가르칠 때,

  • 코드를 보여주고
  • 사고 방식을 공유하고
  • 그들은 자연스럽게 당신의 사고방식을 습득한다

커리큘럼이 필요 없다. 검증 가능한 보상을 설정할 필요가 없다.

불안정하게 학습하지 않는다.

인간의 진화

진화는 인간에게 가능한 한 가장 유용한 소량의 정보를 제공한다.

시각, 청각의 경우, 진화가 우리에게 많은 것을 주었다는 강력한 증거다.

 

예시: 인간의 손재주

  • 로봇도 시뮬레이션에서 엄청난 훈련을 받으면 손재주를 가질 수 있다
  • 하지만 실제 세계에서 로봇을 훈련시켜 사람처럼 빠르게 새로운 기술을 습득하게 하는 것은 매우 어렵다

그러나 언어, 수학, 코딩의 경우는 아마도 진화 때문이 아닐 것이다.

여전히 모델보다 낫다.

 

이는 무엇을 시사하는가?

사람을 학습에 능하게 만드는 것은 복잡한 사전지식이 아니라, 더 근본적인 무언가라는 것이다.


인간의 견고성(Robustness)

사람들의 견고성은 정말 놀랍다.

10대 청소년이 운전을 학습하는 것

  • 10시간의 연습 후면 준비 완료
  • 검증 가능한 보상 없이 학습
  • 환경과의 상호작용에서 학습
  • 훨씬 적은 샘플
  • 훨씬 더 견고함

운전을 시작하면, 자신이 얼마나 잘하고 있는지, 얼마나 자신감이 없는지 즉시 느낀다.

일반화의 핵심 문제

일리야는 이것이 가장 근본적인 문제라고 말한다:

"이 모델들은 사람들보다 훨씬 더 일반화를 못한다."

 

너무나 명백하다.

이것이 핵심이다. 일반화.

두 가지 하위 질문이 있다:

  1. 샘플 효율성: 왜 이 모델들이 인간보다 학습에 훨씬 더 많은 데이터가 필요한가?
  2. 학습 대상의 문제: 데이터 양과는 별개로, 왜 모델에게 우리가 원하는 것을 가르치는 것이 인간보다 훨씬 어려운가?

스케일링의 시대에서 연구의 시대로

일리야 수츠케버의 '스케일링'이 현재 LLM 성장의 가장 주요한 방법론인건 대부분 알고 있고,

그 데이터에 그 돈이 쓰이는 것으로 알고 있다.

과거의 패러다임

2012-2020: AI, LLM 연구의 시대

  • 사람들이 완성도 높은 AI를 만들기 위해 여러 가지를 시도하고 흥미로운 결과를 얻으려 노력

2020-2025: 스케일링의 시대

  • "스케일링"이라는 하나의 단어가 모든 것을 지배
  • 스케일링 법칙, GPT-3, 그리고 모두의 깨달음: "우리는 스케일해야 한다"

사전학습 스케일링의 성공

사전학습은 스케일할 수 있는 것이었다.

 

특정 스케일링 레시피

  • 일정량의 컴퓨팅 리소스 + 일정량의 데이터 + 특정 크기의 신경망 = 결과
  • 레시피를 확대하면 더 나아진다는 것을 알 수 있었다

연구에 투자하는 것과 비교하면, 이는 굉장히 리스크가 적은 방식이었다.

  • 연구자들을 보내서 연구하고 뭔가를 만들어내길 기대
    vs.
  • 더 많은 데이터, 더 많은 컴퓨팅 리소스를 얻으면 사전학습에서 뭔가를 얻을 것

하지만 지금은?

사전학습은 데이터가 부족해질 것이다.

데이터는 명백히 유한하다.

 

그렇다면 다음은?

강화학습을 확장하거나, 다른 무언가를 하거나.

하지만 이제 컴퓨팅 리소스가 매우 커졌다.

어떤 의미에서, 우리는 연구의 시대로 돌아왔다.

단지 이제는 엄청난 컴퓨팅 리소스와 함께.

새로운 질문들

스케일이 이미 매우 크다.

데이터가 100배 더 많으면 모든 것이 달라질까?

 

확실히 달라지겠지만, 100배만 스케일하면 모든 것이 변형될 것이라는 믿음이 있을까?

일리야는 그렇게 생각하지 않는다.

 

이제 우리에게 주어진 질문은,

  • 우리는 무엇을 스케일하고 있는가?
  • 레시피가 무엇을 의미하는가?
  • 우리가 추구해야 할 릴레이션은 무엇인가?

가치 함수(Value Function)의 중요성

현재 우리가 강화학습을 하는 방식은,

  1. 신경망에 문제를 준다
  2. 모델에게 해결하라고 한다
  3. 모델이 수천, 수십만 번의 행동이나 생각을 한다
  4. 솔루션을 생성한다
  5. 점수가 모든 단일 행동에 대한 훈련 신호로 사용된다

하지만 이 RL 방식의 근본적인 문제점은,

해결하는 데 오랜 시간이 걸리는 작업을 훈련하는 경우, 인간이 솔루션을 제안할 때까지 전혀 학습이 일어나지 않는다.

가장 근본적인 문제

일리야가 가장 근본적이라고 생각하는 것:

"지금의 AI 모델들은 사람들보다 훨씬 더 일반화를 못한다."

그것은 매우 명백하다.

이것이 가장 근본적인 문제로 보인다.

해결책에 대한 한계

일리야는 이에 대한 의견이 많다고 말한다.

하지만 안타깝게도, 우리는 모든 ML 아이디어가 자유롭게 논의되는 세상에 살고 있지는 않다.

 

그리고 또 다른 장애물이 있을 수 있다.

인간 뉴런이 실제로 우리가 생각하는 것보다 더 많은 연산을 수행할 가능성이 있다. (RL이나 컴퓨팅 파워로는 절대 닿을 수 없는 근본적인 한계)

만약 그것이 사실이라면, 앞으로의 상황은 더 어려울 수 있다.

우리는 어디로 가야 하는가

연구의 시대로의 회귀

2012-2020년 스케일링 시대

  • 스케일링이 모든 것이었다.
  • 모두가 같은 것을 하기 시작했다

하지만 이제는 ML 아이디어보다 회사가 더 많다.

실리콘밸리의 격언이 있다. "아이디어는 간단하다, 실행이 진짜다"

하지만 누군가 트위터에서 말했다. "아이디어가 그렇게 간단하다면, 왜 아무도 아이디어를 내지 못하는가?"

병목 지점들

병목지점은 다음과 같다.

  1. 아이디어
  2. 그것을 실현하는 능력 (컴퓨팅 리소스, 엔지니어링)

하지만 90년대는?

  • 사람들은 꽤 좋은 아이디어를 가지고 있었다
  • 훨씬 더 큰 컴퓨터가 있었다면 아이디어가 실행 가능함을 보여줄 수 있었을 것
  • 하지만 할 수 없었다
  • 병목은 컴퓨팅 파워였다.

스케일링 시대

  • 컴퓨터 성능이 매우 발전했다.
  • 얼마나 많은 컴퓨팅 파워가 필요한지는 알 수 없었지만, 그래도 성능이 뒷받침 해주었다.

연구를 위해서는 확실히 어느 정도의 컴퓨팅 파워가 필요하다.

하지만 연구를 위해 역대 최대로 컴퓨팅 파워가 필요하다는 것은 전혀 아닐 것이다.

앞으로의 방향 제안

다양성이 없었던 이유는 사전학습 때문이다.

모든 사전학습 모델은 같은 데이터로 훈련하기 때문에 거의 성능이 비슷하다.

 

이제 RL과 사후훈련에서 차별화가 나타나기 시작한다.

서로 다른 사람들이 다른 RL 훈련을 생각해내기 때문이다.

최종 전망

우리는 거대한 투자의 시대, 빠른 발전의 시대에 살고 있다.

하지만 진짜 돌파구는 단순히 더 많은 돈, 더 많은 컴퓨팅 파워가 아니다.

 

진짜 돌파구는 '일반화'를 이해하는 것이다.

- 왜 인간은 적은 데이터로도 배우는가?

- 왜 인간은 더 견고한가?

- 왜 인간은 검증 가능한 보상 없이도 배우는가?

 

이 질문에 대한 답을 찾는 것.

그것이 진정한 AGI로 가는 길이다.

그리고 그 길은 단순히 스케일을 키우는 것이 아니라, 더 스마트한 연구, 더 깊은 이해를 통해 열릴 것이다.


투자자로서, 개발자로서, 혹은 단순히 AI에 관심있는 사람으로서,

우리는 숫자에만 현혹되지 말고, 그 이면에서 일어나고 있는 근본적인 변화를 이해해야 한다.

천문학적 투자는 시작일 뿐이다.

진짜 혁명은 '일반화'의 수수께끼를 풀었을 때 시작될 것이다.

https://youtu.be/aR20FWCCjAs?si=aIRnCQMm1KAzEmXM