피지컬 AI: 인공지능을 화면 밖으로 끌어내기 위한 경쟁이 시작됐다

/그래픽=PADO (생성 AI 사용)

인공지능이 많은 관심을 받게 되자 이제 많은 투자자들의 관심은 현재 각광받고 있는 대형언어모델(LLM) 이후의 '넥스트 빅 씽'이 될 피지컬 AI로 옮겨가고 있습니다. 주식투자에 관심이 있으신 분들이라면 이미 피지컬 AI 관련주라고 해서 몇몇 기업들이 거론되는 것을 보신 기억이 있으실 겁니다. LLM이 놀라운 수준의 발전을 보여준 것은 사실이지만 이것이 곧바로 현실 세계에서 직접 사물을 움직이고 조종하며 인간의 육체적 노동을 대체할 수 있는 수준의 인공지능으로 곧바로 이어지리라고 기대하는 데는 다소 무리가 있습니다. 아래 이코노미스트 2월 25일자 기사에서 설명하듯 언어로만은 설명될 수 없는 현실 세계에 대한 정교한 모델, 이른바 '월드 모델'을 먼저 구축해야 하기 때문입니다. 그리고 기사에서 설명하는 것처럼 이러한 모델의 훈련을 위한 데이터 수집은 언어모델 훈련에 비해 훨씬 더 많은 비용을 수반합니다. 그런데 흥미로운 점은 최근에 LLM도 이미 그 내부에 어느 정도의 월드 모델을 형성하고 있을 가능성이 제기되었으며 실험 결과에서 그것이 어느 정도 입증되었다는 것입니다. 이에 대한 인공지능 연구자들의 의견은 여전히 많이 갈리지만 어쩌면 피지컬 AI의 시대가 학계의 기존 컨센서스보다 더 빨리 올 수도 있습니다. 그런 측면에서 이 부분에 대해서도 꾸준히 관심을 기울여야 하겠습니다.

구글이 1월에 공개한 실험적인 인공지능 모델 '프로젝트 지니'는 입이 떡 벌어지게 만드는 기술적 성과이다. 이 도구에 이미지나 짧은 텍스트 같은 프롬프트를 입력하면 세계를 생성한다. 사용자는 이 세계를 돌아다니면서 상호작용할 수 있다. 간단한 요청을 입력하면 현실적인 시뮬레이션이 나온다. 반면 조르주 쇠라Georges Seurat의 그림으로 시작하면 완벽한 점묘법 스타일로 만들어진 공원을 거닐며 일요일을 보낼 수 있다.


'프로젝트 지니'는 비디오 게임처럼 느껴질 수 있지만 제작자들은 그것이 훨씬 더 심오한 것이라고 주장한다. 그들은 이를 "월드 모델"이라고 부르는데 이는 많은 AI 시스템이 결국 작업에 투입될 복잡하고 예측 불가능한 물리적 공간을 이해하는 데 도움을 주는 필수적인 도구이다. 구글은 인간형 로봇이 저녁 식사를 준비하기 전에 재료를 사러 가게에 들르거나 자율주행차가 시골길을 주행하는 미래는 월드 모델 없이는 불가능할 것이라고 주장한다.


월드 모델 개념은 1943년 스코틀랜드의 심리학자 케네스 크레이크Kenneth Craik가 쓴 책으로 거슬러 올라가는데 그는 유기체가 현실에서 가설을 실행하기 전에 이를 테스트하기 위해 머릿속에 세상의 "축소 모형"을 가지고 다닌다고 주장했다. 세상을 어떻게 바꿀지에 대한 계획을 세우려면 세상이 어떻게 작동하는지에 대한 어느 정도의 이해가 있어야 한다. 그런 이해가 없다면 어떤 생명체도 고통에 움츠리고, 음식을 향해 손을 뻗는 것과 같은 순전히 반응적인 삶을 살 수밖에 없을 것이다.


AI 시스템에 동일한 능력을 부여하는 것은 대형언어모델(LLM)이 세계의 관심을 빼앗기 전인 1990년대부터 유망한 연구 분야였다. 이제 그 관심이 다시 돌아왔다.


월드 모델을 구축하기 위해 탐색되고 있는 세 가지 주요 접근법이 있다. 한 가지 자연스러운 출발점은 AI 비디오 생성기다. 일관성 있는 비디오를 생성하는 것은 일관성 있는 세계를 시뮬레이션하는 데 달려 있다. 만약 영상 프레임 사이에 현실의 법칙이 바뀐다면 결과물은 무의미할 것이다. 이러한 기초적인 월드 모델은 입력된 것 이상의 세계에 대한 세부정보를 채울 수 있다. 미로 사진을 주면 그를 통과하는 경로를 그릴 수 있고 병을 든 손 사진을 제시하면 병을 여는 데 필요한 움직임을 정확하게 모델링할 것이다.


'프로젝트 지니'는 이러한 접근법의 정점이다. 그 유용성은 다른 AI와 결합하는 것을 상상할 때 분명해진다. 예를 들어 물리적 세계에서 작동하는 법을 배우려는 가게 로봇을 생각해보라. 이러한 작업에 필수적인 수십억 시간의 훈련 데이터는 환경을 시뮬레이션할 수 있는 모델에서보다 실제 세계에서 얻기가 훨씬 더 어려울 것이다. 그리고 시뮬레이션이 충분히 정확하다면 시스템은 그 데이터를 사용하여 스스로 훈련할 수 있다.


그러나 세상에서 가장 현실적인 영상조차도 사람이 포착할 수 있는 모든 디테일을 담을 수는 없다. 예를 들어 가게 뒤편의 고장난 냉동고 때문에 신선한 생선이 썩는 모습은 카메라에 포착되지 않으며 관련된 냄새도 마찬가지이다. 직접 보이지 않는 물체조차도 모델이 다룰 수 있는 범위를 벗어난다. 예를 들어 한 통로의 내용물을 생성하면 사용자가 들어갈 때까지 인접한 통로들은 모델에게 존재하지 않는다. 이는 복잡한 환경을 시뮬레이션하거나 여러 사용자가 동일한 모델에서 움직이도록 하는 것을 더 어렵게 만든다.


따라서 월드 모델을 구축하는 또 다른 접근법은 2D 시뮬레이션이 아닌 완전한 3D 환경을 만드는 걸 추구한다. 스탠퍼드대학교의 컴퓨터 과학자인 페이페이 리Fei Fei Li는 자신이 공간지능spatial intelligence이라고 부르는 접근법의 대표주자다. 리 박사의 견해에 따르면 월드 모델은 상호작용적이고, 멀티모달multimodal(프롬프트를 해석할 수 있는)이며 일관성이 있어야 한다. 비디오 기반 시스템은 두 번째 요건까지는 통과할 수 있지만 세 번째에서는 주저한다. 예를 들어 '프로젝트 지니'는 시뮬레이션이 가장자리에서 흐트러지기 시작하기 전까지 최대 60초 동안 실행된다.


페이페이 리 박사의 스타트업인 월드랩스World Labs는 내부적으로 일관되고 완전한 3D 세계의 디지털 버전을 만들 수 있는 '마블Marble'이라는 월드 모델을 구축했다. 이는 예를 들어 여러 사용자가 동일한 세계 안에 있는 것이 가능함을 의미한다. 게다가 공간은 사용자가 주위를 둘러볼 때마다 새로 꾸며지는 게 아니라, 처음부터 전체가 생성된다. 월드랩스는 건축가들에게 제품을 홍보하고 있는데 건축가들은 이를 사용하여 공간을 구상하고 3D 프린터로 보내기 전에 가상으로 탐색할 수 있다.


메타의 전 수석 AI 과학자인 얀 르쿤은 월드 모델이 덜 문자적인 다른 방식으로 구축될 수 있다고 생각한다. 그에게 실제 공간에 집중하는 것은 핵심을 벗어난 것이다. 결국 많은 AI는 상점과 같은 물리적 공간보다는 인사 시스템이나 법률 문서와 같은 가상의 미로를 탐색해야 할 것이다. 그는 AI에게 양쪽의 환경을 일관되게 모델링할 수 있는 도구를 제공하는 것이 AI를 유용하게 만드는 중요한 단계라고 본다. 그의 견해에 따르면 AI는 LLM을 사용하여 그러한 월드 모델과 상호 작용함으로써 실제 세계에서든 컴퓨터에서든 작업을 수행하는 데 도움을 받을 수 있다.


공동-임베딩 예측 아키텍처Joint-Embedding Predictive Architecture(JEPA)라고 불리는 이 접근법은 AI가 실제 세계의 복잡한 특징을 시뮬레이션할 수 있게 해줄 것이다. 기존 월드 모델은 먼 미래에 일어날 수도 (혹은 일어나지 않을 수도) 있는 사건보다는 바로 곧 일어날 일에 초점을 맞춘다. 인간은 항상 미리 생각한다. 우산을 가지고 집을 나설지 결정하기 전에 날씨를 가늠하고, 어떤 기차를 탈지 선택할 때 중요한 회의에 늦을 위험을 고려한다. 결정적으로 이러한 결정은 하루의 매 순간을 시각화할 필요 없이 신속하게 내릴 수 있다. 현재의 월드 모델에는 그러한 지름길이 없다.


르쿤 박사는 2022년부터 JEPA 시스템의 잠재력을 탐색해 왔으며 2025년 11월에 이 문제에 전념하기 위해 메타를 떠났다. 그의 스타트업 어드밴스드 머신 인텔리전스는 헬스 테크 스타트업인 나블라Nabla와의 파트너십을 시작으로 그의 아이디어를 현실로 만들 계획이다. 그는 자신의 목표가 "자신이 설정한 작업을 최적으로 완수할 행동 순서가 무엇인지"를 알아내기 위해 자체 월드 모델을 사용하는 시스템이라고 말한다.


그러나 이러한 복잡한 접근법이 불필요하다면 어떨까? 만약 기존의 생성 AI 시스템이 이미 실제 세계에서 유용한 일을 할 수 있다면 아마도 그 안에는 이미 어떤 종류의 월드 모델이 포함되어 있을 것이다. 이것이 오픈AI 공동 창업자인 일리야 수츠케버Ilya Sutskever와 여전히 오픈AI 소속인 그의 전 동료 다수의 견해이다. 2023년에 그는 LLM을 훈련시키는 것은 "월드 모델을 배우는 것"에 지나지 않는다고 말했다. 인터넷에 포함된 모든 정보를 수백 기가바이트의 숫자로 압축하는 것은 시스템이 그 정보 뒤에 있는 기본 원리를 "학습"해야만 가능하다.

새롭고 놀라운 관점

그가 옳을 수 있다는 몇 가지 증거가 있다. 2023년 오델로 게임의 수 목록으로 훈련된 한 언어 모델은 오델로 보드를 본 적도 없고 게임 규칙을 배운 적도 없음에도 불구하고 자체 신경망 내에 보드 상태를 반영한 것으로 나타났다. 이는 연구진이 개별 말의 색상을 저장하는 신경망의 특정 부분을 식별할 수 있을 만큼 상세했다. 이는 연구진이 게임에 대한 인식을 바꾸기 위해 특정한 조정을 할 수 있음을 의미했는데 LLM의 계산에 대한 전례 없는 수준의 통제였다.


더 큰 언어 모델은 내부에 더 복잡한 월드 모델을 가지고 있을 가능성이 높다. 연구자들이 그걸 찾을 수만 있다면 말이다. AI 연구소인 앤트로픽은 클로드 모델의 "해석 가능성interpretability"에 대한 연구를 주도해 왔으며 죄책감부터 금문교에 이르기까지 모든 것에 해당하는 인공 뉴런 클러스터를 발견했다. 그리고 오델로 모델의 사례처럼 그 월드 모델에 접근하여 이를 변경하면 해당 모델의 후속 행동에 상응하는 변화가 발생한다. 이는 시스템이 단순히 단어를 나열하는 것이 아니라, 실제 세계의 물리적 특징에 대한 일관된 이해를 가지고 있으며 질문에 답하기 위해 이를 활용한다는 것을 시사한다. 그것은 의심스러울 정도로 내부 월드 모델에서 기대할 수 있는 것과 비슷하다.


모두가 이런 관점에 동의하는 것은 아니다. 페이페이 리 박사는 LLM이 단지 "어둠 속의 단어 기술자"일 뿐이라고 주장한다. 그는 세상을 묘사하기 위해 언어를 사용할 수 있음이 세상에 대한 확고한 이해를 가지고 있음을 의미하지는 않는다고 한다. 리 박사는 외국에 대해 책으로만 읽은 학생처럼 책만으로는 메울 수 없는 지식의 조각이 빠져 있다고 말한다. 어떤 접근법이 가장 효과적일지는 모르지만 AI가 조만간 현실 세계를 방문할 것이라는 데에는 의심의 여지가 거의 없다.


[읽어보신 소감은 어떠셨나요? 독자 여러분의 생각을 PADO에 보내주세요 (문의, 제안도 환영합니다!)]