본문 바로가기

관심사 이야기

한글 번역 | General Intelligence (2024) by James Betker

AI 연구자인 James Betker가 AGI를 주제로 한 포스팅.

James Betker는 OpenAI 소속 엔지니어이자, GPT-4o 개발에도 참여했던 분으로 업계의 최선단에 서있는 사람이다.

 

https://nonint.com/2024/06/03/general-intelligence-2024/

 

General Intelligence (2024) – Non_Interactive – Software & ML

Folks in the field of AI like to make predictions for AGI. I have thoughts, and I’ve always wanted to write them down. Let’s do that. Since this isn’t something I’ve touched on in the past, I’ll start by doing my best to define what I mean by “

nonint.com


Takeaways

  1. 세계 모델: 현재의 기술과 자본 투자가 충분히 강력한 세계 모델을 만드는 데 도움을 주고 있음.
  2. 시스템 2 사고: 2~3년 내로 구현될 가능성이 높음.
  3. 구현화: 로봇 기술과 LLM 융합으로 1~2년 내 큰 진전 기대.
  4. 전체 AGI 실현: 모든 기술을 통합하는 데 추가 1~2년이 소요될 것으로 예상되며, AGI는 약 3~5년 내 실현 가능.

General Intelligence (2024)

2024년 6월 3일, jbetker

AI 분야에서는 AGI(Artificial General Intelligence)에 대한 예측이 흔히 논의됩니다. 저도 이에 대해 여러 생각을 가지고 있었고, 이를 기록으로 남겨보고 싶었습니다. 이제 시작해 보죠.

 

제가 이 주제를 다뤄본 적이 없었기 때문에, 우선 "일반 지능"이라는 개념을 정의하려고 합니다. 제가 말하는 일반 지능(general intelligence)은 다음 세 가지를 특별히 종합적으로 달성한 존재를 뜻합니다.

  1. 복잡한 환경과 상호작용하고 관찰하는 능력: 일반적으로 이것은 embodiment(구현화), 즉 자연 세계를 인지하고 상호작용하는 능력을 의미합니다.
  2. 환경에 대한 견고한 세계 모델(world model): 이는 개체가 빠른 추론을 합리적인 정확도로 수행할 수 있도록 하는 메커니즘입니다. 인간의 세계 모델은 흔히 "직관", "빠른 사고", 또는 "시스템 1 사고(System 1 thinking)"로 불립니다.
  3. 임의의 주제에 대해 깊이 있는 자기 성찰을 수행할 수 있는 메커니즘: 이는 "추론", "느린 사고", 또는 "시스템 2 사고(System 2 thinking)"로 불립니다.

이 세 가지를 모두 갖추게 되면, 일반 지능을 가진 에이전트(agent)를 만들 수 있습니다. 방법은 다음과 같습니다.

 

먼저, 에이전트에게 하나 이상의 목표(objective)를 설정합니다. 에이전트는 System 2 thinking(시스템 2 사고)와 world model(세계 모델)을 사용해 목표를 최적화할 방법을 구상하기 시작합니다. 최선의 아이디어를 선택하고 이를 바탕으로 계획(plan)을 수립합니다.

 

그 계획을 실행(action)하며 환경과 상호작용합니다. 그 결과를 관찰하고, 자신의 world model에 기반해 예상했던 결과와 비교합니다. 에이전트는 새롭게 얻은 지식을 활용해 world model을 업데이트할 수 있습니다. 그런 다음, System 2 thinking(시스템 2 사고)을 사용해 계획을 조정하고, 이 과정을 반복합니다.

 

제가 정의하는 일반 지능은 이러한 과정을 일관되게, 그리고 장기간 반복적으로 실행할 수 있는 에이전트를 의미합니다.


세계 모델 (World Models)

현재 우리는 이미 autoregressive transformers(오토레그레시브 트랜스포머)와 같은 기술을 통해 world model을 구축하고 있습니다. 특히, omnimodel(옴니모델)과 같은 형태가 주로 사용되고 있습니다. 이러한 모델의 견고성은 여전히 논의의 여지가 있지만, 제 경험상 모델의 규모를 확장하면 견고성이 개선됩니다. 그리고 현재 인간은 이러한 확장을 위해 막대한 자본을 투입하고 있으므로, 앞으로 더욱 견고한 모델이 등장할 것입니다.

 

저는 현재 우리가 보유한 world model이 일반 지능 에이전트를 구축하기에 충분히 강력하다고 생각합니다.

추가적으로, 시스템 2 사고 (System 2 thinking)와 실제 세계 관찰의 상호작용을 통해 견고성을 더욱 개선할 수 있다고 생각합니다. 이는 AI에서는 아직 제대로 구현되지 않았지만, 생명체에서는 흔히 발생하는 중요한 메커니즘입니다.

 

Yann과 같은 LLM 회의론자들이 "우리가 아직 고양이 수준의 지능도 달성하지 못했다"고 말할 때, 이 점을 놓치고 있습니다. 물론, 현재 LLM은 고양이가 가진 몇 가지 기본 지식을 아직 갖추지 못했지만, 이를 스스로 학습할 수 있습니다. 이처럼 자기 개선(self-improvement)은 트랜스포머(transformers)와 적절한 구성 요소를 통해 가능합니다.


추론 (Reasoning)

System 2 thinking(시스템 2 사고)을 달성하기 위한 방법은 아직 잘 알려져 있지 않지만, 저는 현재 보유한 transformer(트랜스포머) 기술과 계산 리소스를 통해 충분히 가능하다고 확신합니다. 제 추정으로는 2~3년 안에 System 2 thinking(시스템 2 사고)을 구현할 수 있을 것입니다.


구현화 (Embodiment)

AI에서 embodiment(구현화)는 아직 연구가 진행 중인 영역이지만, 저는 단기적인 발전 가능성에 대해 낙관적입니다. 현재 robotics(로보틱스)와 LLM(대형 언어 모델) 간의 융합이 가속화되고 있는 것은 부정할 수 없습니다.

 

현대 로봇들은 "앞으로 이동", "물건 집기", "공 차기" 등과 같은 매우 추상적인 명령을 수행할 수 있을 만큼 능력이 뛰어납니다. 예를 들어 Figure가 진행 중인 프로젝트나 최근 발표된 Unitree H1를 보세요.

 

반면, 옴니모델과 같은 대형 모델은 임의의 센서 입력을 이러한 고급 로봇 시스템의 명령으로 매핑할 수 있는 방법을 제공합니다.

 

최근 저는 스마트폰 카메라를 통해 세상을 관찰하며 GPT-4o와 대화를 나누는 실험을 자주 하고 있습니다. 저는 물리적 세계에 대한 질문을 던져 보며 이 모델의 지식을 테스트하고 있습니다. 완벽하지는 않지만 놀랍도록 뛰어난 능력을 보여줍니다. 이제 환경에서 연속적인 행동을 수행하고 결과를 관찰하며 이해할 수 있는 시스템을 배치할 준비가 거의 끝났다고 생각합니다. 앞으로 1~2년 안에 매우 놀라운 진전을 보게 될 것입니다.

 

마지막으로, 이 분야가 개인적으로 가장 흥미로운 AI 연구 분야라고 생각하며, 앞으로 몇 년 동안 이 주제에 대부분의 시간을 투자할 계획입니다.

 


TL;DR

요약하자면, 기본적으로 월드 모델 구축은 해결했고, 시스템 2 사고에 2~3년, 구현에 1~2년을 투자했습니다. 후자의 두 가지는 동시에 수행할 수 있습니다. 모든 구성 요소가 구축되면 이를 통합하고 위에서 설명한 사이클링 알고리즘을 구축해야 합니다. 이 작업에는 1~2년이 더 소요될 것으로 예상됩니다. 

 

따라서 현재 예상되는 AGI는 3~5년입니다. 저는 일반적으로 지능적이고 구현된 에이전트(개인적으로 AGI라고 부르는)와 매우 흡사한 것을 위해 3년을 기대하고 있습니다. 그리고 몇 년 더 시간을 들여서 세상의 수많은 게리 마커스(AI 버블론자)들을 설득할 수 있을 정도로 다듬어야겠죠. 

 

앞으로 어떻게 발전할지 정말 기대가 됩니다. 🙂