[Mostly AI-Generated] 노벨화학상 공동수상자인 DeepMind의 Demis Hassabis는 AI분야에서 어떤 연구에 참여했을까?

닮지 않았다… 전혀… +_+

Google DeepMind의 CEO인 Demis Hassabis가 3차원 단백질 구조 예측과 관련한 업적으로 노벨 화학상을 공동 수상하였습니다. DeepMind라고 하면, 이세돌 9단과 대국을 하였던 AlphaGo를 떠올리게 되는데요, 2020년부터 최근까지 Demis Hassabis는 인공지능 분야에서 어떤 연구를 수행했는지 알아보겠습니다.

이 글은 2020년 이후 AI 관련 분야의 Arxiv에 업로드된 논문들 중에서 Demis Hassabis가 참여한 논문들을 바탕으로 작성하였습니다. 따라서 Demis Hassabis의 모든 연구업적을 설명하는 것은 아님을 미리 밝혀둡니다.

개요

Demis Hassabis의 연구는 인공지능(AI)과 머신러닝 분야에서 다양한 혁신을 이루어왔습니다. 2020년부터 2024년까지의 연구를 살펴보면, 초기에는 AI의 학습과 추론 능력을 향상시키기 위한 새로운 아키텍처와 알고리즘 개발에 집중했습니다. 예를 들어, 2020년에는 외부 메모리를 활용한 신경망 아키텍처와 체스 변형 게임을 연구하였고, 2021년에는 AlphaZero의 학습 과정과 메타-강화학습을 위한 새로운 벤치마크를 탐구했습니다. 2022년에는 AI 에이전트의 실용성을 높이기 위한 연구에 참여했으며, 2023년에는 AI를 통해 인간의 지식을 확장하고, 양자 컴퓨팅의 신뢰성을 높이는 연구에 참여했습니다. 2024년에는 멀티모달 AI 모델과 긴 문맥 추론 능력을 갖춘 모델들을 개발하는 연구에 참여하였는데, 이러한 모델들은 의료 및 이미지 생성 분야에서 뛰어난 성과를 보였습니다. 이러한 연구들은 AI의 학습, 추론, 응용 가능성을 지속적으로 확장하며, 다양한 분야에서 AI의 실질적인 활용을 가능하게 할 수 있습니다.

2020-01 ~ 2020-12 기간

Memory-augmented architectures: [1]에서는 neural network architectures에 external memory를 결합한 시스템을 개발하고, reasoning 능력을 평가하는 bAbI 데이터셋을 사용하여 평가였습니다. 연구진은 기존의 memory-augmented architectures가 긴 거리의 연관성을 추론하는 데 어려움을 겪는다는 것을 발견하였습니다. 이를 해결하기 위해 MEMO라는 새로운 architecture를 개발하였으며, 이는 external memory에 저장된 사실과 이 사실을 구성하는 항목을 분리하고, adaptive retrieval mechanism을 도입하여 가변적인 “memory hops”를 통해 답을 도출할 수 있도록 하였습니다. MEMO는 새로운 reasoning tasks를 해결할 수 있으며, bAbI 데이터셋에서도 state of the art 결과를 달성하였습니다.

AlphaZero, Chess: [2]에서는 AlphaZero를 활용하여 새로운 체스 변형 게임을 설계하고 평가하였습니다. AlphaZero는 인간의 감독 없이 스스로 학습하여 최적의 전략을 찾을 수 있는 시스템입니다. 연구진은 Fischer Random Chess와 같은 체스 변형에 대한 관심이 증가하고 있음을 언급하며, 기존 체스의 개막 이론의 방대함, 높은 무승부 비율, 그리고 준비된 상태에서 끝나는 게임의 수가 적지 않다는 점을 지적하였습니다. 연구에서는 체스 규칙에 원자적 변화를 가한 아홉 가지 변형을 비교하였으며, 각 변형에 대해 AlphaZero가 학습한 최적의 전략을 통해 강력한 인간 플레이어 간의 게임이 어떻게 진행될지를 예측하였습니다. 분석 결과, 몇몇 변형은 매우 역동적이며, 말의 가치가 변형에 따라 다르게 평가되고, 일부 변형은 기존 체스보다 더 결정적이라는 것을 발견하였습니다.

AI를 활용한 스포츠 분석: [3]에서는 AI와 머신러닝의 발전이 스포츠 분석, 특히 축구에 미치는 영향을 다루었습니다. 데이터 수집의 증가, 계산 능력의 향상, 머신러닝의 발전으로 인해 축구 분석에서 새로운 과학적 도전 과제를 해결할 수 있게 되었습니다. 연구진은 통계적 학습, 게임 이론, 컴퓨터 비전의 교차점에서 새로운 발전이 필요하다고 강조하였습니다. 이 연구는 축구 분석이 AI 연구의 독특한 미시적 세계를 형성하며, 프로 팀, 관중, 방송사에 상호 이익을 제공할 수 있음을 보여줍니다. 또한, 예측 모델을 사용한 반사실적 분석과 페널티킥의 게임 이론적 분석을 통한 선수 속성의 통계적 학습을 예시로 들며, 축구 분석이 게임 자체뿐만 아니라 AI 분야에 미치는 가치를 설명하였습니다.

2021-01 ~ 2021-12 기간

AlphaZero의 학습능력: [4]에서는 AlphaZero라는 고급 신경망 에이전트가 체스 게임을 통해 인간의 지식을 어떻게 습득하는지를 탐구합니다. 이 연구는 AlphaZero가 체스 훈련 과정에서 인간의 체스 개념을 학습한다는 증거를 제시합니다. 연구진은 AlphaZero의 네트워크에서 이러한 개념들이 언제, 어디서 나타나는지를 조사하였으며, 체스 그랜드마스터인 Vladimir Kramnik의 질적 분석을 포함하여 개방형 플레이에 대한 행동 분석도 수행하였습니다. 또한, AlphaZero의 표현의 저수준 세부 사항을 조사하는 예비 연구도 수행하였으며, 결과를 온라인에 공개하였습니다.

RL 에이전트의 평가를 위한 벤치마크: [5]에서는 메타-강화학습(meta-reinforcement learning)의 유연성과 샘플 효율성을 높이기 위한 방법으로서 메타-러닝(meta-learning)에 대한 관심이 급증하고 있음을 설명합니다. 그러나 이 분야의 연구에서 적절한 벤치마크가 부족하다는 문제가 있었습니다. 이 연구에서는 메타-RL 연구를 위한 새로운 벤치마크인 Alchemy를 소개합니다. Alchemy는 Unity로 구현된 3D 비디오 게임으로, 에피소드마다 절차적으로 재샘플링되는 잠재적 인과 구조를 포함하여 구조 학습, 온라인 추론, 가설 테스트 및 추상 도메인 지식을 기반으로 한 행동 시퀀싱을 가능하게 합니다. 연구진은 Alchemy에서 강력한 RL 에이전트를 평가하고, 그 중 하나에 대한 심층 분석을 제시하였습니다. 이와 동시에 Alchemy를 공공 자원으로 공개하고, 분석 도구와 샘플 에이전트 경로를 함께 제공합니다.

2022-01 ~ 2022-12 기간

정보 탐색 대화 에이전트 : [6]에서는 ‘Sparrow’라는 정보 탐색 대화 에이전트에 대해 설명하고 있습니다. 이 에이전트는 기존의 언어 모델보다 더 도움이 되고, 정확하며, 해롭지 않도록 설계되었습니다. 이를 위해 인간의 피드백을 활용한 강화 학습을 사용하여 모델을 훈련하였습니다. 두 가지 주요 추가 사항이 있습니다. 첫째, 에이전트가 더 도움이 되고 해롭지 않도록 하기 위해 좋은 대화의 요건을 자연어 규칙으로 나누고, 평가자들에게 각 규칙에 대해 개별적으로 질문합니다. 이를 통해 에이전트의 행동에 대한 보다 구체적인 인간의 판단을 수집할 수 있으며, 규칙 조건 보상 모델을 더 효율적으로 만들 수 있습니다. 둘째, 에이전트는 사실적 주장에 대한 증거를 제공하여 모델 진술에 대한 선호 판단을 수집할 수 있게 합니다. 사실적 질문에 대해 Sparrow가 제공한 증거는 샘플링된 응답들 중 78%에 해당합니다. Sparrow는 인간의 적대적 탐색에 더 강하며, 규칙을 위반하는 경우는 8%에 불과합니다. 마지막으로, 모델이 규칙을 따르도록 학습하지만 분포적 편향을 보일 수 있음을 보여주는 광범위한 분석을 수행하였습니다.

게임 플레잉 자율 에이전트 : [7]에서는 ‘DeepNash’라는 자율 에이전트를 소개합니다. 이 에이전트는 불완전 정보 게임인 Stratego를 인간 전문가 수준까지 학습할 수 있습니다. Stratego는 AI가 아직 완전히 정복하지 못한 몇 안 되는 상징적인 보드 게임 중 하나입니다. 이 게임은 1053510535 노드의 거대한 게임 트리를 가지고 있으며, 이는 Go의 게임 트리보다 1017510175배 더 큽니다. Stratego는 불완전한 정보 하에서 의사 결정을 요구하며, 이는 Texas hold’em poker와 유사하지만 훨씬 더 큰 게임 트리를 가지고 있습니다. DeepNash는 탐색 없이 게임 이론적, 모델 프리 강화 학습 방법을 사용하여 자기 플레이를 통해 Stratego를 마스터합니다. DeepNash의 핵심 구성 요소인 Regularised Nash Dynamics (R-NaD) 알고리즘은 다중 에이전트 학습 동력을 직접 수정하여 ‘순환’하지 않고 근사적인 Nash 균형에 수렴합니다. DeepNash는 Stratego에서 기존의 최첨단 AI 방법을 능가하며, Gravon 게임 플랫폼에서 인간 전문가 플레이어와 경쟁하여 2022년 연간 및 역대 상위 3위에 올랐습니다.

2023-01 ~ 2023-12 기간

AlphaZero를 활용한 인간 지식의 확장 : [8]에서는 AlphaZero라는 AI 시스템을 통해 체스에서 새로운 개념을 추출하는 방법을 제안하였습니다. AlphaZero는 인간의 감독 없이 스스로 체스를 마스터한 AI 시스템입니다. 연구 결과, AlphaZero는 기존의 인간 지식을 넘어서는 지식을 암호화한다고 합니다. 실제로 체스 그랜드마스터들이 이 개념을 학습하여 문제 해결 능력이 향상되었음을 보여주었습니다. 이는 AI를 활용하여 인간 지식을 확장하는 중요한 첫 걸음이 될 수 있습니다.

Diverse AI systems : [9]에서는 다양한 AI 시스템이 팀을 이루어 단일 AI보다 더 나은 성과를 낼 수 있는지를 탐구합니다. AlphaZero를 기반으로 한 AZ_db라는 시스템을 개발하여, 다양한 아이디어를 생성하고 가장 유망한 것을 선택하는 방식으로 체스 문제를 해결합니다. AZ_db는 다양한 체스 오프닝에 특화된 플레이어를 선택하여 AlphaZero보다 50 Elo 높은 성과를 보였습니다. 이는 AI 에이전트 팀에서도 인간 팀과 마찬가지로 다양성의 이점이 나타날 수 있음을 시사합니다.

Quantum error-correction : [10]은 양자 컴퓨팅의 신뢰성을 높이기 위한 양자 오류 수정에 관한 것입니다. 연구진은 기존의 알고리즘 디코더보다 뛰어난 성능을 보이는 Transformer 기반의 신경망을 개발하였습니다. 이 디코더는 구글의 Sycamore 양자 프로세서에서 실제 데이터를 사용하여 테스트되었으며, 다양한 노이즈 환경에서도 높은 정확도를 유지합니다. 이는 머신러닝이 데이터로부터 직접 학습하여 인간이 설계한 알고리즘을 능가할 수 있음을 보여줍니다.

축구 전술 시스템 : [11]에서는 축구에서 상대 팀의 전술 패턴을 식별하고 효과적인 대응책을 개발하는 AI 시스템인 TacticAI를 소개합니다. TacticAI는 리버풀 FC와의 협력을 통해 개발되었으며, 코너킥 상황에서의 선수 배치를 분석하고 최적의 전술을 제안합니다. TacticAI의 제안은 실제 전술과 구별되지 않으며, 기존 전술보다 90% 더 선호된다고 합니다. 이는 제한된 데이터 환경에서도 기하학적 딥러닝을 통해 데이터 효율성을 달성한 결과입니다.

2024-01 ~ 2024-11 기간

Gemini 및 Med-Gemini 모델: [12]에서는 Gemini 모델의 강력한 멀티모달 및 긴 문맥 추론 능력을 기반으로 한 Med-Gemini 모델을 소개하고 있습니다. 이 모델은 의료 분야에 특화되어 있으며, 웹 검색을 원활하게 사용할 수 있는 기능을 가지고 있습니다. Med-Gemini는 14개의 의료 벤치마크에서 새로운 최고 성능을 기록했으며, 특히 MedQA(USMLE) 벤치마크에서 91.1%의 정확도를 달성했습니다. 이 모델은 인간 전문가를 능가하는 성능을 보여주며, 의료 텍스트 요약, 멀티모달 의료 대화, 의료 연구 및 교육에서의 잠재력을 보여줍니다.

RecurrentGemma 모델: [13]에서는 Google’s Griffin 아키텍처를 사용하는 RecurrentGemma 모델을 소개하고 있습니다. 이 모델은 메모리 사용을 줄이고 긴 시퀀스에서 효율적인 추론을 가능하게 합니다. 두 가지 크기의 모델(2B 및 9B 파라미터)이 제공되며, 사전 훈련 및 지시 조정된 변형도 포함되어 있습니다.

Gemma 모델: [14]에서는 Gemini 모델의 연구와 기술을 기반으로 한 Gemma 모델을 소개하고 있습니다. 이 모델은 언어 이해, 추론 및 안전성에 강력한 성능을 보여주며, 18개의 텍스트 기반 작업 중 11개에서 유사한 크기의 오픈 모델을 능가합니다.

Gemma 2 모델: [15]에서는 Gemma 2 모델을 소개하고 있습니다. 이 모델은 Transformer 아키텍처에 여러 기술적 수정을 적용하여 성능을 향상시켰으며, knowledge distillation을 사용하여 훈련되었습니다. 결과적으로, 이 모델은 크기에 비해 최고의 성능을 제공하며, 2-3배 더 큰 모델과 경쟁할 수 있습니다.

Imagen 3 모델: [16]에서는 텍스트 프롬프트로부터 고품질 이미지를 생성하는 Imagen 3 모델을 소개하고 있습니다. 이 모델은 평가 당시 다른 최첨단 모델보다 선호되었으며, 안전성과 표현 문제를 최소화하기 위한 방법도 논의되었습니다.

Gemini 1.5 모델: [17]에서는 Gemini 1.5 모델을 소개하고 있습니다. 이 모델은 긴 문맥에서의 정보 회상 및 추론 능력이 뛰어나며, 여러 벤치마크에서 최고 성능을 기록했습니다. 특히, 긴 문서 및 비디오 QA, 긴 문맥 Automatic Speech Recognition에서의 성능이 두드러집니다.

출처 정보:


코멘트

“[Mostly AI-Generated] 노벨화학상 공동수상자인 DeepMind의 Demis Hassabis는 AI분야에서 어떤 연구에 참여했을까?” 에 하나의 답글

  1. […] 더보기 >> 노벨화학상 공동수상자인 DeepMind의 Demis Hassabis는 AI분야에서 어떤 연구에 참… […]

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다