[Mostly AI-Generated] 노벨 물리학상 공동수상자인 Geoffrey Everest Hinton는 최근 AI분야에서 어떤 연구에 참여했을까?

*** 전혀 닮지 않은 그림… +_+

University of Toronto의 교수인 Geoffrey Hinton은 1980년대부터 진행해 온 신경회로망과 기계학습, 인공지능 분야와 관련된 연구에서 이루어 낸 업적으로 노벨 물리학상을 공동 수상하였습니다.

이 글은 2020년 이후 AI 관련 분야의 Arxiv에 업로드된 논문들 중에서 Geoffrey Hinton이 참여한 논문들을 바탕으로 작성하였습니다. 따라서 Geoffrey Hinton의 모든 연구업적을 설명하는 것은 아님을 미리 밝혀둡니다.

개요

Geoffrey Hinton의 연구는 2020년부터 2023년까지 인공지능과 머신러닝 분야에서 다양한 혁신적인 접근법을 제시하고 있습니다. 2020년에는 딥러닝 모델의 효율성과 성능을 향상시키기 위한 다양한 기술들을 소개하였습니다. 예를 들어, 큰 모델의 지식을 작은 모델로 전이하는 “Knowledge Distillation”, 데이터 증강을 활용한 “SimCLR” 등의 방법을 제안하였습니다. 2021년에는 신경망의 해석 가능성을 높이기 위한 GLOM과 객체 탐지를 언어 모델링으로 변환한 Pix2Seq를 소개하였습니다. 2022년에는 의료 인공지능의 데이터 효율성을 높이는 REMEDIS와 다양한 비전 작업을 통합하는 픽셀-시퀀스 인터페이스 등을 제안하였습니다. 2023년 이후의 연구들은 AI의 급속한 발전과 그로 인한 사회적 영향, 특히 자율적인 AI 시스템의 위험성에 대한 경고가 주를 이루었습니다.

이러한 연구의 흐름을 보면, 초기에는 딥러닝 모델의 성능 향상과 효율성에 중점을 두었다가, 점차 신경망의 해석 가능성과 다양한 응용 분야로의 확장으로 관심이 이동하였음을 알 수 있습니다. 최근에는 AI의 사회적 영향과 안전성에 대한 우려가 커지면서, 기술 발전과 함께 이를 관리하기 위한 거버넌스와 안전 연구의 필요성을 강조하고 있습니다.

2020-01 ~ 2020-12 기간

Knowledge Distillation : [1]에서는 “Knowledge Distillation”이라는 개념을 소개합니다. 큰 “teacher” 신경망이 학습한 정보를 작은 “student” 모델로 전이하여, 작은 모델이 더 나은 일반화 능력을 갖도록 하는 방법입니다. 특히, 클래스가 적은 경우에는 teacher가 각 클래스를 여러 하위 클래스로 나누어 학습하게 하여, student가 하위 클래스 확률을 맞추도록 함으로써 전이 성능을 향상시킬 수 있음을 보여주었습니다.

Contrastive learning 프레임워크 : [2]에서는 “SimCLR”이라는 contrastive learning 프레임워크를 소개합니다. 이 방법을 통해 데이터 증강의 조합이 예측 작업의 효과를 정의하는 데 중요한 역할을 하며, 표현과 contrastive loss 사이에 학습 가능한 비선형 변환을 도입하여 학습된 표현의 품질을 크게 향상시킬 수 있음을 보였습니다. 또한, contrastive learning은 더 큰 배치 크기와 더 많은 학습 단계에서 이점을 얻는다고 설명합니다.

Capsule Networks : [3]에서는 Capsule Networks를 기반으로 한 새로운 방어 방법을 제안합니다. 이 방법은 세 가지 탐지 메커니즘을 결합하여 표준 및 방어 인식 공격에 대한 최첨단 탐지 성능을 달성합니다. 또한, 탐지되지 않은 공격이 인간이 분류하는 방식과 유사하게 공격 대상 클래스와 시각적으로 유사하다는 것을 보여줍니다.

Imputation 기반 Dynamic Programming: [4]에서는 “Imputer”라는 새로운 신경망 모델을 소개합니다. 이 모델은 입력 및 출력 시퀀스의 가능한 모든 정렬과 생성 순서를 대략적으로 marginalize할 수 있도록 훈련됩니다. 이 모델은 end-to-end 음성 인식에 적용되어 이전의 non-autoregressive models보다 우수한 성능을 보입니다.

Neural Additive Models: [5]에서는 “Neural Additive Models (NAMs)”을 소개합니다. NAMs는 DNN의 표현력을 일부 유지하면서도 일반화된 additive 모델의 직관성을 결합한 모델입니다. 각 입력 특징에 주목하는 신경망의 선형 조합을 학습하여, 입력 특징과 출력 간의 복잡한 관계를 학습할 수 있습니다.

Semi-Supervised Learners: [6]에서는 “SimCLRv2″를 사용한 Semi-Supervised Learning 알고리즘을 제안합니다. 이 방법은 큰 네트워크를 사용하여 사전 학습을 수행하고, 소수의 레이블로 지도 학습을 진행한 후, unlabeled 예제를 사용하여 작은 네트워크로 증류하는 과정을 포함합니다. 이 방법은 ImageNet에서 레이블 효율성을 크게 향상시킵니다.

Meta information을 이용한 학습 성능 향상: [7]에서는 “commentaries”라는 학습된 메타 정보를 사용하여 신경망 훈련을 개선하는 방법을 제안합니다. commentaries는 훈련 속도와 성능을 개선할 수 있으며, 데이터셋과 훈련 과정에 대한 통찰을 제공합니다. 또한, commentaries는 새로운 모델 훈련 시 재사용 가능하여 성능 이점을 제공할 수 있습니다.

2021-01 ~ 2021-12 기간

Part-whole hierarchies in a neural network : [8]에서는 GLOM이라는 개념을 소개하고 있습니다. GLOM은 실제로 구현된 시스템이 아니라, 여러 연구 그룹의 발전을 결합하여 상상 속의 시스템을 제안하는 아이디어입니다. 이 시스템은 고정된 구조의 신경망이 어떻게 각 이미지에 대해 다른 구조를 가진 부분-전체 계층 구조로 이미지를 해석할 수 있는지를 설명합니다. GLOM의 핵심 아이디어는 동일한 벡터의 군집을 사용하여 구문 트리의 노드를 표현하는 것입니다. 이 시스템이 성공적으로 구현된다면, Transformer와 같은 시스템이 시각적 또는 언어적 작업에 적용될 때 생성하는 표현의 해석 가능성을 크게 향상시킬 수 있을 것입니다.

Object detection as a language modeling task : [9]에서는 Pix2Seq라는 프레임워크를 소개합니다. Pix2Seq는 객체 탐지를 위한 간단하고 일반적인 프레임워크로, 기존 접근 방식과 달리 작업에 대한 사전 지식을 명시적으로 통합하지 않습니다. 대신, 객체 탐지를 언어 모델링 작업으로 간주하여 관찰된 픽셀 입력에 따라 객체 설명(예: 경계 상자 및 클래스 레이블)을 이산 토큰의 시퀀스로 표현합니다. 이 접근 방식은 신경망이 객체의 위치와 종류를 알고 있다면, 그것을 읽어내는 방법만 가르치면 된다는 직관에 기반합니다. Pix2Seq는 작업에 대한 최소한의 가정을 하면서도, COCO 데이터셋에서 높은 성능을 보여줍니다.

2022-01 ~ 2022-12 기간

Medical Imaging with Self-Supervision: [10]에서는 의료 인공지능의 “out-of-distribution” 문제를 해결하기 위한 방법으로 REMEDIS라는 통합 표현 학습 전략을 제안하고 있습니다. 이 방법은 대규모 지도 학습과 자가 지도 학습을 결합하여 데이터 효율성을 높이고, 다양한 의료 영상 작업에서 강력한 성능을 보여줍니다. 특히, 적은 양의 재학습 데이터로도 강력한 지도 학습 기반을 맞출 수 있어 의료 AI 개발의 주기를 가속화할 수 있다고 설명하고 있습니다.

Shared pixel-to-sequence interface: [11]에서는 다양한 컴퓨터 비전 작업을 통합된 픽셀-시퀀스 인터페이스로 표현하여 하나의 모델 아키텍처와 손실 함수로 학습할 수 있는 방법을 제안하고 있습니다. 객체 탐지, 인스턴스 세분화, 키포인트 탐지, 이미지 캡셔닝과 같은 작업을 시퀀스 형태로 출력하여, 작업별 맞춤화 없이도 경쟁력 있는 성능을 달성할 수 있음을 보여줍니다.

Analog Bits: [12] 에서는 Bit Diffusion이라는 방법을 통해 이산 데이터를 연속 상태 및 연속 시간 확산 모델로 생성하는 방법을 제안합니다. 이 방법은 이산 데이터를 이진 비트로 표현하고, 이를 연속 확산 모델로 학습하여 아날로그 비트로 변환합니다. 이 방법은 CIFAR-10 및 ImageNet-64×64와 같은 데이터셋에서 이전의 최첨단 모델을 능가하는 성능을 보여줍니다.

Applying perturbations to activations rather than weights: [13]에서는 Forward gradient learning을 개선하여 딥러닝 벤치마크 작업에서 실용적으로 사용할 수 있는 방법을 제안합니다. Activation에 pertubation을 적용하여 estimator의 variance를 줄이고, LocalMixer라는 새로운 아키텍처를 도입하여 local 학습에 적합하도록 설계하였습니다. 이 방법은 MNIST와 CIFAR-10에서 backpropagation과 유사한 성능을 보이며, ImageNet에서는 이전의 backpropagation-free 알고리즘을 능가합니다.

Panoptic segmentation as a discrete data generation: [14]에서는 Panoptic segmentation을 이산 데이터 생성 문제로 재구성하여, 간단한 아키텍처와 일반적인 손실 함수로 모델링하는 방법을 제안합니다. 과거 예측을 조건 신호로 추가하여 비디오 스트리밍 설정에서 객체 인스턴스를 자동으로 추적할 수 있습니다. 이 방법은 전문적인 방법들과 경쟁력 있는 성능을 보여줍니다.

Improved RBMs: [15]에서는 Gaussian-Bernoulli restricted Boltzmann machines (GRBMs)의 학습을 개선하기 위한 새로운 방법을 제안합니다. Gibbs-Langevin 샘플링 알고리즘과 수정된 contrastive divergence (CD) 알고리즘을 도입하여, GRBMs가 단일 숨겨진 레이어 아키텍처에서도 좋은 샘플을 생성할 수 있음을 보여줍니다.

2023-01 이후의 기간

[16]에서는 AI의 급속한 발전과 그로 인한 사회적 영향에 대해 설명하고 있습니다. Hinton은 기업들이 일반적인 AI 시스템 개발에 집중하고 있으며, 이러한 시스템이 자율적으로 행동하고 목표를 추구할 수 있는 능력을 갖추게 될 것이라고 언급하였습니다. 이러한 능력과 자율성의 증가는 AI의 영향을 크게 증폭시킬 수 있으며, 대규모 사회적 해악, 악의적인 사용, 그리고 자율적인 AI 시스템에 대한 인간의 통제 상실과 같은 위험을 초래할 수 있다고 경고하였습니다. 연구자들이 AI의 극단적인 위험에 대해 경고하고 있지만, 이러한 위험이 어떻게 발생하는지, 그리고 이를 어떻게 관리해야 하는지에 대한 합의가 부족하다고 지적하였습니다. 우리 사회의 대응은 많은 전문가들이 예상하는 급속하고 변혁적인 발전 가능성에 비해 불충분하며, AI 안전 연구는 뒤처져 있으며, 현재의 거버넌스 이니셔티브는 오용과 무모함을 방지할 수 있는 메커니즘과 기관이 부족하고, 자율 시스템에 대해서는 거의 다루지 않고 있다고 하였습니다. 이러한 관점에서, AI 시스템의 극단적인 위험을 설명하고, 다른 안전 필수 기술에서 배운 교훈을 바탕으로 기술 연구 개발과 능동적이고 적응적인 거버넌스 메커니즘을 결합한 포괄적인 계획을 제시하였습니다.

출처 정보:


코멘트

“[Mostly AI-Generated] 노벨 물리학상 공동수상자인 Geoffrey Everest Hinton는 최근 AI분야에서 어떤 연구에 참여했을까?” 에 하나의 답글

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다