이 리포트는 2024년 8월 기준으로 트랜스포머 기술의 최신 발전 상황과 그 기능 및 성능 향상에 대해 다룹니다. 특히, 트랜스포머 모델의 장거리 의존성 문제 해결, 효율적인 연산 처리, 프리트레인 및 파인 튜닝 기법의 발전, 그리고 하이브리드 모델링 접근법 등에 초점을 맞추고 있으며, 새로운 아키텍처와 주목할 만한 논문들을 포함하여 그 의미와 성과를 조망합니다. 주요 발견으로는 트랜스포머의 장거리 의존성 문제를 해결한 'Never Train from Scratch', 단백질 생성 기술을 획기적으로 개선한 'Protein Discovery with Discrete Walk-Jump Sampling', 이미지 트랜스포머의 성능을 높인 'Vision Transformers Need Registers' 등이 있습니다. 또한, 새로운 그래프 트랜스포머 모델인 UGT(Unified Graph Transformer)가 구조 보존 그래프 모델로 세계 최고 수준의 성능을 달성한 것도 중요한 발견입니다.
이 논문은 트랜스포머 모델의 장거리 의존성 문제를 해결하여 S4 수준의 성능을 끌어올린 내용을 다룹니다. 저자들은 랜덤 초기화가 S4와 트랜스포머 간의 차이를 과대평가하게 만들며, 표준 노이즈를 제거하는 목적으로만 사용한다면 트랜스포머도 S4만큼의 장거리 의존성을 가질 수 있다고 밝혔습니다. S4 또한 같은 방식으로 진행할 경우 최고 성능을 낼 수 있음을 확인했습니다. 리뷰어들은 단순성과 체계적인 실험이 놀라웠고, 사전 훈련 – 파인튜닝 방식으로 극적인 성능 향상을 이룬 점에서 좋은 평가를 했습니다.
이 논문은 단백질 생성과 관련된 논문으로, 단백질 서열 데이터를 부드럽게 만드는 에너지 함수를 학습시키는 방식입니다. 이 함수를 거친 데이터 분포에서 Langevin MCMC 기법으로 샘플을 뽑아내고 한번의 노이즈 과정을 거쳐 실제 데이터 분포로 되돌리는 방식을 사용합니다. 리뷰어들은 단백질 예측을 위해 샘플링과 노이즈 제거 방식을 취한 것이 독특하기에 해당 논문이 우수 논문으로 선정되었다고 평가했습니다.
이 논문은 ViT(Vision Transformer)에 관한 연구로, 이미지의 조각이 아티팩트로 인해 성능이 떨어지는 문제를 해결하기 위해 추가 토큰을 도입하는 방식을 제안합니다. 아티팩트 대신 토큰이 학습하도록 하는 이 방식으로, ViT와 DINOv2의 성능 저하 문제를 간단하게 해결할 수 있었습니다. 리뷰어는 이 방법의 간단함과 효과적인 문제 해결 능력을 높이 평가했습니다.
트랜스포머 모델은 입력 시퀀스의 각 위치 간 관계를 전부 고려하는 셀프 어텐션 메커니즘을 통해 문맥 이해력을 높이고 병렬 계산이 가능하게 했습니다. 그러나 트랜스포머는 입력 시퀀스의 길이가 길어질수록 장거리 의존성(Long Range Dependency) 문제와 함께 계산 복잡도 문제가 발생할 수 있습니다. 이는 멀리 떨어진 토큰 간의 관계를 파악하기 어려워지는 현상이며, 어텐션 연산 과정에서 막대한 연산량과 메모리 사용량이 발생하기 때문입니다. (출처: docId = go-public-web-eng-N4826202184352034170-0-0)
트랜스포머의 계산 복잡도 문제를 해결하기 위해 연구자들은 어텐션 메커니즘 자체를 개선하려는 시도를 해왔습니다. 대표적으로 'Memory Efficient Attention'이라는 개념이 제시되었는데요, 이는 어텐션 연산을 근사화하거나 분할하는 방식으로 메모리 사용량을 줄이고자 하는 접근법입니다. 이 방식은 트랜스포머의 메모리 사용량을 줄이는 데 큰 도움이 됩니다. 그러나 이런 노력에도 불구하고 트랜스포머가 가진 본질적인 한계를 극복하기에는 여전히 어려움이 있다는 지적이 있습니다. (출처: docId = go-public-web-eng-N4826202184352034170-0-0)
최근에는 트랜스포머를 대체할 수 있는 새로운 패러다임으로 State Space Model(SSM)에 주목하는 연구자들이 늘고 있습니다. SSM은 제어공학이나 신호처리 분야에서 사용되던 모델로, 다변수 입력과 출력을 다룰 수 있고 행렬로 표현 가능하다는 특징이 있죠. 스탠포드대학교의 Christopher Re 교수팀이 SSM을 딥러닝에 접목시키는 연구를 선도하고 있으며, SSM을 딥러닝에 적용하기 위해서는 연속형 변수를 이산형으로 변환하는 작업이 필요합니다. (출처: docId = go-public-web-eng-N4826202184352034170-0-0)
가톨릭대학교 인공지능학과 박사과정생 황반튀는 AAAI 2024 국제학술대회에서 구조 보존 그래프 트랜스포머 모델인 UGT(Unified Graph Transformer)를 발표하였습니다. AAAI는 인공지능 학회로 매년 최신 인공지능 기술과 연구 성과를 공유하는 국제학술대회를 개최합니다. 황반튀 박사과정생은 이오준 교수의 지도 하에 연구를 진행하였고, 자신이 개발한 그래프 트랜스포머 모델의 우수성을 입증하였습니다. 기존 트랜스포머 모델은 순차 데이터 내의 관계를 추적해 맥락과 의미를 학습하는 신경망입니다. 그래프 트랜스포머는 그래프로 표현된 구조화된 데이터를 입력으로 사용할 수 있으며, 데이터들 간의 관계를 함께 학습할 수 있는 신경망입니다. 기존 그래프 트랜스포머 연구는 그래프의 전역적 혹은 지역적 구조 한 쪽에 치우쳐 진행되어 각각의 구조적 특징들이 필요한 커뮤니티 탐지와 분자 구조 분석 등 범용적으로 사용하기 어려운 한계가 있었습니다. 또한, 구조적 특징에만 집중해 개별 노드 특징이 중요한 노드 분류 임무에서 낮은 성능을 보였습니다. 황반튀 박사과정생은 그래프의 전역적 특징인 노드 역할 유사도 정보를 그래프 증강 기법을 활용해 강조한 후 노드 간 전이확률에 대한 자기지도학습을 바탕으로 지역적 노드 연결 정보와 통합하는데 성공했습니다. 새로운 구조 보존 그래프 트랜스포머 모델 UGT를 실험한 결과, 그래프 분류와 노드 군집화, 노드 분류 임무에서 세계 최고 수준(SOTA)을 달성했습니다. 또한, 기존 그래프 트랜스포머와 그래프 신경망 모델이 도달하지 못한 3-WL 수준의 그래프 구조 해석 능력도 나타냈습니다. 황반튀 박사과정생은 "이번에 개발한 구조 보존 그래프 트랜스포머 모델 UGT가 AI 연구 분야의 새로운 지평을 열 수 있길 바랍니다."라고 말했습니다. 이오준 교수는 "황반튀 학생이 국제학술대회에서 연구 역량을 높이 인정받았다."며 앞으로도 세계 최고 수준의 인공지능 분야 인재 양성을 위해 아낌없는 지원을 할 것을 약속했습니다.
Sparse Attention은 트랜스포머 모델에서 연산 효율성을 높이기 위해 제안된 기법 중 하나입니다. 트랜스포머의 주요 문제점 중 하나는 방대한 양의 데이터를 처리할 때 발생하는 계산 복잡성입니다. 이를 해결하기 위해 Sparse Attention은 중요한 부분에만 집중하는 방법을 통해 연산량을 줄입니다. 이는 모델이 모든 데이터를 동일하게 처리하는 대신, 특히 중요한 데이터 포인트에 집중하여 연산 효율성을 높이는 방식입니다.
Linformer는 트랜스포머 모델의 연산 복잡성을 줄이기 위한 또 다른 방법으로 제안되었습니다. Linformer는 기본적으로 트랜스포머의 모든 입력에 대해 동일한 가중치를 적용하는 대신, 선형 공간에서 입력을 변환하여 연산량을 줄이는 방법을 사용합니다. 이를 통해 트랜스포머 모델의 성능을 유지하면서도 계산 효율성을 크게 향상시킬 수 있습니다. 구체적으로, Linformer는 입력 시퀀스의 길이가 길어질수록 증가하는 계산 복잡성을 선형적으로 줄이는 것을 목표로 합니다.
트랜스포머 모델은 대규모 데이터셋을 사전 훈련(pretraining)하여 모델의 성능을 크게 향상시킬 수 있습니다. 이는 주로 대규모 말뭉치를 사용하여 모델을 사전 훈련하고, 해당 데이터를 통해 언어 패턴을 학습하는 방법입니다. 예를 들어, 허깅페이스(Hugging Face)에서 제공하는 트랜스포머 라이브러리는 자연어 처리를 넘어 딥러닝 전 영역에서 빠르게 영향력을 미치고 있습니다. 이 과정에서 사용된 대규모 데이터셋 사전 훈련 기술은 모델의 기본 성능을 높이는 데 중요한 역할을 합니다. (출처: 트랜스포머를 활용한 자연어 처리)
사전 훈련된 트랜스포머 모델은 특정 도메인에 맞게 파인 튜닝(fine-tuning)할 수 있습니다. 이는 사전 훈련된 모델을 특정 도메인의 데이터로 추가 훈련시켜 해당 분야에서 더욱 뛰어난 성능을 발휘하게 하는 방법입니다. 예를 들어, 트랜스포머는 'Attention Is All You Need' 논문에서 제안된 이후, 다양한 자연어 처리 작업에서 그 성능을 입증했습니다. 트랜스포머 모델을 도메인 맞춤형으로 파인 튜닝하는 과정은 모델이 도메인 특유의 언어적 특징과 패턴을 잘 이해하도록 돕습니다. (출처: 자연어와 트랜스포머, BERT, GPT)
Text-to-Image 기술은 텍스트를 통해 그대로 이미지를 생성하는 과정을 의미합니다. 이 기술은 트랜스포머 아키텍처의 강력한 표현력 덕분에 가능해졌습니다. 트랜스포머 모델은 텍스트 입력을 받아, 이를 이미지의 픽셀 값으로 변환하여 하나의 그림으로 완성합니다.
Text-to-Video 기술은 텍스트 기반의 설명을 통해 비디오를 생성하는 기술입니다. 이는 단순한 이미지 생성보다 훨씬 복잡한 문제를 다루며, 트랜스포머의 혁신적인 접근법 덕분에 실현되었습니다. 트랜스포머 모델은 연속적인 프레임 정보를 학습하여 텍스트를 비디오로 변환합니다.
하이브리드 데이터 처리 모델은 다양한 데이터 소스와 형태를 통합하여 학습하는 방법입니다. 이는 텍스트, 이미지, 오디오 등의 멀티모달 데이터를 동시에 처리할 수 있는 능력을 의미합니다. 트랜스포머 모델은 이러한 다양한 데이터를 효과적으로 통합하여 처리할 수 있는 구조를 가지며, 이를 통해 보다 정교한 결과를 도출할 수 있습니다.
트랜스포머 모델은 현재 다양한 텍스트 생성 모델의 중심으로 사용됩니다. 예를 들어 OpenAI의 비디오 생성 모델인 소라(Sora), 앤트로픽(Anthropic)의 클로드(Claude), 구글의 제미니(Gemini), GPT-4o 등이 있습니다. 그러나 이 모델들은 특히 계산과 관련된 한계에 직면하고 있습니다. 트랜스포머는 일반 하드웨어로 방대한 양의 데이터를 처리하고 분석하는 데 있어 효율적이지 않기 때문에, 이러한 한계를 극복하기 위해 새로운 아키텍처를 찾는 노력이 본격화되고 있습니다. 스탠포드, UC 샌디에이고, UC 버클리 및 메타의 연구팀이 개발한 테스트-타임 트레이닝(TTT) 모델은 트랜스포머에 비해 더 많은 데이터를 처리할 수 있으며 계산 능력을 거의 사용하지 않습니다.
트랜스포머 모델을 효율적으로 구동하기 위해 고효율 연산 하드웨어의 발전이 필수적입니다. 현재 트랜스포머는 일반 하드웨어에서 방대한 데이터의 처리가 비효율적이기 때문에 전력 수요가 급격히 증가하고, 이는 지속 가능하지 않은 상황에 이르고 있습니다. 이를 해결하기 위해 기업들은 더욱 효율적인 연산을 위한 하드웨어 최적화에 앞장서고 있습니다. 예를 들어 데이터 수집과 전처리 과정에서 활용되는 얼굴 검출 알고리즘 및 음성 인식 기술 등이 이에 포함됩니다. STT(Speech-To-Text)를 통해 발언 내용을 추론하고, 조정된 얼굴 영역을 기반으로 한 정렬 알고리즘도 발전하고 있습니다. 이 모든 요소들은 트랜스포머 모델의 고효율 연산을 위한 하드웨어 최적화의 일환입니다.
이 리포트는 2024년 최신 트랜스포머 기술의 발전과 그 중요성을 다룹니다. 트랜스포머 모델은 장거리 의존성 문제를 해결하기 위한 다양한 접근 방식을 통해 성능을 크게 향상시켰습니다. 'Never Train from Scratch' 논문은 S4와 트랜스포머 간 성능 차이를 줄이는 방법을 제시했고, 'Protein Discovery with Discrete Walk-Jump Sampling' 논문은 단백질 예측에서 뛰어난 성과를 보였습니다. 또한, 트랜스포머의 효율적인 연산 과정을 위한 Sparse Attention과 Linformer 기술도 중요한 역할을 했습니다. UGT(Unified Graph Transformer) 모델은 기존 그래프 트랜스포머의 한계를 극복하며 SOTA 성능을 달성했습니다. 하지만, 트랜스포머 기술이 여전히 계산 자원 소모가 크다는 한계가 있으며, 이를 해결하기 위해 TTT(Test-Time Training)와 같은 새로운 AI 아키텍처가 연구되고 있습니다. 앞으로 고효율 연산 하드웨어의 발전과 함께, 트랜스포머 모델은 더욱 다양한 실질적 응용에서 중요한 역할을 할 것으로 기대됩니다. 이러한 기술 발전은 트랜스포머가 AI 분야의 핵심 기술로 계속해서 자리 잡게 하는 기초가 될 것입니다.
트랜스포머는 2017년 구글이 발표한 딥러닝 모델로, 자연어 처리 분야에서 혁신적인 변화를 가져왔습니다. 셀프 어텐션 메커니즘을 통해 병렬 계산이 가능하며, 입력 시퀀스의 각 위치 간 관계를 고려할 수 있습니다. 컴퓨터 비전, 신호 처리 등 다양한 분야로 확산되었으며, 최근에는 이미지 생성 및 비디오 처리 등에서도 활용되고 있습니다.
SSM은 제어공학과 신호처리 분야에서 유래된 모델로, 다변수 입력과 출력을 다룰 수 있습니다. 트랜스포머의 장거리 의존성 문제를 해결하기 위해 도입되었으며, 스탠포드 대학교 연구팀이 딥러닝에 통합하려고 시도하고 있습니다.
UGT는 가톨릭대학교에서 발표한 그래프 트랜스포머 모델로, 전역적 및 지역적 노드 정보를 효과적으로 통합할 수 있는 구조입니다. 이를 통해 기존 그래프 트랜스포머의 한계를 극복하고, SOTA 성능을 달성했습니다.
TTT는 스탠포드, UC 샌디에고, UC 버클리, 메타의 연구팀이 개발한 새로운 AI 아키텍처로, 트랜스포머 모델의 효율성을 극대화할 수 있는 잠재력을 가지고 있습니다. 이 모델은 테스트 단계에서도 성능 최적화를 목표로 하며, 큰 계산 자원을 소모하지 않습니다.
Sparse Attention은 주의 메커니즘의 효율성을 높이기 위해 입력 데이터의 일부만을 선택적으로 주의하는 방식입니다. 이를 통해 학습 및 추론 시간과 자원 소모를 크게 줄일 수 있습니다.
Linformer는 어텐션 메커니즘의 연산 복잡성을 줄이기 위해 고안된 모델로, 입력 시퀀스의 길이에 비례하는 선형 시간 복잡성을 가집니다. 이를 통해 긴 시퀀스를 더 효율적으로 처리할 수 있습니다.