이 게시물에서 LittleBird[1] 모델 구조 및 구현하는 방법에 대해서 살펴보도록 하겠습니다.
소개
LittleBird는 카카오엔터프라이즈가 직접 개발한 Sparse Attention Transformer 모델이며, BigBird[2]의 정확도를 유지하면서 메모리 사용량과 모델의 속도를 개선합니다. 간단하게 말씀 드리자면, LittleBird는 BigBird의 Sliding Window Attention과 LUNA[3]의 Pack & Unpack Attention을 합치고, ALiBi[4] 기반한 새로운 양방향 위치 정보를 표현하는 방법을 사용하는 모델입니다.
LittleBird 구조는 크게 LUNA, Sliding Window Attention, BiALiBi (양방향 ALiBi) 세 개의 부분으로 나눌 수 있고, LittleBird 공식을 살펴보면서 구현하는 방법을 설명해보도록 하겠습니다.
노트
모델에 관련한 이론적인 부분 또는 학습하는 과정을 직접 논문을 통해 확인하시길 바랍니다.