#SEGMENTATION #VISION #DeiT
DeiT는 페이스북AI에서 발표한, vision transformer(ViT)을 distillation으로 학습시킨 image classification 모델입니다.
Data-efficient image Transformers로 데이터 효율적인 이미지 변환기를 뜻하며 DieT 라고 합니다.
컨볼루션이 없는 트랜스포머임에도 불구하고 적은 이미지 데이터로 효과적으로 학습이 가능합니다.
기존의 class token에 distillation token을 추가하여 학습을 했습니다.
vision transformer(VIT)란?

: Transformer의 구조적 문제때문에 한계점이 생겼습니다. image 데이터를 학습할 때 이미지 처리에 유리한 inductive bias를 학습하지 못하여 locality와 trnaslation equivariance와 같이 CNN 모델 고유의 특징을 뽑아내지 못했습니다.
distillation이란?

: 한개의 신경 네트워크(Student 모델)가 다른 네트워크(Teacher 모델)의 출력으로부터 학습하는 과정을 뜻합니다. 트랜스포머에 distillation 토큰을 추가하며 분류 벡터 및 이미지 구성 요소 토큰과 상호 작용하게 됩니다.
: 미리 학습이 잘 된 Teacher 모델을 Student 모델에 지식을 전달하는 개념입니다.
: Teacher 모델의 softmax 분포와 student 모델의 softmax 분포의 KL divergence를 최소화하는 방향으로 진행됩니다.
- Hard Distillation

- Soft Distillation

: 위의 VIT 모델의 한계점을 없애기 위한 방법으로 논문에서 소개되었습니다.
: DeiT에서 distillation을 이용하면 VIT모델이 CNN에서 nductive bias를 학습할 수 있습니다.
: Trnasformer 기반의 모델보다는 성능적으로 떨어지지만 앞으로는 좋아질 것으로 봤습니다.
DieT 모델 구조
: 기본적으로 구조는 VIT 모델과 동일합니다.
: Class token과 같은 구조의 distillation token이 추가됩니다.

DieT의 장점
: 고성능 이미지 분류 모델을 생산하기 위해 훨씬 적은 데이터와 컴퓨터 리소스를 필요로 합니다.
: 3일동안 단일 8-GPU 서버로 훈련했을 때, ImageNet 벤치마크에서 84.2 top-1 정확도를 달성했습니다.

: 연구 초기 단계이지만 CNN과 유사한 성능을 나타내는 것을 보아 가능성이 보이는 모델로 보입니다.