AIML/딥러닝 최신 트렌드 알고리즘
[ 딥러닝 최신 알고리즘 - PRMI Lab] - Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
ViT, DeiT순으로 Vision Transformer와 관련된 내용을 쭉 살펴보았었습니다. 이들의 고질적인 한계점은, (1) high resolution image가 들어오게 되면, sequence의 길이가 quadratic하게 증가해서, 이에 계산 복잡도가 기하급수적으로 늘어난다는 것이었습니다. (2) Hierarachical Representation(=계층적인 표현)을 학습하지 못합니다. 기존의 CNN기반 모델이 가지는 이점이기도 합니다. (3) Translation Invariant(=이동 불변성)이 부족합니다. General Purpose모델에 중요한 요소중에 하나입니다. 그래서 이러한 문제점에 대해 해결책을 제시해서 General Purpose의 Backbone Model로서의 가능성을 제..
[ 딥러닝 최신알고리즘 - PRMI Lab ] - DeiT (data-efficient image transformers & distillation through attention)
이전에 ViT를 살펴보았고, data-efficient하지 못하다는 단점이 있었습니다. 이런 문제점등을 개선한 ViT모델을 찾아보다 DeiT를 볼 수 있게 되었고, 다양한 ViT의 변형모델을 볼 수 있었습니다. 예를 들면 Swin Transformer, CvT,...는 추후 포스팅에서 알아보도록 하겠고, 이번에는 DeiT논문을 기반으로 코드도 참고하며 디테일하게 파고들어보겠습니다. Abstract 이전의 ViT는 좋은 성능을 이끌어 내기 위해서는 JFT-300M(=300M)의 어마무시한 크기의 dataset으로 pre-train시켰습니다. 이렇기에 ViT를 채택하기에는 한계점이 있는 상황입니다. 해당 논문에서는, 오직 Imagenet만으로 top-1 accuracy (83.1%)를 찍은 convoluti..
[ 딥러닝 최신 알고리즘 - PRMI Lab ] - KD: Knowledge Distillation
이전에는 ViT의 논문을 리뷰하고 이에대한 코드를 짜보고 Pre-train과 fine-tuning까지 해보았습니다. 하지만 ViT의 고질적인 문제인 데이터 효율적이지 못하다는 점이 가장 아쉬웠습니다. 이에, 데이터 효율적인 ViT인 DeIT를 리뷰하려고 했습니다. 다만, 그 전에 DeIT에서 Knowledge Distillation과 관련된 사전 지식을 요해서 이와 관련된 내용을 논문과 함께 간단히 정리하고 가면 좋을거 같다고 생각했습니다. 해당 논문은 딥하게 파고들지 않고, 그냥 이런 개념이 있구나~ 정도로만 살펴보도록 하겠습니다. ( 사실 KD가 Nosiy Student Model기반 모델과 유사하다는 느낌이 들어서 얼른 이것도 알아보고 싶거든요!) https://arxiv.org/pdf/1503.0..
[ 딥러닝 최신 알고리즘 - PRMI Lab ] - ViT 구현과, huggingface를 이용한 fine-tuning
https://github.com/eunoiahyunseo/rofydeo-model-archiving/tree/main/models/ViT 해당 github 주소에 코드들은 올려 놓았습니다. 모델 구현 # pytocrh와 기타 util라이브러리를 import해온다. import torch import torch.nn.functional as F import matplotlib.pyplot as plt from torch import nn from torch import Tensor from PIL import Image from torchvision.transforms import Compose, Resize, ToTensor # 텐서의 차원관리를 해주는, einops from einops import ..