AIML/딥러닝 최신 트렌드 알고리즘
[ 딥러닝 최신 알고리즘 - PRMI Lab ] - ViT: Vision Transformer(2021)
https://arxiv.org/pdf/2010.11929.pdf 오늘 제가 알아볼 논문은, 비전 Task분야에서 Convolution Network 구조였던 걸 Transformer구조로 변경하는데에 시작점이 된 Vision Transformer(ViT) 입니다. 기존에 Transformer구조는 NLP를 공부하면서 접한 내용이였습니다. 하지만 지금 Text Task에서는 이미 Transformer(=Bert, ELECTRA, T5 etc,...)로 지배적인 상황이였습니다. 하지만 ViT가 비전 Task에 적용된 이후로부터 Swin ViT, DeiT,,.. 등 많은 변형과 이를 Classification, Segmentation, Captioning,,.. 다양한 비전 Task로도 적용하는 추세가 되었..
[ 딥러닝 최신 트랜드 - PRMI Lab ] - Variations of Transformers
2017년에 Transformer가 나온 이후로 정말 많은 후속 연구가 있었습니다. 기본적인 "Attention is all you need"에서의 Transformer의 구조는 위와 같습니다. 그 이후로 Transformer는 아래와 같은 방향으로 주로 발전했습니다. Complexity의 개선 성능 개선 도메인 확장 이의 개선 방법에 따라 아래와 같이 범주화 할 수 있습니다. Module level Architecture level Pre-Train Application Recap: 트랜스포머(Transformer) & Computational Costs 실제로 Self-attention, Recurrent, Convolutional, restricted self-attention의 시간 복잡도와 S..
[ 딥러닝 구현 - PRMI Lab ] - 트랜스포머(Transformer)의 구현
Self-attention vs CNN vs RNN 위의 그림에서 computation power를 비교하고 있습니다. Self-attention이 per layer마다 computation complexit가 $O(n^{2} \dot d$가 나오게 되는데, 여기서 n은 시퀀스의 길이, d는 인풋, 아웃풋 채널(size)라고 가정합니다. k는 커널 사이즈입니다. 그 이유는 Query, key, Value들은 [n, d]의 매트릭스일 것입니다. 바나다우 어텐션이 아니라 로웅 어텐션(=dot-attention)이라면 [n, d] matrix가 [d, n]과 곱해져 [n, n] matrix를 만들것이기 때문이죠. 그리고 Sequence operation은 $O(1)$로서 모든 토큰이 동시에작동합니다. 그리고 ..
[ 딥러닝 최신 알고리즘 - PRMI Lab ] - Generative model + Embedding (WaveNet., PixelCNN++, Self-Attention, Auto-Encoder, Bag, Word2Vec)
이번에는 트랜스포머를 구현하기 전에, 최종적으로 개념 정리를 하려고 합니다. 먼저 개념을 간단히 훑겠습니다. Auto-encoder 오토인코더(Auto-Encoder)는 신경망의 한 종류로, 비지도 학습 방법에 속합니다. 입력 데이터의 압축된 표현을 학습하고, 이를 다시 입력 데이터와 같은 크기로 복구해내는 것이 목표입니다. 대표적으로 U-net이 있고, DeConvNet도 예로 들 수 있습니다. 이는 입력 데이터의 압축된 표현을 학습하면서, 그 표현을 이용해 원본 입력 데이터를 재구성하는 능력을 취득하게 됩니다. 이렇게 학습된 오토인코더는 차원 축소, 노이즈 제거, 특성 추출 등 다양한 용도로 활용될 수 있게 됩니다. Sequence-to-Sequence에서의 임베딩(embedding) 위와같이 seq..