전체 글

현서의 개발 일지📚

    [ 딥러닝 논문 리뷰 - PRMI Lab ] - Denoising Diffusion Probabilistic Model (DDPM)

    [ 딥러닝 논문 리뷰 - PRMI Lab ] - Denoising Diffusion Probabilistic Model (DDPM)

    Generative model에 있어서 이전에 GAN, VAE, Normalizing Flow모델등을 알아봤었습니다. 요즘에는 DDPM이 GAN보다 성능이 좋다고 들었습니다. 원래는 StyleGan을 통해 발전된 GAN에 대해 알아보려고 했으나, DDPM의 매력에 못이겨 바로 다음 포스팅에서 다루어보겠습니다. 논문과 코드입니다. DDPM의 논문에는 아직 학부 3학년이 이해하기에는 벅찬 수식들과 많은 배경지식이 필요했습니다. 하지만 차근차근 필요한 내용을 정리하며 코드까지 짜보며 왜 DDPM이 현재 트렌드인 것인지 자세히 파헤쳐 보도록 하겠습니다. 추후에는 Diffusion관련 Multimodal 프로젝트를 해보고 싶은게 제 큰 목표입니다. 그 전에 도움을 많이 받은 동영상을 첨부하겠습니다. Introdu..

    [ 딥러닝 최신 알고리즘 - PRMI Lab ] - Emerging Properties In Self-Supervised Vision Transformers (DINO)

    [ 딥러닝 최신 알고리즘 - PRMI Lab ] - Emerging Properties In Self-Supervised Vision Transformers (DINO)

    이전에는 Swin Transformer에 대해 알아봤습니다. 이번에는 새로운 Transformer Architecture를 제안하는 논문보다는, 방법론적인 측면에 보다 집중한 논문을 읽어보고 싶었습니다. DINO(Distillation with No label)을 살펴볼 것인데, 해당 논문에서는 Self-Supervised learning 과 관련된 사전 지식이 필요로 했습니다. Self-Supervised learning에서의 evaluation protocol나 이전에 제안되었던 SimCLR, MoCo, BYOL,.. 등을 말이죠. 몰라도 괜찮습니다, 해당 포스팅에서 제가 간단히 짚으면서 넘어가겠습니다. 해당 논문에서, DINO의 구조, DINO를 훈련시키는 방법, DINO의 성능 평가 방법과 훈련시..

    [ 딥러닝 최신 알고리즘 - PRMI Lab] - Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

    [ 딥러닝 최신 알고리즘 - PRMI Lab] - Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

    ViT, DeiT순으로 Vision Transformer와 관련된 내용을 쭉 살펴보았었습니다. 이들의 고질적인 한계점은, (1) high resolution image가 들어오게 되면, sequence의 길이가 quadratic하게 증가해서, 이에 계산 복잡도가 기하급수적으로 늘어난다는 것이었습니다. (2) Hierarachical Representation(=계층적인 표현)을 학습하지 못합니다. 기존의 CNN기반 모델이 가지는 이점이기도 합니다. (3) Translation Invariant(=이동 불변성)이 부족합니다. General Purpose모델에 중요한 요소중에 하나입니다. 그래서 이러한 문제점에 대해 해결책을 제시해서 General Purpose의 Backbone Model로서의 가능성을 제..

    [ 딥러닝 최신알고리즘 - PRMI Lab ] - DeiT (data-efficient image transformers & distillation through attention)

    [ 딥러닝 최신알고리즘 - PRMI Lab ] - DeiT (data-efficient image transformers & distillation through attention)

    이전에 ViT를 살펴보았고, data-efficient하지 못하다는 단점이 있었습니다. 이런 문제점등을 개선한 ViT모델을 찾아보다 DeiT를 볼 수 있게 되었고, 다양한 ViT의 변형모델을 볼 수 있었습니다. 예를 들면 Swin Transformer, CvT,...는 추후 포스팅에서 알아보도록 하겠고, 이번에는 DeiT논문을 기반으로 코드도 참고하며 디테일하게 파고들어보겠습니다. Abstract 이전의 ViT는 좋은 성능을 이끌어 내기 위해서는 JFT-300M(=300M)의 어마무시한 크기의 dataset으로 pre-train시켰습니다. 이렇기에 ViT를 채택하기에는 한계점이 있는 상황입니다. 해당 논문에서는, 오직 Imagenet만으로 top-1 accuracy (83.1%)를 찍은 convoluti..

    [ 딥러닝 최신 알고리즘 - PRMI Lab ] - KD: Knowledge Distillation

    [ 딥러닝 최신 알고리즘 - PRMI Lab ] - KD: Knowledge Distillation

    이전에는 ViT의 논문을 리뷰하고 이에대한 코드를 짜보고 Pre-train과 fine-tuning까지 해보았습니다. 하지만 ViT의 고질적인 문제인 데이터 효율적이지 못하다는 점이 가장 아쉬웠습니다. 이에, 데이터 효율적인 ViT인 DeIT를 리뷰하려고 했습니다. 다만, 그 전에 DeIT에서 Knowledge Distillation과 관련된 사전 지식을 요해서 이와 관련된 내용을 논문과 함께 간단히 정리하고 가면 좋을거 같다고 생각했습니다. 해당 논문은 딥하게 파고들지 않고, 그냥 이런 개념이 있구나~ 정도로만 살펴보도록 하겠습니다. ( 사실 KD가 Nosiy Student Model기반 모델과 유사하다는 느낌이 들어서 얼른 이것도 알아보고 싶거든요!) https://arxiv.org/pdf/1503.0..