분류 전체보기
[ 딥러닝 논문 리뷰 - PRMI Lab ] - DiT (Scalable Diffusion Models with Transformers)
오늘은 OpenAI에서 만든 SORA의 근간이 되는 기술을 공부해보고 싶어서 찾다가 DiT(Diffusion Transformer)라는 논문이 있어서 정리해 보려고 합니다. 새로운 기술에 대한 논문이기 보다는, 모델의 구조와 관련된 논문이라고 생각됩니다. 그리고 최근에 4090데탑을 맞춰서, NerF, Diffusion 모델들을 코드를 분석하며 돌려보도록 하겠습니다. Diffusion Transformers (Preliminaries)DDPM (Denoising Diffusion Probablitistic Model)DDPM 리뷰: https://hyunseo-fullstackdiary.tistory.com/426 [ 딥러닝 논문 리뷰 - PRMI Lab ] - Denoising Diffusion Pro..
[ 3D Vision - Study ] - Nerual Fields and 3D Representations
3D Vision Study의 목표는 NeRF를 한번 접해보기 위함이였습니다. NeRF는 ECCV 2020(oral)로서 best paper상을 받은 주인공이며, 그만큼 파급력이 높은 기술임을 알 수 있습니다. 당시에 최고의 complex view synthesizing 기술로서 sparse input과 continuous volumetric function을 이용했습니다. 해당 포스팅에서는 이러한 특징을 가지는 NeRF의 Concept과 Details에 대하여 살펴보겠습니다. (논문에서의 영어 표현이 더 익숙해서, 번역하지 않은 표현이 많은점 양해 부탁드립니다.) NeRF 논문 링크: https://arxiv.org/pdf/2003.08934 Introduction해당 논문에서는 static scene..
[ 3D vision - Study ] - Point Cloud Networks (Finding Good Correspondeces) - 2
Graph convolutional networks실제로 Graph의 가중치를 업데이트 하는 수식은 위와 같습니다. 여기서 t는 정보가 얼마나 흘렀냐에 대한 지표입니다. 아무런 정보도 주어지지 않았을때 어떻게 업데이트 되는지를 \(W_0^t\)라고 하고, 다른 vertex로부터 정보를 \(W_1^t\)라고 한다면 위와 같이 업데이트를 할 수 있습니다. 이러한 수식은 그냥 나온 수식이 절대 아닙니다. 뒤에 복잡한 motivation이 존재합니다. 이름또한 Graph convolution인 이유도 여기에 있습니다. 이에 대한 수학적인 유도를 아주 간단히만 살펴보겠습니다. 결론만 살짝 말하자면, Fourier space(graph Laplacian을 사용)에서 graph multiplcation을 하면, c..
[ 3D vision - Study ] - Point Cloud Networks (Finding Good Correspondeces) - 1
이전에는 good correspondences를 잘 찾았다고 가정하에 수식을 전개했었습니다. 이번에는 good correspondences를 찾기 위해 Camera Pose Estimation Pipeline, Point Cloud Network, Graph Neural Network를 보고, 최종적으로 Correspondences를 학습하는 방법에 대해 보겠습니다. 1. A Typical Camera Pose Estimation Pipeline위사진은 colmap이라는 software의 pipeline입니다. 간단한 과정에 대해 살펴보겠습니다. Feature Extraction이미지들이 주어졌을 때 먼저 Shift / Lift같은 이미지를 설명할 수 있는 local feature들을 추출합니다.위 그림..