전체 글

전체 글

    [ 3D Vision - Study ] - Nerual Fields and 3D Representations

    [ 3D Vision - Study ] - Nerual Fields and 3D Representations

    3D Vision Study의 목표는 NeRF를 한번 접해보기 위함이였습니다. NeRF는 ECCV 2020(oral)로서 best paper상을 받은 주인공이며, 그만큼 파급력이 높은 기술임을 알 수 있습니다. 당시에 최고의 complex view synthesizing 기술로서 sparse input과 continuous volumetric function을 이용했습니다. 해당 포스팅에서는 이러한 특징을 가지는 NeRF의 Concept과 Details에 대하여 살펴보겠습니다. (논문에서의 영어 표현이 더 익숙해서, 번역하지 않은 표현이 많은점 양해 부탁드립니다.) NeRF 논문 링크: https://arxiv.org/pdf/2003.08934 Introduction해당 논문에서는 static scene..

    [ 3D vision - Study ] - Point Cloud Networks (Finding Good Correspondeces) - 2

    [ 3D vision - Study ] - Point Cloud Networks (Finding Good Correspondeces) - 2

    Graph convolutional networks실제로 Graph의 가중치를 업데이트 하는 수식은 위와 같습니다. 여기서 t는 정보가 얼마나 흘렀냐에 대한 지표입니다. 아무런 정보도 주어지지 않았을때 어떻게 업데이트 되는지를 \(W_0^t\)라고 하고, 다른 vertex로부터 정보를 \(W_1^t\)라고 한다면 위와 같이 업데이트를 할 수 있습니다.  이러한 수식은 그냥 나온 수식이 절대 아닙니다. 뒤에 복잡한 motivation이 존재합니다. 이름또한 Graph convolution인 이유도 여기에 있습니다. 이에 대한 수학적인 유도를 아주 간단히만 살펴보겠습니다. 결론만 살짝 말하자면, Fourier space(graph Laplacian을 사용)에서 graph multiplcation을 하면, c..

    [ 3D vision - Study ] - Point Cloud Networks (Finding Good Correspondeces) - 1

    [ 3D vision - Study ] - Point Cloud Networks (Finding Good Correspondeces) - 1

    이전에는 good correspondences를 잘 찾았다고 가정하에 수식을 전개했었습니다. 이번에는 good correspondences를 찾기 위해 Camera Pose Estimation Pipeline, Point Cloud Network, Graph Neural Network를 보고, 최종적으로 Correspondences를 학습하는 방법에 대해 보겠습니다. 1. A Typical Camera Pose Estimation Pipeline위사진은 colmap이라는 software의 pipeline입니다. 간단한 과정에 대해 살펴보겠습니다. Feature Extraction이미지들이 주어졌을 때 먼저 Shift / Lift같은 이미지를 설명할 수 있는 local feature들을 추출합니다.위 그림..

    [ 3D vision - Study ] - The Pinhole Camera Model and Epipolar Geometry - 3

    [ 3D vision - Study ] - The Pinhole Camera Model and Epipolar Geometry - 3

    5. Epipolar Geometry and the Fundamental Matrix이번에는 카메라간의 상관관계를 묘사하는 하나의 수식을 유도할 것입니다. 지금부터의 수식은 지금까지 얘기했던 Camera Calibration이 되어있다고 가정할 것입니다. 또한, 3D, 2D상의 선분들을 잇게 되면, 어떤 평면을 구성한다는 것을 알아야 합니다. 여기서 가정을 할 것은 카메라에 맺히는 2개의 대응되는 지점이 어딘지를 안다고 가정할 것입니다. 사실상 이 대응되는 지점을 알아내는 것이 3D vision의 핵심이지만 우리는 이론적인것을 유도하고 있기때문에, 이는 풀어졌다고 가정을 하는 것입니다. 이제 우리는 신기한 일을 할 수 있게됩니다. 우리가 3D 어디에서 카메라의 두 선분이 만나는지 몰라도, 두개의 대응점을..

    [ 3D vision - Study ] - The Pinhole Camera Model and Epipolar Geometry - 2

    [ 3D vision - Study ] - The Pinhole Camera Model and Epipolar Geometry - 2

    3. The Pinhole Camera Model이전에는 카메라 모델을 통해 3차원을 변환을 알아보기 전에, 2D -> 2D의 Homograpy를 알아보았었습니다. 이번에는 본격적으로 기본적인 카메라 모델인 pinhole camera model부터 살펴보겠습니다. From 2D to 3D가장 먼저 3D가 어떻게 2D영상으로 영상에 매치되는지를 모델링할 필요가 있습니다. 그래서 3D의 $[X, Y, Z]$로 표현되는 물리적인 지점이 거쳐서 카메라에 맺히는 2D의 $[x, y, 1]$과 어떻게 대응되는지 모델링을 해야합니다. 이걸 하기 위해 먼저 카메라와 상이 맺히는 지점의 거리가 1이라 가정합니다. Simplification of how camera work위 그림은 실제 3D에 있는 $[X, Y, Z]$..

    [ 3D vision - Study ] - The Pinhole Camera Model and Epipolar Geometry - 1

    [ 3D vision - Study ] - The Pinhole Camera Model and Epipolar Geometry - 1

    최근에 3D vision에 관심이 생겨서, 관련 공부를 하고 있었습니다. 해당 포스팅은 Pinhole Camera와 Epipolar Geometry에 관련해서 스터디를 한 내용을 정리하기 위함입니다. 추후에는 Point Cloud Networks와 Nerual Fields(Nerf)에 대해 다루겠습니다. 해당 내용은 Hartley and Zisserman's book의 내용을 참고하였으며, 이광무 교수의 THE RED강의를 수강후 작성하였습니다.  1. Homogeneous Coordinates and 2D Homography먼저 위의 그림상에서 3D 점과, 선을 나타낼 수 있는 Homogeneous coorodinates에 대해 다룰 것이며, 점들과 선분들이 2차원적인 측면에서 어떤 관계를 이루고 있는..

    [ 딥러닝 논문 리뷰 - PRMI Lab ] - CLIP: Learning Trasferable Visual Models From Natural Language Supervision

    [ 딥러닝 논문 리뷰 - PRMI Lab ] - CLIP: Learning Trasferable Visual Models From Natural Language Supervision

    Stable Diffusion Model을 읽기 위해, 저번까지 Diffusion과 관련된 내용을 다루었습니다. 이번에는, OpenAI에서 ICML 2021에 Accept되었던 CLIP에 대해서 다루어보려고 합니다. 현재 OpenAI의 DALLE-2나 StableDiffusion, SORA,.. 다양한 멀티모달 생성형 AI에 CLIP의 개념이 들어가있다고 합니다. CLIP이 무엇이고 어떤점이 Contribution이었는지에 대해 보겠습니다. Abstract기존의 SOTA 모델은 특정 카테고리 내에서 label을 학습해서 예측하게끔 하는 형태였습니다. 이러한 방법은, 이미지의 일반화 성능과 다른 task에서의 사용 가능성을 제한합니다. 따라서 이에 대한 대안으로 CLIP은 이미지를 설명하는 raw-text..

    [ 딥러닝 논문 리뷰 - PRML Lab ] - Score-Based Generative Models and Diffusion Models

    [ 딥러닝 논문 리뷰 - PRML Lab ] - Score-Based Generative Models and Diffusion Models

    DDPM, DDIM의 논문을 읽고 리뷰를 했습니다. 그 후에 Diffusion Models Beat GANs on Image Synthesis라는 논문을 리뷰하려고 읽고 있었습니다. 그런데, diffusion에 class guidance를 도입하면서, 학습시에서의 score matching 어쩌고, 샘플링시에 Annealed Langevin dynamics를 이용한는 내용이 너무 많아서 궁금해졌습니다. 그러면서, DDPM, DDIM그 이전에 나온 Score-Based모델과 같은 NCSN과 같은 모델이 있는걸 알 수 있었고, NCSN이 DDPM과 SDE를 통해 통합될 수 있는 논문등이 있음을 확인할 수 있었습니다. 그럼 이번 포스팅을 통해 DDPM이전의 논의되었던 사항들과 개념들에 대해 간단히 짚고가겠습니..

    [ 딥러닝 논문 리뷰 - PRMI Lab ] - DENOISING DIFFUSION IMPLICIT MODELS (DDIM)

    [ 딥러닝 논문 리뷰 - PRMI Lab ] - DENOISING DIFFUSION IMPLICIT MODELS (DDIM)

    DDPM을 쓰고 많은 시간이 흘렀습니다. DDPM은 가우시안 분포에서 추출한 noise를 마르코프 체인 과정으로 순차적으로 걷어내며 sample을 생성해내는 Generative Model이였습니다. 하지만 이 방법은, 순차적으로 reverse-process를 진행해야 해서, step에 따른 시간이 많이 소요되었습니다. 그래서 GAN에 비해 sampling quality는 높았지만, 그만큼 sampling속도가 느리다는 단점이 있었습니다. 오늘 살펴볼 DDIM은 이러한 제한을 Non-Markovian Process를 통해 해결했으며, Objective Function은 DDPM과 똑같이 가져가서 DDPM(training) -> DDIM(sampling)이 가능해지게 되었습니다. 논문 링크, 깃허브 링크입니..

    [ 딥러닝 논문 리뷰 - PRMI Lab ] - Denoising Diffusion Probabilistic Model (DDPM)

    [ 딥러닝 논문 리뷰 - PRMI Lab ] - Denoising Diffusion Probabilistic Model (DDPM)

    Generative model에 있어서 이전에 GAN, VAE, Normalizing Flow모델등을 알아봤었습니다. 요즘에는 DDPM이 GAN보다 성능이 좋다고 들었습니다. 원래는 StyleGan을 통해 발전된 GAN에 대해 알아보려고 했으나, DDPM의 매력에 못이겨 바로 다음 포스팅에서 다루어보겠습니다. 논문과 코드입니다. DDPM의 논문에는 아직 학부 3학년이 이해하기에는 벅찬 수식들과 많은 배경지식이 필요했습니다. 하지만 차근차근 필요한 내용을 정리하며 코드까지 짜보며 왜 DDPM이 현재 트렌드인 것인지 자세히 파헤쳐 보도록 하겠습니다. 추후에는 Diffusion관련 Multimodal 프로젝트를 해보고 싶은게 제 큰 목표입니다. 그 전에 도움을 많이 받은 동영상을 첨부하겠습니다. Introdu..