현서의 개발 일지📚

[ 딥러닝 논문 리뷰 - PRMI Lab ] - DiT (Scalable Diffusion Models with Transformers)

2025.01.12

오늘은 OpenAI에서 만든 SORA의 근간이 되는 기술을 공부해보고 싶어서 찾다가 DiT(Diffusion Transformer)라는 논문이 있어서 정리해 보려고 합니다. 새로운 기술에 대한 논문이기 보다는, 모델의 구조와 관련된 논문이라고 생각됩니다. 그리고 최근에 4090데탑을 맞춰서, NerF, Diffusion 모델들을 코드를 분석하며 돌려보도록 하겠습니다. Diffusion Transformers (Preliminaries)DDPM (Denoising Diffusion Probablitistic Model)DDPM 리뷰: https://hyunseo-fullstackdiary.tistory.com/426 [ 딥러닝 논문 리뷰 - PRMI Lab ] - Denoising Diffusion Pro..

AIML/딥러닝 최신 트렌드 알고리즘

[ 3D Vision - Study ] - Nerual Fields and 3D Representations

2024.11.02

3D Vision Study의 목표는 NeRF를 한번 접해보기 위함이였습니다. NeRF는 ECCV 2020(oral)로서 best paper상을 받은 주인공이며, 그만큼 파급력이 높은 기술임을 알 수 있습니다. 당시에 최고의 complex view synthesizing 기술로서 sparse input과 continuous volumetric function을 이용했습니다. 해당 포스팅에서는 이러한 특징을 가지는 NeRF의 Concept과 Details에 대하여 살펴보겠습니다. (논문에서의 영어 표현이 더 익숙해서, 번역하지 않은 표현이 많은점 양해 부탁드립니다.) NeRF 논문 링크: https://arxiv.org/pdf/2003.08934 Introduction해당 논문에서는 static scene..

AIML/딥러닝 최신 트렌드 알고리즘

[ 3D vision - Study ] - Point Cloud Networks (Finding Good Correspondeces) - 2

2024.10.05

Graph convolutional networks실제로 Graph의 가중치를 업데이트 하는 수식은 위와 같습니다. 여기서 t는 정보가 얼마나 흘렀냐에 대한 지표입니다. 아무런 정보도 주어지지 않았을때 어떻게 업데이트 되는지를 $W_0^t$ 라고 하고, 다른 vertex로부터 정보를 $W_1^t$ 라고 한다면 위와 같이 업데이트를 할 수 있습니다. 이러한 수식은 그냥 나온 수식이 절대 아닙니다. 뒤에 복잡한 motivation이 존재합니다. 이름또한 Graph convolution인 이유도 여기에 있습니다. 이에 대한 수학적인 유도를 아주 간단히만 살펴보겠습니다. 결론만 살짝 말하자면, Fourier space(graph Laplacian을 사용)에서 graph multiplcation을 하면, c..

AIML/딥러닝 최신 트렌드 알고리즘

[ 3D vision - Study ] - Point Cloud Networks (Finding Good Correspondeces) - 1

2024.10.03

이전에는 good correspondences를 잘 찾았다고 가정하에 수식을 전개했었습니다. 이번에는 good correspondences를 찾기 위해 Camera Pose Estimation Pipeline, Point Cloud Network, Graph Neural Network를 보고, 최종적으로 Correspondences를 학습하는 방법에 대해 보겠습니다. 1. A Typical Camera Pose Estimation Pipeline위사진은 colmap이라는 software의 pipeline입니다. 간단한 과정에 대해 살펴보겠습니다. Feature Extraction이미지들이 주어졌을 때 먼저 Shift / Lift같은 이미지를 설명할 수 있는 local feature들을 추출합니다.위 그림..

AIML/딥러닝 최신 트렌드 알고리즘

[ 3D vision - Study ] - The Pinhole Camera Model and Epipolar Geometry - 3

2024.09.18

5. Epipolar Geometry and the Fundamental Matrix이번에는 카메라간의 상관관계를 묘사하는 하나의 수식을 유도할 것입니다. 지금부터의 수식은 지금까지 얘기했던 Camera Calibration이 되어있다고 가정할 것입니다. 또한, 3D, 2D상의 선분들을 잇게 되면, 어떤 평면을 구성한다는 것을 알아야 합니다. 여기서 가정을 할 것은 카메라에 맺히는 2개의 대응되는 지점이 어딘지를 안다고 가정할 것입니다. 사실상 이 대응되는 지점을 알아내는 것이 3D vision의 핵심이지만 우리는 이론적인것을 유도하고 있기때문에, 이는 풀어졌다고 가정을 하는 것입니다. 이제 우리는 신기한 일을 할 수 있게됩니다. 우리가 3D 어디에서 카메라의 두 선분이 만나는지 몰라도, 두개의 대응점을..

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

현서의 개발 일지📚

[ 딥러닝 논문 리뷰 - PRMI Lab ] - DiT (Scalable Diffusion Models with Transformers)

[ 3D Vision - Study ] - Nerual Fields and 3D Representations

[ 3D vision - Study ] - Point Cloud Networks (Finding Good Correspondeces) - 2

[ 3D vision - Study ] - Point Cloud Networks (Finding Good Correspondeces) - 1

[ 3D vision - Study ] - The Pinhole Camera Model and Epipolar Geometry - 3

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역