AIML

    [딥러닝 논문 리뷰 - PRMI lab] - 배치 정규화(Batch Normalization) + 보편적 근사 정리(Universal Approximation Theorem)

    [딥러닝 논문 리뷰 - PRMI lab] - 배치 정규화(Batch Normalization) + 보편적 근사 정리(Universal Approximation Theorem)

    배치 정규화 (Batch Normalization) 배치 정규화의 잘 알려진 장점은 아래와 같습니다. 학습 속도(training speed)를 빠르게 할 수 있습니다. 가중치 초기화(weight initialization)에 대한 민감도를 감소시킵니다. 모델의 일반화(regularization)효과가 있습니다. 정리하면 뒤에서 자세히 알아보겠지만, 배치 정규화를 사용하면 학습 속도가 빨라지며, 성능이 올라갈 뿐만 아니라 모델을 설계하는 입장에서 하이퍼 파라미터 세팅에 대한 부담이 줄어들기 때문에 사용하지 않을 이유가 없다고 할 수 있습니다. 그래서 실제로 이미지를 처리하는 분야에서 이러한 배치 정규화가 많이 사용되었습니다. 그 결과 모델의 성능을 많이 올릴 수 있었습니다. 배치 정규화는 위 그림에서 볼 ..

    [딥러닝 최신 트렌드 알고리즘] - (Practice Session with Pytorch) Implement Feedforward Network

    [딥러닝 최신 트렌드 알고리즘] - (Practice Session with Pytorch) Implement Feedforward Network

    본 게시물에서는 실제로 제가 pytorch 공식 문서를 보고 이전에 강의 세션에서 공부했던 개념들로 신경망을 구축하고 학습하는 과정들을 정리해보겠습니다. https://pytorch.org/vision/stable/datasets.html Datasets — Torchvision 0.15 documentation Shortcuts pytorch.org Built-in DATASETS 모든 pytorch의 데이터 셋들은 torch.utils.data.Dataset 에 포함되어 있습니다. 그리고 pytorch의 데이터 셋은 __getitem__과 __len__메소드가 구현되어 있습니다. 그리고 torch.utils.data.DataLoader는 데이터를 배치로 불러오는 역할을 하는데, 이 클래스는 멀티프로세..

    [딥러닝 최신 트렌드 알고리즘] - Feedforward Network

    [딥러닝 최신 트렌드 알고리즘] - Feedforward Network

    Feed-forward란 다층 퍼셉트론MLP, CNN, self-attention등에서 다양한 분야에서 사용됩니다. 이는 비선형적으로 input을 바꿔 아웃풋을 생각하는 파라미터weight를 학습할 수 있는 연결된 뉴런으로 구성된 시스템을 말합니다. 결과적으로 비선형 or 선형인 activation function을 사용해서 이를 다른 좌표계로 변형하는 과정을 말하게 됩니다. 즉 앞단에서 선형적으로 Weight, bais같은 걸 받아서 affine transform(선형 변환)을 받은 뒤 활성 함수등으로 non-linear변형을 합니다. tanh 활성화 함수 sigmoid는 0~1로 값을 압축해주었었습니다. 그래서 미분을 하더라도 local minimum에 빠지게 될 수 있습니다. 하지만 tanh는 -1..

    [딥러닝 최신 알고리즘] - 정보이론 (엔트로피, KL 발산, 크로스 엔트로피)

    [딥러닝 최신 알고리즘] - 정보이론 (엔트로피, KL 발산, 크로스 엔트로피)

    ML을 공부하다 정보이론 내용이 수식이 어려워서 한번 정리해보면 좋을거 같아 정리합니다. 어떤 정보는 특정한 관찰에 의해 얼마만큼의 정보를 획득했는지 수치로 정량화 한 값입니다. 사건 A가 발생할 확률을 P(X)라고 할 때 정보량은 -logP(X)라고 표현할 수 있습니다. 반면 엔트로피는, 변수의 불확실성을 나타내는 지표로서, 확률분포 p를 가지는 변수X에 대해서 위와같이 표현할 수 있게 됩니다. X가 특정한 값을 가질 확률이 1인 경우에 엔트로피는 최솟값이 됩니다. 이때의 엔트로피의 값은 0입니다. 즉 불확실성이 감소할 수록 엔트로피의 값은 작아집니다. 반대로 각 값을 가질 확률이 다 같은 경우 엔트로피의 값은 최대가 됩니다. KLD는 2개의 확률분포가 어느 정도 닮았는지를 나타내는 척도를 말합니다. ..