☺

2024.05.11· 🌐 Jero's Wiki/Deep Learning

Weight Initialization딥러닝 모델을 학습한다는 건 loss 값이 최소가 되는 parameter를 찾는 것이다. 최적의 parameter를 찾기 위해 고려해야 할 점들이 여럿 있지만, 그 중 parameter의 초기값 설정은 중요한 영향을 미친다. 이 글에선 parameter 즉, weight의 초기값을 설정하는 여러 가지 방법에 대해 다뤄보려 한다. Zero Initialization (or Same Initialization)weight 크기를 크게 부여할수록 모델은 특정 데이터에만 잘 맞는 overfitting 문제가 발생하기 쉽다. 그렇기 때문에 weight을 0 혹은 굉장히 작은 값으로 부여해 학습을 진행시켜보자. $h_1 = h_2 = h_3 = \mathbf{W}(i_..

Regularization

2024.04.26· 🌐 Jero's Wiki/Deep Learning

Regularization 딥러닝 모델을 학습하는 과정에서 해당 모델이 학습 데이터에만 최적화되면 어떨까? 아마 새로운 데이터가 입력되면 모델은 제대로 된 예측값을 출력하지 못할 것이다. 이런 문제를 Overfitting(과적합)이라 한다. 이런 Overfitting을 해결하기 위해선 학습 데이터의 양을 늘리거나, Regularization을 사용해 모델의 weight를 규제하거나, 모델 학습을 끝까지 하지 않고 중간에 멈추는 방법(Early-Stopping) 등을 사용할 수 있다. 앞서 말했듯이, Regularization은 Overfitting을 막기 위해 weight(가중치)에 규제를 거는 것이다.모델이 Overfitting 되었다는 건 데이터 하나 하나에 민감하게 반응하여 일반적인 패턴이 아닌 모..

Likelihood & MLE

2024.04.21· 🌐 Jero's Wiki/Deep Learning

LikelihoodLikelihood를 한국어로 번역하면 '(어떤 일이 있을) 가능성' 이다. 그렇다면 통계에서 Likelihood는 어떤 가능성일까? 바로, 데이터 $\boldsymbol{X=\{x_1, x_2, x_3, x_4, x_5\}}$ 가 확률 분포 $\boldsymbol{P}$ 에서 나왔을 가능성 이다. Probability vs. Likelihood통계에서 '가능성'이라 하니 Probability(확률)가 생각난다. Probability와 Likelihood는 둘 다 '무언가 일어날 가능성'을 뜻한다.대신, Probability는 어떤 사건이 일어날 가능성을 말하고 Likelihood는 어떤 사건이 어디에서 일어날 가능성을 말한다. 눈금이 6개인 주사위를 던졌을 때 숫자 1 이나 2가 나..

Backpropagation

2024.04.18· 🌐 Jero's Wiki/Deep Learning

Backpropagation (역전파)최적의 parameter 값을 찾기 위해 cost에 대한 입력층의 기울기를 계산하는 것출력층의 기울기부터 계산하여 역으로 전파하기 때문에 Backpropagation;역전파 라고 함Chain Rule (합성함수의 미분법) 사용 Backpropagation in a Single Layer 1. forward pass → weighted sum, activation function(sigmoid)2. cost function → MSE3. backpropagation→ Chain Rule$\frac{\partial C}{\partial w_i}$ : 3개의 함수로 이루어진 합성함수해당 함수의 기울기를 구하기 위해 합성함수의 미분법인 Chain Rule 적용위 식을 이루고..

Gradient Descent

2024.04.17· 🌐 Jero's Wiki/Deep Learning

Gradient Descent (경사 하강법)loss function(손실함수) 값이 최소가 되는 방향으로 parameter 값을 update 하는 것최소가 되는 방향 = Gradient 반대 방향쉬운 구현성 및 높은 확장성, 거의 모든 최적화 문제에 적용 가능함 starting point = $\theta^0$ → randomly pick !$\theta^0$ 에서 negative gradient 방향으로 이동 → $-\nabla C(\theta^0)$$\theta = (W_1, W_2), \ \nabla C(\theta^0)=\begin{bmatrix} \frac{\partial C(\theta^0)}{\partial W_1} \\ \frac{\partial C(\theta^0)}{\partial ..

dl

티스토리툴바