Weight Initialization딥러닝 모델을 학습한다는 건 loss 값이 최소가 되는 parameter를 찾는 것이다. 최적의 parameter를 찾기 위해 고려해야 할 점들이 여럿 있지만, 그 중 parameter의 초기값 설정은 중요한 영향을 미친다. 이 글에선 parameter 즉, weight의 초기값을 설정하는 여러 가지 방법에 대해 다뤄보려 한다. Zero Initialization (or Same Initialization)weight 크기를 크게 부여할수록 모델은 특정 데이터에만 잘 맞는 overfitting 문제가 발생하기 쉽다. 그렇기 때문에 weight을 0 혹은 굉장히 작은 값으로 부여해 학습을 진행시켜보자. $h_1 = h_2 = h_3 = \mathbf{W}(i_..
Regularization 딥러닝 모델을 학습하는 과정에서 해당 모델이 학습 데이터에만 최적화되면 어떨까? 아마 새로운 데이터가 입력되면 모델은 제대로 된 예측값을 출력하지 못할 것이다. 이런 문제를 Overfitting(과적합)이라 한다. 이런 Overfitting을 해결하기 위해선 학습 데이터의 양을 늘리거나, Regularization을 사용해 모델의 weight를 규제하거나, 모델 학습을 끝까지 하지 않고 중간에 멈추는 방법(Early-Stopping) 등을 사용할 수 있다. 앞서 말했듯이, Regularization은 Overfitting을 막기 위해 weight(가중치)에 규제를 거는 것이다.모델이 Overfitting 되었다는 건 데이터 하나 하나에 민감하게 반응하여 일반적인 패턴이 아닌 모..
LikelihoodLikelihood를 한국어로 번역하면 '(어떤 일이 있을) 가능성' 이다. 그렇다면 통계에서 Likelihood는 어떤 가능성일까? 바로, 데이터 $\boldsymbol{X=\{x_1, x_2, x_3, x_4, x_5\}}$ 가 확률 분포 $\boldsymbol{P}$ 에서 나왔을 가능성 이다. Probability vs. Likelihood통계에서 '가능성'이라 하니 Probability(확률)가 생각난다. Probability와 Likelihood는 둘 다 '무언가 일어날 가능성'을 뜻한다.대신, Probability는 어떤 사건이 일어날 가능성을 말하고 Likelihood는 어떤 사건이 어디에서 일어날 가능성을 말한다. 눈금이 6개인 주사위를 던졌을 때 숫자 1 이나 2가 나..
Backpropagation (역전파)최적의 parameter 값을 찾기 위해 cost에 대한 입력층의 기울기를 계산하는 것출력층의 기울기부터 계산하여 역으로 전파하기 때문에 Backpropagation;역전파 라고 함Chain Rule (합성함수의 미분법) 사용 Backpropagation in a Single Layer 1. forward pass → weighted sum, activation function(sigmoid)2. cost function → MSE3. backpropagation→ Chain Rule$\frac{\partial C}{\partial w_i}$ : 3개의 함수로 이루어진 합성함수해당 함수의 기울기를 구하기 위해 합성함수의 미분법인 Chain Rule 적용위 식을 이루고..
Gradient Descent (경사 하강법)loss function(손실함수) 값이 최소가 되는 방향으로 parameter 값을 update 하는 것최소가 되는 방향 = Gradient 반대 방향쉬운 구현성 및 높은 확장성, 거의 모든 최적화 문제에 적용 가능함 starting point = $\theta^0$ → randomly pick !$\theta^0$ 에서 negative gradient 방향으로 이동 → $-\nabla C(\theta^0)$$\theta = (W_1, W_2), \ \nabla C(\theta^0)=\begin{bmatrix} \frac{\partial C(\theta^0)}{\partial W_1} \\ \frac{\partial C(\theta^0)}{\partial ..