Weight Initialization๋ฅ๋ฌ๋ ๋ชจ๋ธ์ ํ์ตํ๋ค๋ ๊ฑด loss ๊ฐ์ด ์ต์๊ฐ ๋๋ parameter๋ฅผ ์ฐพ๋ ๊ฒ์ด๋ค. ์ต์ ์ parameter๋ฅผ ์ฐพ๊ธฐ ์ํด ๊ณ ๋ คํด์ผ ํ ์ ๋ค์ด ์ฌ๋ฟ ์์ง๋ง, ๊ทธ ์ค parameter์ ์ด๊ธฐ๊ฐ ์ค์ ์ ์ค์ํ ์ํฅ์ ๋ฏธ์น๋ค. ์ด ๊ธ์์ parameter ์ฆ, weight์ ์ด๊ธฐ๊ฐ์ ์ค์ ํ๋ ์ฌ๋ฌ ๊ฐ์ง ๋ฐฉ๋ฒ์ ๋ํด ๋ค๋ค๋ณด๋ ค ํ๋ค. Zero Initialization (or Same Initialization)weight ํฌ๊ธฐ๋ฅผ ํฌ๊ฒ ๋ถ์ฌํ ์๋ก ๋ชจ๋ธ์ ํน์ ๋ฐ์ดํฐ์๋ง ์ ๋ง๋ overfitting ๋ฌธ์ ๊ฐ ๋ฐ์ํ๊ธฐ ์ฝ๋ค. ๊ทธ๋ ๊ธฐ ๋๋ฌธ์ weight์ 0 ํน์ ๊ต์ฅํ ์์ ๊ฐ์ผ๋ก ๋ถ์ฌํด ํ์ต์ ์งํ์์ผ๋ณด์. $h_1 = h_2 = h_3 = \mathbf{W}(i_..
Regularization ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ ํ์ตํ๋ ๊ณผ์ ์์ ํด๋น ๋ชจ๋ธ์ด ํ์ต ๋ฐ์ดํฐ์๋ง ์ต์ ํ๋๋ฉด ์ด๋จ๊น? ์๋ง ์๋ก์ด ๋ฐ์ดํฐ๊ฐ ์
๋ ฅ๋๋ฉด ๋ชจ๋ธ์ ์ ๋๋ก ๋ ์์ธก๊ฐ์ ์ถ๋ ฅํ์ง ๋ชปํ ๊ฒ์ด๋ค. ์ด๋ฐ ๋ฌธ์ ๋ฅผ Overfitting(๊ณผ์ ํฉ)์ด๋ผ ํ๋ค. ์ด๋ฐ Overfitting์ ํด๊ฒฐํ๊ธฐ ์ํด์ ํ์ต ๋ฐ์ดํฐ์ ์์ ๋๋ฆฌ๊ฑฐ๋, Regularization์ ์ฌ์ฉํด ๋ชจ๋ธ์ weight๋ฅผ ๊ท์ ํ๊ฑฐ๋, ๋ชจ๋ธ ํ์ต์ ๋๊น์ง ํ์ง ์๊ณ ์ค๊ฐ์ ๋ฉ์ถ๋ ๋ฐฉ๋ฒ(Early-Stopping) ๋ฑ์ ์ฌ์ฉํ ์ ์๋ค. ์์ ๋งํ๋ฏ์ด, Regularization์ Overfitting์ ๋ง๊ธฐ ์ํด weight(๊ฐ์ค์น)์ ๊ท์ ๋ฅผ ๊ฑฐ๋ ๊ฒ์ด๋ค.๋ชจ๋ธ์ด Overfitting ๋์๋ค๋ ๊ฑด ๋ฐ์ดํฐ ํ๋ ํ๋์ ๋ฏผ๊ฐํ๊ฒ ๋ฐ์ํ์ฌ ์ผ๋ฐ์ ์ธ ํจํด์ด ์๋ ๋ชจ..
LikelihoodLikelihood๋ฅผ ํ๊ตญ์ด๋ก ๋ฒ์ญํ๋ฉด '(์ด๋ค ์ผ์ด ์์) ๊ฐ๋ฅ์ฑ' ์ด๋ค. ๊ทธ๋ ๋ค๋ฉด ํต๊ณ์์ Likelihood๋ ์ด๋ค ๊ฐ๋ฅ์ฑ์ผ๊น? ๋ฐ๋ก, ๋ฐ์ดํฐ $\boldsymbol{X=\{x_1, x_2, x_3, x_4, x_5\}}$ ๊ฐ ํ๋ฅ ๋ถํฌ $\boldsymbol{P}$ ์์ ๋์์ ๊ฐ๋ฅ์ฑ ์ด๋ค. Probability vs. Likelihoodํต๊ณ์์ '๊ฐ๋ฅ์ฑ'์ด๋ผ ํ๋ Probability(ํ๋ฅ )๊ฐ ์๊ฐ๋๋ค. Probability์ Likelihood๋ ๋ ๋ค '๋ฌด์ธ๊ฐ ์ผ์ด๋ ๊ฐ๋ฅ์ฑ'์ ๋ปํ๋ค.๋์ , Probability๋ ์ด๋ค ์ฌ๊ฑด์ด ์ผ์ด๋ ๊ฐ๋ฅ์ฑ์ ๋งํ๊ณ Likelihood๋ ์ด๋ค ์ฌ๊ฑด์ด ์ด๋์์ ์ผ์ด๋ ๊ฐ๋ฅ์ฑ์ ๋งํ๋ค. ๋๊ธ์ด 6๊ฐ์ธ ์ฃผ์ฌ์๋ฅผ ๋์ก์ ๋ ์ซ์ 1 ์ด๋ 2๊ฐ ๋..
Backpropagation (์ญ์ ํ)์ต์ ์ parameter ๊ฐ์ ์ฐพ๊ธฐ ์ํด cost์ ๋ํ ์
๋ ฅ์ธต์ ๊ธฐ์ธ๊ธฐ๋ฅผ ๊ณ์ฐํ๋ ๊ฒ์ถ๋ ฅ์ธต์ ๊ธฐ์ธ๊ธฐ๋ถํฐ ๊ณ์ฐํ์ฌ ์ญ์ผ๋ก ์ ํํ๊ธฐ ๋๋ฌธ์ Backpropagation;์ญ์ ํ ๋ผ๊ณ ํจChain Rule (ํฉ์ฑํจ์์ ๋ฏธ๋ถ๋ฒ) ์ฌ์ฉ Backpropagation in a Single Layer 1. forward pass → weighted sum, activation function(sigmoid)2. cost function → MSE3. backpropagation→ Chain Rule$\frac{\partial C}{\partial w_i}$ : 3๊ฐ์ ํจ์๋ก ์ด๋ฃจ์ด์ง ํฉ์ฑํจ์ํด๋น ํจ์์ ๊ธฐ์ธ๊ธฐ๋ฅผ ๊ตฌํ๊ธฐ ์ํด ํฉ์ฑํจ์์ ๋ฏธ๋ถ๋ฒ์ธ Chain Rule ์ ์ฉ์ ์์ ์ด๋ฃจ๊ณ ..
Gradient Descent (๊ฒฝ์ฌ ํ๊ฐ๋ฒ)loss function(์์คํจ์) ๊ฐ์ด ์ต์๊ฐ ๋๋ ๋ฐฉํฅ์ผ๋ก parameter ๊ฐ์ update ํ๋ ๊ฒ์ต์๊ฐ ๋๋ ๋ฐฉํฅ = Gradient ๋ฐ๋ ๋ฐฉํฅ์ฌ์ด ๊ตฌํ์ฑ ๋ฐ ๋์ ํ์ฅ์ฑ, ๊ฑฐ์ ๋ชจ๋ ์ต์ ํ ๋ฌธ์ ์ ์ ์ฉ ๊ฐ๋ฅํจ starting point = $\theta^0$ → randomly pick !$\theta^0$ ์์ negative gradient ๋ฐฉํฅ์ผ๋ก ์ด๋ → $-\nabla C(\theta^0)$$\theta = (W_1, W_2), \ \nabla C(\theta^0)=\begin{bmatrix} \frac{\partial C(\theta^0)}{\partial W_1} \\ \frac{\partial C(\theta^0)}{\partial ..