Loading [MathJax]/jax/output/CommonHTML/jax.js
Weight Initialization๋ฅ๋ฌ๋ ๋ชจ๋ธ์ ํ์ตํ๋ค๋ ๊ฑด loss ๊ฐ์ด ์ต์๊ฐ ๋๋ parameter๋ฅผ ์ฐพ๋ ๊ฒ์ด๋ค. ์ต์ ์ parameter๋ฅผ ์ฐพ๊ธฐ ์ํด ๊ณ ๋ คํด์ผ ํ ์ ๋ค์ด ์ฌ๋ฟ ์์ง๋ง, ๊ทธ ์ค parameter์ ์ด๊ธฐ๊ฐ ์ค์ ์ ์ค์ํ ์ํฅ์ ๋ฏธ์น๋ค. ์ด ๊ธ์์ parameter ์ฆ, weight์ ์ด๊ธฐ๊ฐ์ ์ค์ ํ๋ ์ฌ๋ฌ ๊ฐ์ง ๋ฐฉ๋ฒ์ ๋ํด ๋ค๋ค๋ณด๋ ค ํ๋ค. Zero Initialization (or Same Initialization)weight ํฌ๊ธฐ๋ฅผ ํฌ๊ฒ ๋ถ์ฌํ ์๋ก ๋ชจ๋ธ์ ํน์ ๋ฐ์ดํฐ์๋ง ์ ๋ง๋ overfitting ๋ฌธ์ ๊ฐ ๋ฐ์ํ๊ธฐ ์ฝ๋ค. ๊ทธ๋ ๊ธฐ ๋๋ฌธ์ weight์ 0 ํน์ ๊ต์ฅํ ์์ ๊ฐ์ผ๋ก ๋ถ์ฌํด ํ์ต์ ์งํ์์ผ๋ณด์. $h_1 = h_2 = h_3 = \mathbf{W}(i_..
Regularization ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ ํ์ตํ๋ ๊ณผ์ ์์ ํด๋น ๋ชจ๋ธ์ด ํ์ต ๋ฐ์ดํฐ์๋ง ์ต์ ํ๋๋ฉด ์ด๋จ๊น? ์๋ง ์๋ก์ด ๋ฐ์ดํฐ๊ฐ ์
๋ ฅ๋๋ฉด ๋ชจ๋ธ์ ์ ๋๋ก ๋ ์์ธก๊ฐ์ ์ถ๋ ฅํ์ง ๋ชปํ ๊ฒ์ด๋ค. ์ด๋ฐ ๋ฌธ์ ๋ฅผ Overfitting(๊ณผ์ ํฉ)์ด๋ผ ํ๋ค. ์ด๋ฐ Overfitting์ ํด๊ฒฐํ๊ธฐ ์ํด์ ํ์ต ๋ฐ์ดํฐ์ ์์ ๋๋ฆฌ๊ฑฐ๋, Regularization์ ์ฌ์ฉํด ๋ชจ๋ธ์ weight๋ฅผ ๊ท์ ํ๊ฑฐ๋, ๋ชจ๋ธ ํ์ต์ ๋๊น์ง ํ์ง ์๊ณ ์ค๊ฐ์ ๋ฉ์ถ๋ ๋ฐฉ๋ฒ(Early-Stopping) ๋ฑ์ ์ฌ์ฉํ ์ ์๋ค. ์์ ๋งํ๋ฏ์ด, Regularization์ Overfitting์ ๋ง๊ธฐ ์ํด weight(๊ฐ์ค์น)์ ๊ท์ ๋ฅผ ๊ฑฐ๋ ๊ฒ์ด๋ค.๋ชจ๋ธ์ด Overfitting ๋์๋ค๋ ๊ฑด ๋ฐ์ดํฐ ํ๋ ํ๋์ ๋ฏผ๊ฐํ๊ฒ ๋ฐ์ํ์ฌ ์ผ๋ฐ์ ์ธ ํจํด์ด ์๋ ๋ชจ..
LikelihoodLikelihood๋ฅผ ํ๊ตญ์ด๋ก ๋ฒ์ญํ๋ฉด '(์ด๋ค ์ผ์ด ์์) ๊ฐ๋ฅ์ฑ' ์ด๋ค. ๊ทธ๋ ๋ค๋ฉด ํต๊ณ์์ Likelihood๋ ์ด๋ค ๊ฐ๋ฅ์ฑ์ผ๊น? ๋ฐ๋ก, ๋ฐ์ดํฐ X={x1,x2,x3,x4,x5} ๊ฐ ํ๋ฅ ๋ถํฌ P ์์ ๋์์ ๊ฐ๋ฅ์ฑ ์ด๋ค. Probability vs. Likelihoodํต๊ณ์์ '๊ฐ๋ฅ์ฑ'์ด๋ผ ํ๋ Probability(ํ๋ฅ )๊ฐ ์๊ฐ๋๋ค. Probability์ Likelihood๋ ๋ ๋ค '๋ฌด์ธ๊ฐ ์ผ์ด๋ ๊ฐ๋ฅ์ฑ'์ ๋ปํ๋ค.๋์ , Probability๋ ์ด๋ค ์ฌ๊ฑด์ด ์ผ์ด๋ ๊ฐ๋ฅ์ฑ์ ๋งํ๊ณ Likelihood๋ ์ด๋ค ์ฌ๊ฑด์ด ์ด๋์์ ์ผ์ด๋ ๊ฐ๋ฅ์ฑ์ ๋งํ๋ค. ๋๊ธ์ด 6๊ฐ์ธ ์ฃผ์ฌ์๋ฅผ ๋์ก์ ๋ ์ซ์ 1 ์ด๋ 2๊ฐ ๋..
Backpropagation (์ญ์ ํ)์ต์ ์ parameter ๊ฐ์ ์ฐพ๊ธฐ ์ํด cost์ ๋ํ ์
๋ ฅ์ธต์ ๊ธฐ์ธ๊ธฐ๋ฅผ ๊ณ์ฐํ๋ ๊ฒ์ถ๋ ฅ์ธต์ ๊ธฐ์ธ๊ธฐ๋ถํฐ ๊ณ์ฐํ์ฌ ์ญ์ผ๋ก ์ ํํ๊ธฐ ๋๋ฌธ์ Backpropagation;์ญ์ ํ ๋ผ๊ณ ํจChain Rule (ํฉ์ฑํจ์์ ๋ฏธ๋ถ๋ฒ) ์ฌ์ฉ Backpropagation in a Single Layer 1. forward pass โ weighted sum, activation function(sigmoid)2. cost function โ MSE3. backpropagationโ Chain RuleโCโwi : 3๊ฐ์ ํจ์๋ก ์ด๋ฃจ์ด์ง ํฉ์ฑํจ์ํด๋น ํจ์์ ๊ธฐ์ธ๊ธฐ๋ฅผ ๊ตฌํ๊ธฐ ์ํด ํฉ์ฑํจ์์ ๋ฏธ๋ถ๋ฒ์ธ Chain Rule ์ ์ฉ์ ์์ ์ด๋ฃจ๊ณ ..
Gradient Descent (๊ฒฝ์ฌ ํ๊ฐ๋ฒ)loss function(์์คํจ์) ๊ฐ์ด ์ต์๊ฐ ๋๋ ๋ฐฉํฅ์ผ๋ก parameter ๊ฐ์ update ํ๋ ๊ฒ์ต์๊ฐ ๋๋ ๋ฐฉํฅ = Gradient ๋ฐ๋ ๋ฐฉํฅ์ฌ์ด ๊ตฌํ์ฑ ๋ฐ ๋์ ํ์ฅ์ฑ, ๊ฑฐ์ ๋ชจ๋ ์ต์ ํ ๋ฌธ์ ์ ์ ์ฉ ๊ฐ๋ฅํจ starting point = ฮธ0 โ randomly pick !ฮธ0 ์์ negative gradient ๋ฐฉํฅ์ผ๋ก ์ด๋ โ โโC(ฮธ0)$\theta = (W_1, W_2), \ \nabla C(\theta^0)=\begin{bmatrix} \frac{\partial C(\theta^0)}{\partial W_1} \\ \frac{\partial C(\theta^0)}{\partial ..
'๐ Jero's Wiki/Deep Learning' ์นดํ
๊ณ ๋ฆฌ์ ๊ธ ๋ชฉ๋ก
๋จ์ถํค
๋ด ๋ธ๋ก๊ทธ
๋ด ๋ธ๋ก๊ทธ - ๊ด๋ฆฌ์ ํ ์ ํ |
Q
Q
|
์ ๊ธ ์ฐ๊ธฐ |
W
W
|
๋ธ๋ก๊ทธ ๊ฒ์๊ธ
๊ธ ์์ (๊ถํ ์๋ ๊ฒฝ์ฐ) |
E
E
|
๋๊ธ ์์ญ์ผ๋ก ์ด๋ |
C
C
|
๋ชจ๋ ์์ญ
์ด ํ์ด์ง์ URL ๋ณต์ฌ |
S
S
|
๋งจ ์๋ก ์ด๋ |
T
T
|
ํฐ์คํ ๋ฆฌ ํ ์ด๋ |
H
H
|
๋จ์ถํค ์๋ด |
Shift + /
โง + /
|
* ๋จ์ถํค๋ ํ๊ธ/์๋ฌธ ๋์๋ฌธ์๋ก ์ด์ฉ ๊ฐ๋ฅํ๋ฉฐ, ํฐ์คํ ๋ฆฌ ๊ธฐ๋ณธ ๋๋ฉ์ธ์์๋ง ๋์ํฉ๋๋ค.