๋ชฉ์ฐจ
Gradient Descent (๊ฒฝ์ฌ ํ๊ฐ๋ฒ)
- loss function(์์คํจ์) ๊ฐ์ด ์ต์๊ฐ ๋๋ ๋ฐฉํฅ์ผ๋ก parameter ๊ฐ์ update ํ๋ ๊ฒ
- ์ต์๊ฐ ๋๋ ๋ฐฉํฅ = Gradient ๋ฐ๋ ๋ฐฉํฅ
- ์ฌ์ด ๊ตฌํ์ฑ ๋ฐ ๋์ ํ์ฅ์ฑ, ๊ฑฐ์ ๋ชจ๋ ์ต์ ํ ๋ฌธ์ ์ ์ ์ฉ ๊ฐ๋ฅํจ

- starting point = $\theta^0$ โ randomly pick !
- $\theta^0$ ์์ negative gradient ๋ฐฉํฅ์ผ๋ก ์ด๋ โ $-\nabla C(\theta^0)$
- $\theta = (W_1, W_2), \ \nabla C(\theta^0)=\begin{bmatrix} \frac{\partial C(\theta^0)}{\partial W_1} \\ \frac{\partial C(\theta^0)}{\partial W_1} \end{bmatrix}$
Gradient Descent on Batch Size

Batch Gradient Descent, Batch Size = ์ ์ฒด ํ๋ จ ๋ฐ์ดํฐ ๊ฐ์
- ํ epoch ๋น ํ๋ฒ์ parameter update ์งํ
- ์์ ์ ์ธ ์ต์ ํ ๊ฒฝ๋ก ํ์ โ outlier์ ์ํฅ์ด ์ ์
- ๋ฎ์ ์ผ๋ฐํ ์ฑ๋ฅ
Stochastic Gradient Descent, Batch Size = 1
- ํ epoch ๋น ์ฌ๋ฌ ๋ฒ์ parameter update ์งํ
- ๋ถ์์ ํ ์ต์ ํ ๊ฒฝ๋ก ํ์ โ outlier์ ๋ฏผ๊ฐ
- ๋์ ์ผ๋ฐํ ์ฑ๋ฅ
Mini-Batch Gradient Descent, Batch Size = mini-batch ๊ฐ์ (hyperparameter)
- mini-batch ์๋งํผ ์ ํ๋ ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ง๊ณ gradient descent ์งํ
- SGD ๋ณด๋ค noise์ ๊ฐํด ์์ ์ ์ธ ์ต์ ํ ๊ฒฝ๋ก ํ์์ด ๊ฐ๋ฅํ๊ณ , BGD ๋ณด๋ค ๋์ ์ผ๋ฐํ ์ฑ๋ฅ์ ๊ธฐ๋
- ์ด์์ ์ธ mini-batch ๊ฐ์ ํ๋ฒ์ ์ฐพ์ง ๋ชปํ ์ ์์
Why Small Batch Size Generalization Is Stronger

- Small Batch ์ผ์๋ก Sharp Minimum์์ ์ฝ๊ฒ ๋ฒ์ด๋๋ฉฐ noise์ ๋๊ฐํ Flat minimum์ ์๋ ด
- Large Batch ์ผ์๋ก Sharp Minimum ์๋ ด ๊ฐ๋ฅ์ฑ ์ฆ๊ฐํด ์ผ๋ฐํ ์ฑ๋ฅ ๊ฐ์
- Loss function์ ์์ ๋ณํ์๋ ๋ฏผ๊ฐํ Sharp Minimum์ Flat Minimum์ ๋นํด ์ผ๋ฐํ ์ฑ๋ฅ ๋จ์ด์ง
'๐ Jero's Wiki > Deep Learning' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
Weight Initialization (0) | 2024.05.11 |
---|---|
Regularization (1) | 2024.04.26 |
Likelihood & MLE (2) | 2024.04.21 |
Backpropagation (1) | 2024.04.18 |
Gradient Descent (๊ฒฝ์ฌ ํ๊ฐ๋ฒ)
- loss function(์์คํจ์) ๊ฐ์ด ์ต์๊ฐ ๋๋ ๋ฐฉํฅ์ผ๋ก parameter ๊ฐ์ update ํ๋ ๊ฒ
- ์ต์๊ฐ ๋๋ ๋ฐฉํฅ = Gradient ๋ฐ๋ ๋ฐฉํฅ
- ์ฌ์ด ๊ตฌํ์ฑ ๋ฐ ๋์ ํ์ฅ์ฑ, ๊ฑฐ์ ๋ชจ๋ ์ต์ ํ ๋ฌธ์ ์ ์ ์ฉ ๊ฐ๋ฅํจ

- starting point = $\theta^0$ โ randomly pick !
- $\theta^0$ ์์ negative gradient ๋ฐฉํฅ์ผ๋ก ์ด๋ โ $-\nabla C(\theta^0)$
- $\theta = (W_1, W_2), \ \nabla C(\theta^0)=\begin{bmatrix} \frac{\partial C(\theta^0)}{\partial W_1} \\ \frac{\partial C(\theta^0)}{\partial W_1} \end{bmatrix}$
Gradient Descent on Batch Size

Batch Gradient Descent, Batch Size = ์ ์ฒด ํ๋ จ ๋ฐ์ดํฐ ๊ฐ์
- ํ epoch ๋น ํ๋ฒ์ parameter update ์งํ
- ์์ ์ ์ธ ์ต์ ํ ๊ฒฝ๋ก ํ์ โ outlier์ ์ํฅ์ด ์ ์
- ๋ฎ์ ์ผ๋ฐํ ์ฑ๋ฅ
Stochastic Gradient Descent, Batch Size = 1
- ํ epoch ๋น ์ฌ๋ฌ ๋ฒ์ parameter update ์งํ
- ๋ถ์์ ํ ์ต์ ํ ๊ฒฝ๋ก ํ์ โ outlier์ ๋ฏผ๊ฐ
- ๋์ ์ผ๋ฐํ ์ฑ๋ฅ
Mini-Batch Gradient Descent, Batch Size = mini-batch ๊ฐ์ (hyperparameter)
- mini-batch ์๋งํผ ์ ํ๋ ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ง๊ณ gradient descent ์งํ
- SGD ๋ณด๋ค noise์ ๊ฐํด ์์ ์ ์ธ ์ต์ ํ ๊ฒฝ๋ก ํ์์ด ๊ฐ๋ฅํ๊ณ , BGD ๋ณด๋ค ๋์ ์ผ๋ฐํ ์ฑ๋ฅ์ ๊ธฐ๋
- ์ด์์ ์ธ mini-batch ๊ฐ์ ํ๋ฒ์ ์ฐพ์ง ๋ชปํ ์ ์์
Why Small Batch Size Generalization Is Stronger

- Small Batch ์ผ์๋ก Sharp Minimum์์ ์ฝ๊ฒ ๋ฒ์ด๋๋ฉฐ noise์ ๋๊ฐํ Flat minimum์ ์๋ ด
- Large Batch ์ผ์๋ก Sharp Minimum ์๋ ด ๊ฐ๋ฅ์ฑ ์ฆ๊ฐํด ์ผ๋ฐํ ์ฑ๋ฅ ๊ฐ์
- Loss function์ ์์ ๋ณํ์๋ ๋ฏผ๊ฐํ Sharp Minimum์ Flat Minimum์ ๋นํด ์ผ๋ฐํ ์ฑ๋ฅ ๋จ์ด์ง
'๐ Jero's Wiki > Deep Learning' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
Weight Initialization (0) | 2024.05.11 |
---|---|
Regularization (1) | 2024.04.26 |
Likelihood & MLE (2) | 2024.04.21 |
Backpropagation (1) | 2024.04.18 |