Regularization

๋ฅ๋ฌ๋ ๋ชจ๋ธ์ ํ์ตํ๋ ๊ณผ์ ์์ ํด๋น ๋ชจ๋ธ์ด ํ์ต ๋ฐ์ดํฐ์๋ง ์ต์ ํ๋๋ฉด ์ด๋จ๊น? ์๋ง ์๋ก์ด ๋ฐ์ดํฐ๊ฐ ์ ๋ ฅ๋๋ฉด ๋ชจ๋ธ์ ์ ๋๋ก ๋ ์์ธก๊ฐ์ ์ถ๋ ฅํ์ง ๋ชปํ ๊ฒ์ด๋ค. ์ด๋ฐ ๋ฌธ์ ๋ฅผ Overfitting(๊ณผ์ ํฉ)์ด๋ผ ํ๋ค.
์ด๋ฐ Overfitting์ ํด๊ฒฐํ๊ธฐ ์ํด์ ํ์ต ๋ฐ์ดํฐ์ ์์ ๋๋ฆฌ๊ฑฐ๋, Regularization์ ์ฌ์ฉํด ๋ชจ๋ธ์ weight๋ฅผ ๊ท์ ํ๊ฑฐ๋, ๋ชจ๋ธ ํ์ต์ ๋๊น์ง ํ์ง ์๊ณ ์ค๊ฐ์ ๋ฉ์ถ๋ ๋ฐฉ๋ฒ(Early-Stopping) ๋ฑ์ ์ฌ์ฉํ ์ ์๋ค.
์์ ๋งํ๋ฏ์ด, Regularization์ Overfitting์ ๋ง๊ธฐ ์ํด weight(๊ฐ์ค์น)์ ๊ท์ ๋ฅผ ๊ฑฐ๋ ๊ฒ์ด๋ค.
๋ชจ๋ธ์ด Overfitting ๋์๋ค๋ ๊ฑด ๋ฐ์ดํฐ ํ๋ ํ๋์ ๋ฏผ๊ฐํ๊ฒ ๋ฐ์ํ์ฌ ์ผ๋ฐ์ ์ธ ํจํด์ด ์๋ ๋ชจ๋ ํจํด์ ์ค์ํ๊ฒ ๋ณด๋ ๋ณต์กํ ํจ์๋ผ๋ ๊ฒ์ด๋ค. ๋ชจ๋ธ์ด ์ผ๋ฐ์ ์ธ ํจํด์ ํ์ตํ ์ ์๋๋ก ๋จ์ํ๊ฒ ํํํ๊ธฐ ์ํด ๋ชจ๋ธ์ ํ๋ผ๋ฏธํฐ์ธ weight์ ๊ท์ ๋ฅผ ๊ฑด๋ค.
weight์ ๊ท์ ๋ฅผ ๊ฐํ๋ ๋ฐฉ๋ฒ์ cost function์ panelty ํญ์ ๋ถ์ฌํ๋ ๊ฒ์ด๊ณ , ์ด๋ค panelty ํญ์ ์ฌ์ฉํ๋๋์ ๋ฐ๋ผ Regularization ์ข ๋ฅ๊ฐ ๋ฌ๋ผ์ง๋ค.
L1 & L2 Norm
Norm ์ด๋, ๋ฒกํฐ์ ํฌ๊ธฐ๋ฅผ ์ธก์ ํ๋ ํจ์๋ค.

L1 Norm์ ๋ฒกํฐ ๊ฐ์ ๊ฑฐ๋ฆฌ๋ฅผ ๋ ๋ฒกํฐ ์ฐจ์ด์ ์ ๋๊ฐ์ผ๋ก ๋ํ๋ธ ๊ฒ์ด๋ค. ๋ฐ๋ผ์ ํ ๊ฐ์ง ๋ฐฉ๋ฒ์ด ์๋ ์ฌ๋ฌ ๊ฐ์ง ๋ฐฉ๋ฒ์ผ๋ก ๋ฒกํฐ ๊ฑฐ๋ฆฌ๋ฅผ ์ธก์ ํ ์ ์๋ค.
L2 Norm์ ๋ฒกํฐ ๊ฐ์ ๊ฑฐ๋ฆฌ๋ฅผ ๋ ๋ฒกํฐ ์ฐจ์ด์ ์ ๊ณฑ์ผ๋ก ๋ํ๋ธ ๊ฒ์ด๋ค. ์ฌ๊ธฐ์ ํ ๊ฐ์ง ๋ฐฉ๋ฒ์ผ๋ก๋ง ๊ฑฐ๋ฆฌ๋ฅผ ๊ตฌํ ์ ์์ด outlier(์ด์์น)์ ๋ฏผ๊ฐํ๊ฒ ์๋ํ๋ค.
Regularization์์ ์ด ๋ ํจ์๋ฅผ weight ๊ฐ์ ์กฐ์ ํ๋ panelty ํญ์ผ๋ก ์ฌ์ฉํ๋ค. ๊ทธ๋์ ๊ฐ ๋ฐฉ๋ฒ์ ์ด๋ฆ์ ๋ฐ L1 Regularization, L2 Regularization์ด๋ผ ๋ถ๋ฅธ๋ค.
L1 & L2 Regularization

์ ์์ L1 Regularization์ ๋ํ๋ธ ๊ฒ์ด๋ค. weight update๋ฅผ ์ํด ๋ฏธ๋ถ์ ํ๊ฒ ๋๋ฉด L1 Norm์ ๋ถํธ ํจ์๋ก ๋ฐ๋๋ค. ์ฆ, weight์ ํน์ ์์ ๊ฐ์ ๋นผ๊ฑฐ๋ ๋ํด์ฃผ๋ ๋ฐฉ์์ผ๋ก weight์ ๊ท์ ๋ฅผ ๊ฐํ๋ ๊ฒ์ด๋ค.
์ด Regularization์ ์ฌ์ฉํ๊ฒ ๋๋ฉด ํน์ weight์ 0์ผ๋ก ๋ง๋ค ์๊ฐ ์๋ค. ์์ ๊ฐ์ ๊ฐ์ง๋ weight, ๋ค์ ๋งํด ๋คํธ์ํฌ์ ๋ฏธ์น๋ ์ํฅ๋ ฅ์ด ์์ weight์ 0์ผ๋ก ๋ง๋ค์ด ๋คํธ์ํฌ์ ์ค์ํ weight๋ง์ ๊ฐ์ง๊ณ ํ์ตํ ์ ์๋ค. ์ด๋ฐ ๋ฐฉ๋ฒ์ feature selection ์ด๋ผ ๋งํ๊ณ , ์ด๋ฅผ ํตํด sparse model์ ๋ง๋ค ์ ์๊ฒ ๋๋ค. ๊ทธ๋ฌ๋ 0์์์ ๋ฏธ๋ถ์ด ๋ถ๊ฐ๋ฅํ๊ธฐ ๋๋ฌธ์ Gradient-Based Learning์์ ์ฃผ์ํ์ฌ ์ฌ์ฉํด์ผ ํ๋ค.

L2 Regularization์ weight update๋ฅผ ํ ๋ ์ค์๊ฐ์ ๊ณฑํด L1 Regularization๊ณผ ๋ฌ๋ฆฌ weight ๊ฐ์ 0์ผ๋ก ๋ง๋ค์ด ์ฃผ์ง ์๊ณ 0์ ๊ฐ๊น๊ฒ ๋ง๋ค์ด ์ฃผ๋ ์ญํ ๋ง ํ๋ค. ๋ํ, ์ด ์ค์๊ฐ์ ๋ชจ๋ weight์ ๋์ผํ ๊ฐ์ ๊ฐ์ง๊ธฐ ๋๋ฌธ์ weight์ ํฌ๊ธฐ๊ฐ ํด์๋ก ๋ ๋นจ๋ฆฌ ๊ฐ์์ํค๋ weight decay๋ฅผ ๊ฐ๋ฅ์ผ ํ๋ค. ์ด๋ฌํ ํน์ง๋ค๋ก ์ธํด L2 Regularization์ด L1์ ๋นํด weight ๊ท์ ์ ํจ๊ณผ์ ์ด๊ณ , ์ผ๋ฐํ ์ฑ๋ฅ์ ๊ฐํ ๋ชจ์ต์ ๋ณด์ธ๋ค.
'๐ Jero's Wiki > Deep Learning' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
Weight Initialization (0) | 2024.05.11 |
---|---|
Likelihood & MLE (2) | 2024.04.21 |
Backpropagation (1) | 2024.04.18 |
Gradient Descent (0) | 2024.04.17 |
Regularization

๋ฅ๋ฌ๋ ๋ชจ๋ธ์ ํ์ตํ๋ ๊ณผ์ ์์ ํด๋น ๋ชจ๋ธ์ด ํ์ต ๋ฐ์ดํฐ์๋ง ์ต์ ํ๋๋ฉด ์ด๋จ๊น? ์๋ง ์๋ก์ด ๋ฐ์ดํฐ๊ฐ ์ ๋ ฅ๋๋ฉด ๋ชจ๋ธ์ ์ ๋๋ก ๋ ์์ธก๊ฐ์ ์ถ๋ ฅํ์ง ๋ชปํ ๊ฒ์ด๋ค. ์ด๋ฐ ๋ฌธ์ ๋ฅผ Overfitting(๊ณผ์ ํฉ)์ด๋ผ ํ๋ค.
์ด๋ฐ Overfitting์ ํด๊ฒฐํ๊ธฐ ์ํด์ ํ์ต ๋ฐ์ดํฐ์ ์์ ๋๋ฆฌ๊ฑฐ๋, Regularization์ ์ฌ์ฉํด ๋ชจ๋ธ์ weight๋ฅผ ๊ท์ ํ๊ฑฐ๋, ๋ชจ๋ธ ํ์ต์ ๋๊น์ง ํ์ง ์๊ณ ์ค๊ฐ์ ๋ฉ์ถ๋ ๋ฐฉ๋ฒ(Early-Stopping) ๋ฑ์ ์ฌ์ฉํ ์ ์๋ค.
์์ ๋งํ๋ฏ์ด, Regularization์ Overfitting์ ๋ง๊ธฐ ์ํด weight(๊ฐ์ค์น)์ ๊ท์ ๋ฅผ ๊ฑฐ๋ ๊ฒ์ด๋ค.
๋ชจ๋ธ์ด Overfitting ๋์๋ค๋ ๊ฑด ๋ฐ์ดํฐ ํ๋ ํ๋์ ๋ฏผ๊ฐํ๊ฒ ๋ฐ์ํ์ฌ ์ผ๋ฐ์ ์ธ ํจํด์ด ์๋ ๋ชจ๋ ํจํด์ ์ค์ํ๊ฒ ๋ณด๋ ๋ณต์กํ ํจ์๋ผ๋ ๊ฒ์ด๋ค. ๋ชจ๋ธ์ด ์ผ๋ฐ์ ์ธ ํจํด์ ํ์ตํ ์ ์๋๋ก ๋จ์ํ๊ฒ ํํํ๊ธฐ ์ํด ๋ชจ๋ธ์ ํ๋ผ๋ฏธํฐ์ธ weight์ ๊ท์ ๋ฅผ ๊ฑด๋ค.
weight์ ๊ท์ ๋ฅผ ๊ฐํ๋ ๋ฐฉ๋ฒ์ cost function์ panelty ํญ์ ๋ถ์ฌํ๋ ๊ฒ์ด๊ณ , ์ด๋ค panelty ํญ์ ์ฌ์ฉํ๋๋์ ๋ฐ๋ผ Regularization ์ข ๋ฅ๊ฐ ๋ฌ๋ผ์ง๋ค.
L1 & L2 Norm
Norm ์ด๋, ๋ฒกํฐ์ ํฌ๊ธฐ๋ฅผ ์ธก์ ํ๋ ํจ์๋ค.

L1 Norm์ ๋ฒกํฐ ๊ฐ์ ๊ฑฐ๋ฆฌ๋ฅผ ๋ ๋ฒกํฐ ์ฐจ์ด์ ์ ๋๊ฐ์ผ๋ก ๋ํ๋ธ ๊ฒ์ด๋ค. ๋ฐ๋ผ์ ํ ๊ฐ์ง ๋ฐฉ๋ฒ์ด ์๋ ์ฌ๋ฌ ๊ฐ์ง ๋ฐฉ๋ฒ์ผ๋ก ๋ฒกํฐ ๊ฑฐ๋ฆฌ๋ฅผ ์ธก์ ํ ์ ์๋ค.
L2 Norm์ ๋ฒกํฐ ๊ฐ์ ๊ฑฐ๋ฆฌ๋ฅผ ๋ ๋ฒกํฐ ์ฐจ์ด์ ์ ๊ณฑ์ผ๋ก ๋ํ๋ธ ๊ฒ์ด๋ค. ์ฌ๊ธฐ์ ํ ๊ฐ์ง ๋ฐฉ๋ฒ์ผ๋ก๋ง ๊ฑฐ๋ฆฌ๋ฅผ ๊ตฌํ ์ ์์ด outlier(์ด์์น)์ ๋ฏผ๊ฐํ๊ฒ ์๋ํ๋ค.
Regularization์์ ์ด ๋ ํจ์๋ฅผ weight ๊ฐ์ ์กฐ์ ํ๋ panelty ํญ์ผ๋ก ์ฌ์ฉํ๋ค. ๊ทธ๋์ ๊ฐ ๋ฐฉ๋ฒ์ ์ด๋ฆ์ ๋ฐ L1 Regularization, L2 Regularization์ด๋ผ ๋ถ๋ฅธ๋ค.
L1 & L2 Regularization

์ ์์ L1 Regularization์ ๋ํ๋ธ ๊ฒ์ด๋ค. weight update๋ฅผ ์ํด ๋ฏธ๋ถ์ ํ๊ฒ ๋๋ฉด L1 Norm์ ๋ถํธ ํจ์๋ก ๋ฐ๋๋ค. ์ฆ, weight์ ํน์ ์์ ๊ฐ์ ๋นผ๊ฑฐ๋ ๋ํด์ฃผ๋ ๋ฐฉ์์ผ๋ก weight์ ๊ท์ ๋ฅผ ๊ฐํ๋ ๊ฒ์ด๋ค.
์ด Regularization์ ์ฌ์ฉํ๊ฒ ๋๋ฉด ํน์ weight์ 0์ผ๋ก ๋ง๋ค ์๊ฐ ์๋ค. ์์ ๊ฐ์ ๊ฐ์ง๋ weight, ๋ค์ ๋งํด ๋คํธ์ํฌ์ ๋ฏธ์น๋ ์ํฅ๋ ฅ์ด ์์ weight์ 0์ผ๋ก ๋ง๋ค์ด ๋คํธ์ํฌ์ ์ค์ํ weight๋ง์ ๊ฐ์ง๊ณ ํ์ตํ ์ ์๋ค. ์ด๋ฐ ๋ฐฉ๋ฒ์ feature selection ์ด๋ผ ๋งํ๊ณ , ์ด๋ฅผ ํตํด sparse model์ ๋ง๋ค ์ ์๊ฒ ๋๋ค. ๊ทธ๋ฌ๋ 0์์์ ๋ฏธ๋ถ์ด ๋ถ๊ฐ๋ฅํ๊ธฐ ๋๋ฌธ์ Gradient-Based Learning์์ ์ฃผ์ํ์ฌ ์ฌ์ฉํด์ผ ํ๋ค.

L2 Regularization์ weight update๋ฅผ ํ ๋ ์ค์๊ฐ์ ๊ณฑํด L1 Regularization๊ณผ ๋ฌ๋ฆฌ weight ๊ฐ์ 0์ผ๋ก ๋ง๋ค์ด ์ฃผ์ง ์๊ณ 0์ ๊ฐ๊น๊ฒ ๋ง๋ค์ด ์ฃผ๋ ์ญํ ๋ง ํ๋ค. ๋ํ, ์ด ์ค์๊ฐ์ ๋ชจ๋ weight์ ๋์ผํ ๊ฐ์ ๊ฐ์ง๊ธฐ ๋๋ฌธ์ weight์ ํฌ๊ธฐ๊ฐ ํด์๋ก ๋ ๋นจ๋ฆฌ ๊ฐ์์ํค๋ weight decay๋ฅผ ๊ฐ๋ฅ์ผ ํ๋ค. ์ด๋ฌํ ํน์ง๋ค๋ก ์ธํด L2 Regularization์ด L1์ ๋นํด weight ๊ท์ ์ ํจ๊ณผ์ ์ด๊ณ , ์ผ๋ฐํ ์ฑ๋ฅ์ ๊ฐํ ๋ชจ์ต์ ๋ณด์ธ๋ค.
'๐ Jero's Wiki > Deep Learning' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
Weight Initialization (0) | 2024.05.11 |
---|---|
Likelihood & MLE (2) | 2024.04.21 |
Backpropagation (1) | 2024.04.18 |
Gradient Descent (0) | 2024.04.17 |