Likelihood
Likelihood๋ฅผ ํ๊ตญ์ด๋ก ๋ฒ์ญํ๋ฉด '(์ด๋ค ์ผ์ด ์์) ๊ฐ๋ฅ์ฑ' ์ด๋ค. ๊ทธ๋ ๋ค๋ฉด ํต๊ณ์์ Likelihood๋ ์ด๋ค ๊ฐ๋ฅ์ฑ์ผ๊น?

๋ฐ๋ก, ๋ฐ์ดํฐ $\boldsymbol{X=\{x_1, x_2, x_3, x_4, x_5\}}$ ๊ฐ ํ๋ฅ ๋ถํฌ $\boldsymbol{P}$ ์์ ๋์์ ๊ฐ๋ฅ์ฑ ์ด๋ค.
Probability vs. Likelihood
ํต๊ณ์์ '๊ฐ๋ฅ์ฑ'์ด๋ผ ํ๋ Probability(ํ๋ฅ )๊ฐ ์๊ฐ๋๋ค. Probability์ Likelihood๋ ๋ ๋ค '๋ฌด์ธ๊ฐ ์ผ์ด๋ ๊ฐ๋ฅ์ฑ'์ ๋ปํ๋ค.
๋์ , Probability๋ ์ด๋ค ์ฌ๊ฑด์ด ์ผ์ด๋ ๊ฐ๋ฅ์ฑ์ ๋งํ๊ณ Likelihood๋ ์ด๋ค ์ฌ๊ฑด์ด ์ด๋์์ ์ผ์ด๋ ๊ฐ๋ฅ์ฑ์ ๋งํ๋ค.

๋๊ธ์ด 6๊ฐ์ธ ์ฃผ์ฌ์๋ฅผ ๋์ก์ ๋ ์ซ์ 1 ์ด๋ 2๊ฐ ๋์ฌ ๊ฐ๋ฅ์ฑ์ Probability(ํ๋ฅ )์ด๊ณ , ์ด๋ค ์ฃผ์ฌ์๋ฅผ ๋์ ธ 2๊ฐ ๋์์ ๋ ๋๊ธ์ด 6๊ฐ์ธ ์ฃผ์ฌ์๋ฅผ ๋์ ธ์ ๋์์ ๊ฐ๋ฅ์ฑ ํน์ ๋๊ธ 10๊ฐ ์ฃผ์ฌ์์์ ๋์์ ๊ฐ๋ฅ์ฑ์ ๋ณด๋ ๊ฑด Likelihood(๊ฐ๋ฅ๋)๊ฐ ๋๋ ๊ฑฐ๋ค.
์ฆ, Probability์์ ํน์ ํ๋ฅ ๋ถํฌ์์ ์ด๋ค ์ฌ๊ฑด์ด ์ผ์ด๋ ๊ฐ๋ฅ์ฑ์ด๊ณ (ํ๋ฅ ๋ถํฌ๋ ๊ณ ์ , ์ฌ๊ฑด์ ๋ณํ)
Likelihood์์ ํน์ ์ฌ๊ฑด์ด ์์ ๋ ๊ทธ ์ฌ๊ฑด์ด ์ด๋ค ํ๋ฅ ๋ถํฌ์์ ์ผ์ด๋ฌ์ ๊ฐ๋ฅ์ฑ (์ฌ๊ฑด์ด ๊ณ ์ , ํ๋ฅ ๋ถํฌ๋ ๋ณํ) ์ธ ๊ฒ์ด๋ค.
์ด์ ์ฐ๋ฆฌ๊ฐ ์ํ๋ ๊ฑด Likelihood๋ฅผ ์ฌ์ฉํด ์ฃผ์ด์ง ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ฅ ์ ์ค๋ช ํ๋ ํ๋ฅ ๋ถํฌ๋ฅผ ์ฐพ๋ ๊ฒ์ด๋ค.
Likelihood๋ ์ ์ฒด ๋ฐ์ดํฐ๊ฐ ์๋ ์ผ๋ถ ๋ฐ์ดํฐ๋ง ์ฃผ์ด์ก์ ๋, ์ด ๋ฐ์ดํฐ๋ค์๊ฐ์ฅ ์ ์ค๋ช ํ๋ ํ๋ฅ ๋ถํฌ๋ฅผ ์ฐพ๊ธฐ ์ํด ์ฌ์ฉ๋์ด์ง๋ค. ๊ทธ๋ ๊ธฐ์ ์ด ๋ฐ์ดํฐ๊ฐ ์ด๋ค ํ๋ฅ ๋ถํฌ์์ ๋์์ ๊ฒ์ด๋ผ ๊ฐ์ ํ๊ณ , ๊ทธ ๋ถํฌ์์ ๋ฐ์ดํฐ๊ฐ ๋ฐ์ํ ๊ฐ๋ฅ์ฑ(=ํ๋ฅ )์ ๊ณ์ฐํด ๊ทธ ๊ฐ๋ฅ์ฑ์ด ์ ์ผ ํฐ ํ๋ฅ ๋ถํฌ๋ฅผ ์ฐพ์๊ฐ๋ค.
Likelihood Function


์ ๊ทธ๋ฆผ์ ๋ ๊ฐ์ ํ๋ฅ ๋ถํฌ๋ฅผ ๊ทธ๋ฆฐ ๊ฒ์ด๋ค. ๋ ๋ถํฌ ๋ชจ๋ ๋ฐ์ดํฐ $X$๋ฅผ ํฌํจํ๊ณ ์๋ค. ์ด ๋, $X$๋ฅผ ๋ ์ ์ค๋ช ํ๊ณ ์๋ ํ๋ฅ ๋ถํฌ๋ ๋ฌด์์ผ๊น?
ํด๋น ๋ถํฌ์์ ๊ฐ ๋ฐ์ดํฐ๋ค์ด ๋ฐ์ํ ํ๋ฅ ์ ๋ํด ๊ณ์ฐํ ๋ค์, ๊ทธ ๊ฐ๋ค์ ๋น๊ตํด๋ณด์. ๊ฐ ๋ถํฌ ๋น 5๊ฐ์ ํ๋ฅ ๊ฐ์ด ๋์ฌํ ๊ณ ์ด ๊ฐ๋ค์ ๋น๊ตํ๊ธฐ ์ํด ํ๋์ ๊ฐ์ผ๋ก ๋ง๋ค์ด์ผ ํ๋ค.
Likelihood์์ ๋ฐ์ดํฐ๋ค์ ๋ ๋ฆฝ์ ์ผ๋ก ์ฐ๋ฌ์ ์ถ์ถ๋ ๋ฐ์ดํฐ(์ฌ๊ฑด)์ด๋ฏ๋ก ๊ณฑ์ผ๋ก ๊ณ์ฐํด์ค๋ค. ์ด ๊ณผ์ ์ ์๋์ ๊ฐ์ ์์์ผ๋ก ํํํ ์ ์๋ค.

์ฆ, ์ฃผ์ด์ง ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ฅ ์ ์ค๋ช ํ๋ ํ๋ฅ ๋ถํฌ๋ฅผ ์ฐพ๋ ๋ฐฉ๋ฒ์ Likelihood Function ๊ฐ์ด ๊ฐ์ฅ ํด ๋์ Parameter $\theta$ ๊ฐ์ ์ฐพ๋ ๊ฒ์ด๋ค.
Log-Likelihood Function

๋ณดํต Likelihood Function์ ๊ณ์ฐ ํธ์์ฑ์ ์ํด Log-Likelihood Function์ผ๋ก ๋ฐ๊พธ์ด ๊ณ์ฐํด์ค๋ค.
์ด๋ ๊ฒ ๋ฐ๊พธ์ด ๊ณ์ฐํ๊ฒ ๋๋ฉด Likelihood ๊ณ์ฐ์ ๊ณฑ์ด ์๋ ๋ง์ ์ผ๋ก ์งํํ๊ฒ ๋์ด ์ฐ์ฐ๋์ด ๊ฐ์ํ๋ค. ๋ฟ๋ง ์๋๋ผ, Likelihood๋ ํ๋ฅ ์ ์ฌ์ฉํด ๊ณ์ฐ๋๋๋ฐ ํ๋ฅ ์ 0์์ 1 ์ฌ์ด์ ๊ฐ์ด๋ฏ๋ก ๊ณฑํ ์๋ก 0์ ๊ฐ๊น์์ง๋ ์์น์ ๋ถ์์ ํจ์ด ์๋ค. ์ด๋ฅผ ๋ง์ ํํ๋ก ๋ณ๊ฒฝํด ๋ถ์์ ์ฑ์ ์ํํ๋ ์ญํ ๋ ํ๊ฒ ๋๋ค.
MLE (Maximum Likelihood Estimation)
Likelihood Function ๊ฐ์ด ์ต๋๊ฐ ๋๊ฒ ํ๋ Parameter $\theta$ ๊ฐ์ ์ฐพ๋ ๋ฐฉ๋ฒ์ด MLE(Maximum Likelihood Estimation) ์ด๋ค.

ํจ์์ ์ต๋๊ฐ์ ์ฐพ๊ธฐ ์ํด ๋ฏธ๋ถ๊ณ์๋ฅผ ํ์ฉํ๋ค.
Likelihood Functoin์ ์ต๋ํ ์์ผ์ฃผ๋ $\theta$ ๊ฐ์ ์ฐพ๊ธฐ ์ํด ํด๋น ํจ์๋ฅผ $\theta$๋ก ํธ๋ฏธ๋ถํ๊ณ ๊ทธ ๊ฐ์ด 0์ด ๋๋๋ก ํ๋ $\theta$ ๊ฐ์ ์ฐพ๊ฒ ๋๋ฉด, Likelihood Function ๊ฐ์ ์ต๋์ผ ๋์ $\theta$๋ฅผ ๊ตฌํ ์ ์๊ฒ ๋๋ค.
์ด ๊ณผ์ ์ ํตํด Parameter $\theta$ ๊ฐ์ ๊ตฌํ๊ฒ ๋๊ณ ๊ทธ $\theta$์ผ๋ก ๊ตฌ์ฑ๋ ํ๋ฅ ๋ถํฌ๊ฐ ๋ฐ์ดํฐ $X$๋ฅผ ๊ฐ์ฅ ์ ์ค๋ช ํ๋ ํ๋ฅ ๋ถํฌ๊ฐ ๋ ๊ฒ์ด๋ค.
๐ก Reference
1. https://xoft.tistory.com/30
[๊ฐ๋ ์ ๋ฆฌ] Likelihood ์ Probability
์ฌ์ ์์ Probability๋ฅผ 'ํ๋ฅ ', Likelihood๋ '๊ฐ๋ฅ๋, ๊ฐ๋ฅ์ฑ'๋ผ๊ณ ํฉ๋๋ค. ์ด ๋จ์ด์ ๊ตฌ๋ณ์ด ์ ๋์ง ์์ต๋๋ค. ํ๊ตญ์ด๋ก 'ํ๋ฅ '์ '์ด๋ค์ผ์ด ์ผ์ด๋ ๊ฐ๋ฅ์ฑ'์ ๋ํ๋ ๋๋ค. Likelihood๋ '์ด๋ค์ผ์ด ์ผ์ด
xoft.tistory.com
2. https://angeloyeo.github.io/2020/07/17/MLE.html
์ต๋์ฐ๋๋ฒ(MLE) - ๊ณต๋์ด์ ์ํ์ ๋ฆฌ๋ ธํธ (Angelo's Math Notes)
angeloyeo.github.io
'๐ Jero's Wiki > Deep Learning' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
Weight Initialization (0) | 2024.05.11 |
---|---|
Regularization (1) | 2024.04.26 |
Backpropagation (1) | 2024.04.18 |
Gradient Descent (0) | 2024.04.17 |
Likelihood
Likelihood๋ฅผ ํ๊ตญ์ด๋ก ๋ฒ์ญํ๋ฉด '(์ด๋ค ์ผ์ด ์์) ๊ฐ๋ฅ์ฑ' ์ด๋ค. ๊ทธ๋ ๋ค๋ฉด ํต๊ณ์์ Likelihood๋ ์ด๋ค ๊ฐ๋ฅ์ฑ์ผ๊น?

๋ฐ๋ก, ๋ฐ์ดํฐ $\boldsymbol{X=\{x_1, x_2, x_3, x_4, x_5\}}$ ๊ฐ ํ๋ฅ ๋ถํฌ $\boldsymbol{P}$ ์์ ๋์์ ๊ฐ๋ฅ์ฑ ์ด๋ค.
Probability vs. Likelihood
ํต๊ณ์์ '๊ฐ๋ฅ์ฑ'์ด๋ผ ํ๋ Probability(ํ๋ฅ )๊ฐ ์๊ฐ๋๋ค. Probability์ Likelihood๋ ๋ ๋ค '๋ฌด์ธ๊ฐ ์ผ์ด๋ ๊ฐ๋ฅ์ฑ'์ ๋ปํ๋ค.
๋์ , Probability๋ ์ด๋ค ์ฌ๊ฑด์ด ์ผ์ด๋ ๊ฐ๋ฅ์ฑ์ ๋งํ๊ณ Likelihood๋ ์ด๋ค ์ฌ๊ฑด์ด ์ด๋์์ ์ผ์ด๋ ๊ฐ๋ฅ์ฑ์ ๋งํ๋ค.

๋๊ธ์ด 6๊ฐ์ธ ์ฃผ์ฌ์๋ฅผ ๋์ก์ ๋ ์ซ์ 1 ์ด๋ 2๊ฐ ๋์ฌ ๊ฐ๋ฅ์ฑ์ Probability(ํ๋ฅ )์ด๊ณ , ์ด๋ค ์ฃผ์ฌ์๋ฅผ ๋์ ธ 2๊ฐ ๋์์ ๋ ๋๊ธ์ด 6๊ฐ์ธ ์ฃผ์ฌ์๋ฅผ ๋์ ธ์ ๋์์ ๊ฐ๋ฅ์ฑ ํน์ ๋๊ธ 10๊ฐ ์ฃผ์ฌ์์์ ๋์์ ๊ฐ๋ฅ์ฑ์ ๋ณด๋ ๊ฑด Likelihood(๊ฐ๋ฅ๋)๊ฐ ๋๋ ๊ฑฐ๋ค.
์ฆ, Probability์์ ํน์ ํ๋ฅ ๋ถํฌ์์ ์ด๋ค ์ฌ๊ฑด์ด ์ผ์ด๋ ๊ฐ๋ฅ์ฑ์ด๊ณ (ํ๋ฅ ๋ถํฌ๋ ๊ณ ์ , ์ฌ๊ฑด์ ๋ณํ)
Likelihood์์ ํน์ ์ฌ๊ฑด์ด ์์ ๋ ๊ทธ ์ฌ๊ฑด์ด ์ด๋ค ํ๋ฅ ๋ถํฌ์์ ์ผ์ด๋ฌ์ ๊ฐ๋ฅ์ฑ (์ฌ๊ฑด์ด ๊ณ ์ , ํ๋ฅ ๋ถํฌ๋ ๋ณํ) ์ธ ๊ฒ์ด๋ค.
์ด์ ์ฐ๋ฆฌ๊ฐ ์ํ๋ ๊ฑด Likelihood๋ฅผ ์ฌ์ฉํด ์ฃผ์ด์ง ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ฅ ์ ์ค๋ช ํ๋ ํ๋ฅ ๋ถํฌ๋ฅผ ์ฐพ๋ ๊ฒ์ด๋ค.
Likelihood๋ ์ ์ฒด ๋ฐ์ดํฐ๊ฐ ์๋ ์ผ๋ถ ๋ฐ์ดํฐ๋ง ์ฃผ์ด์ก์ ๋, ์ด ๋ฐ์ดํฐ๋ค์๊ฐ์ฅ ์ ์ค๋ช ํ๋ ํ๋ฅ ๋ถํฌ๋ฅผ ์ฐพ๊ธฐ ์ํด ์ฌ์ฉ๋์ด์ง๋ค. ๊ทธ๋ ๊ธฐ์ ์ด ๋ฐ์ดํฐ๊ฐ ์ด๋ค ํ๋ฅ ๋ถํฌ์์ ๋์์ ๊ฒ์ด๋ผ ๊ฐ์ ํ๊ณ , ๊ทธ ๋ถํฌ์์ ๋ฐ์ดํฐ๊ฐ ๋ฐ์ํ ๊ฐ๋ฅ์ฑ(=ํ๋ฅ )์ ๊ณ์ฐํด ๊ทธ ๊ฐ๋ฅ์ฑ์ด ์ ์ผ ํฐ ํ๋ฅ ๋ถํฌ๋ฅผ ์ฐพ์๊ฐ๋ค.
Likelihood Function


์ ๊ทธ๋ฆผ์ ๋ ๊ฐ์ ํ๋ฅ ๋ถํฌ๋ฅผ ๊ทธ๋ฆฐ ๊ฒ์ด๋ค. ๋ ๋ถํฌ ๋ชจ๋ ๋ฐ์ดํฐ $X$๋ฅผ ํฌํจํ๊ณ ์๋ค. ์ด ๋, $X$๋ฅผ ๋ ์ ์ค๋ช ํ๊ณ ์๋ ํ๋ฅ ๋ถํฌ๋ ๋ฌด์์ผ๊น?
ํด๋น ๋ถํฌ์์ ๊ฐ ๋ฐ์ดํฐ๋ค์ด ๋ฐ์ํ ํ๋ฅ ์ ๋ํด ๊ณ์ฐํ ๋ค์, ๊ทธ ๊ฐ๋ค์ ๋น๊ตํด๋ณด์. ๊ฐ ๋ถํฌ ๋น 5๊ฐ์ ํ๋ฅ ๊ฐ์ด ๋์ฌํ ๊ณ ์ด ๊ฐ๋ค์ ๋น๊ตํ๊ธฐ ์ํด ํ๋์ ๊ฐ์ผ๋ก ๋ง๋ค์ด์ผ ํ๋ค.
Likelihood์์ ๋ฐ์ดํฐ๋ค์ ๋ ๋ฆฝ์ ์ผ๋ก ์ฐ๋ฌ์ ์ถ์ถ๋ ๋ฐ์ดํฐ(์ฌ๊ฑด)์ด๋ฏ๋ก ๊ณฑ์ผ๋ก ๊ณ์ฐํด์ค๋ค. ์ด ๊ณผ์ ์ ์๋์ ๊ฐ์ ์์์ผ๋ก ํํํ ์ ์๋ค.

์ฆ, ์ฃผ์ด์ง ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ฅ ์ ์ค๋ช ํ๋ ํ๋ฅ ๋ถํฌ๋ฅผ ์ฐพ๋ ๋ฐฉ๋ฒ์ Likelihood Function ๊ฐ์ด ๊ฐ์ฅ ํด ๋์ Parameter $\theta$ ๊ฐ์ ์ฐพ๋ ๊ฒ์ด๋ค.
Log-Likelihood Function

๋ณดํต Likelihood Function์ ๊ณ์ฐ ํธ์์ฑ์ ์ํด Log-Likelihood Function์ผ๋ก ๋ฐ๊พธ์ด ๊ณ์ฐํด์ค๋ค.
์ด๋ ๊ฒ ๋ฐ๊พธ์ด ๊ณ์ฐํ๊ฒ ๋๋ฉด Likelihood ๊ณ์ฐ์ ๊ณฑ์ด ์๋ ๋ง์ ์ผ๋ก ์งํํ๊ฒ ๋์ด ์ฐ์ฐ๋์ด ๊ฐ์ํ๋ค. ๋ฟ๋ง ์๋๋ผ, Likelihood๋ ํ๋ฅ ์ ์ฌ์ฉํด ๊ณ์ฐ๋๋๋ฐ ํ๋ฅ ์ 0์์ 1 ์ฌ์ด์ ๊ฐ์ด๋ฏ๋ก ๊ณฑํ ์๋ก 0์ ๊ฐ๊น์์ง๋ ์์น์ ๋ถ์์ ํจ์ด ์๋ค. ์ด๋ฅผ ๋ง์ ํํ๋ก ๋ณ๊ฒฝํด ๋ถ์์ ์ฑ์ ์ํํ๋ ์ญํ ๋ ํ๊ฒ ๋๋ค.
MLE (Maximum Likelihood Estimation)
Likelihood Function ๊ฐ์ด ์ต๋๊ฐ ๋๊ฒ ํ๋ Parameter $\theta$ ๊ฐ์ ์ฐพ๋ ๋ฐฉ๋ฒ์ด MLE(Maximum Likelihood Estimation) ์ด๋ค.

ํจ์์ ์ต๋๊ฐ์ ์ฐพ๊ธฐ ์ํด ๋ฏธ๋ถ๊ณ์๋ฅผ ํ์ฉํ๋ค.
Likelihood Functoin์ ์ต๋ํ ์์ผ์ฃผ๋ $\theta$ ๊ฐ์ ์ฐพ๊ธฐ ์ํด ํด๋น ํจ์๋ฅผ $\theta$๋ก ํธ๋ฏธ๋ถํ๊ณ ๊ทธ ๊ฐ์ด 0์ด ๋๋๋ก ํ๋ $\theta$ ๊ฐ์ ์ฐพ๊ฒ ๋๋ฉด, Likelihood Function ๊ฐ์ ์ต๋์ผ ๋์ $\theta$๋ฅผ ๊ตฌํ ์ ์๊ฒ ๋๋ค.
์ด ๊ณผ์ ์ ํตํด Parameter $\theta$ ๊ฐ์ ๊ตฌํ๊ฒ ๋๊ณ ๊ทธ $\theta$์ผ๋ก ๊ตฌ์ฑ๋ ํ๋ฅ ๋ถํฌ๊ฐ ๋ฐ์ดํฐ $X$๋ฅผ ๊ฐ์ฅ ์ ์ค๋ช ํ๋ ํ๋ฅ ๋ถํฌ๊ฐ ๋ ๊ฒ์ด๋ค.
๐ก Reference
1. https://xoft.tistory.com/30
[๊ฐ๋ ์ ๋ฆฌ] Likelihood ์ Probability
์ฌ์ ์์ Probability๋ฅผ 'ํ๋ฅ ', Likelihood๋ '๊ฐ๋ฅ๋, ๊ฐ๋ฅ์ฑ'๋ผ๊ณ ํฉ๋๋ค. ์ด ๋จ์ด์ ๊ตฌ๋ณ์ด ์ ๋์ง ์์ต๋๋ค. ํ๊ตญ์ด๋ก 'ํ๋ฅ '์ '์ด๋ค์ผ์ด ์ผ์ด๋ ๊ฐ๋ฅ์ฑ'์ ๋ํ๋ ๋๋ค. Likelihood๋ '์ด๋ค์ผ์ด ์ผ์ด
xoft.tistory.com
2. https://angeloyeo.github.io/2020/07/17/MLE.html
์ต๋์ฐ๋๋ฒ(MLE) - ๊ณต๋์ด์ ์ํ์ ๋ฆฌ๋ ธํธ (Angelo's Math Notes)
angeloyeo.github.io
'๐ Jero's Wiki > Deep Learning' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
Weight Initialization (0) | 2024.05.11 |
---|---|
Regularization (1) | 2024.04.26 |
Backpropagation (1) | 2024.04.18 |
Gradient Descent (0) | 2024.04.17 |