NN basics - ML & Math
To doPermalink
ํธ๋ฏธ๋ถ (partial derivative)Permalink
Jacobian MatrixPermalink
https://angeloyeo.github.io/2020/07/24/Jacobian.html
https://www.khanacademy.org/math/multivariable-calculus/multivariable-derivatives/jacobian/v/jacobian-prerequisite-knowledge
Hessian MatrixPermalink
2์ฐจ ํธ๋ ํจ์
Linear AlgebraPermalink
Vector & MatrixPermalink
Matrix Multiplication & Vector Tranformation(function or mapping)Permalink
x๋ผ๋ vector์ A๋ผ๋ ํ๋ ฌ์ ๊ณฑํ์ ๋ ์๋ก์ด ๊ณต๊ฐ์ b๋ผ๋ vector๋ก ํฌ์ ๋จ. (x๋ 4์ฐจ์ ์ค์ ๊ณต๊ฐ์์ 2์ฐจ์ ์ค์ ๊ณต๊ฐ์ผ๋ก)
Examples:
ํ๋ ฌ์ ๊ณฑ์ ์ ๊ทธ ๋์์ด ๋ฒกํฐ๋ ํ๋ ฌ์ด๋ ๊ณต๊ฐ์ ์ ํ์ ๋ณํ.
๊ฒฐ๊ตญ ์ ๊ฒฝ๋ง์ ํตํด representation learning์ด ๊ฐ๋ฅํ ๊ฒ.
Representaion LearningPermalink
๋ด๋ด๋คํธ์ํฌ์ Represention Learning
๊ธฐ์กด๋๋ก๋ผ๋ฉด ์ ํ์ผ๋ก ๋ถ๋ฆฌํ ์ ์๋ ๋ฐ์ดํฐ๊ฐ ์ ํ ๋ถ๋ฆฌ๊ฐ ๊ฐ๋ฅํ๊ฒ๋ ๋ฐ์ดํฐ๊ฐ ๋ณํ๋๋ค๋ ์๊ธฐ์
๋๋ค. ๋ค์ ๋งํด ๋ด๋ด๋คํธ์ํฌ์ ํ์ต ๊ณผ์ ์์ ๋ฐ์ดํฐ์ representaion์ด (
์ด ๊ธ์์๋ ์ค๋ช ์ ํธ์๋ฅผ ์ํด ๋จ์ ๋ด๋ด๋คํธ์ํฌ๋ฅผ ์๋ก ๋ค์์ผ๋, ๊น๊ณ ๋ฐฉ๋ํ ๋ด๋ด๋คํธ์ํฌ๋ ํ์ต๋ฐ์ดํฐ๊ฐ ๊ฝค ๋ณต์กํ represention์ด์ด๋ ์ด๋ฅผ ์ ํ ๋ถ๋ฆฌ๊ฐ ๊ฐ๋ฅํ ์ ๋๋ก ๋จ์ํํ๋ ๋ฐ ์ข์ ์ฑ๋ฅ์ ๋ธ๋ค๊ณ ํฉ๋๋ค. ์ด ๋๋ฌธ์ ๋ด๋ด๋คํธ์ํฌ๋ฅผ representation learner๋ผ๊ณ ๋ถ๋ฅด๋ ์ฌ๋๋ค๋ ์์ต๋๋ค.
representation learning์ด๋, ์ด๋ค task๋ฅผ ์ํํ๊ธฐ์ ์ ์ ํ๊ฒ ๋ฐ์ดํฐ์ representation์ ๋ณํํ๋ ๋ฐฉ๋ฒ์ ํ์ตํ๋ ๊ฒ์ ๋๋ค. ์ฆ ์ด๋ค task๋ฅผ ๋ ์ฝ๊ฒ ์ํํ ์ ์๋ ํํ์ ๋ง๋๋ ๊ฒ์ ๋๋ค. Raw data์ ๋ง์ feature engineering๊ณผ์ ์ ๊ฑฐ์น์ง ์๊ณ ๋ฐ์ดํฐ์ ๊ตฌ์กฐ๋ฅผ ํ์ตํ๋ ๊ฒ์ผ๋ก, ๋ฅ๋ฌ๋ ์ํคํ ์ฒ์ ํต์ฌ์์๋ผ๊ณ ํ ์ ์์ต๋๋ค. ์ ๋ ฅ ๋ฐ์ดํฐ์ ์ต์ ์ representation์ ๊ฒฐ์ ํด์ฃผ๊ณ ์ด ์ ์ฌ๋ representation์ ์ฐพ๋ ๊ฒ์ representation learning ๋๋ feature learning์ด๋ผ๊ณ ๋ถ๋ฆ ๋๋ค.
Size of Vector & Matrix (Distance)Permalink
์ ์ฌ๋๋ ๋ด์ ์ ํตํด ์ด๋ ์ ๋ ๊ตฌํ ์ ์์.
๊ฑฐ๋ฆฌ(size)๋ Norm ์ผ๋ก ๊ตฌํจ.
A norm is a function from a real or complex vector space to the nonnegative real numbers that behaves in certain ways like the distance from the origin.
Vector P NormPermalink
Norm์ ๋ฒกํฐ์ ๊ฑฐ๋ฆฌ๋ฅผ ์ธก์ ํ๋ ๋ฐฉ๋ฒ
P NormPermalink
Absolute-value Norm(1์ฐจ ๋)Permalink
Euclidean Norm(2์ฐจ ๋)Permalink
Max NormPermalink
์, x = (3, -4, 1)์ผ ๋, 2์ฐจ ๋์
์ด๊ฑด ์์ ์ผ๋ก ๋ถํฐ์ ๊ฑฐ๋ฆฌ๋ฅผ ์๋ฏธํจ.๋ฒกํฐ๊ฐ์ ๊ฑฐ๋ฆฌ๋ ๊ฐ๋ฅํจ.
Matrix Frobenious NormPermalink
ํ๋ ฌ์ ํฌ๊ธฐ๋ฅผ ์ธก์
์,
์ผ๋,
Norm์ ํ์ฉPermalink
- ๊ฑฐ๋ฆฌ(ํฌ๊ธฐ)์ ๊ฒฝ์ฐ
- Regularization์ ๊ฒฝ์ฐ
-
-
optimal point์์ ์๊ธธ์ ์๋ overfitting์ ํด๊ฒฐํ๊ธฐ ์ํด optimal point์ ๋๋ฌํ์ง ๋ชปํ๋๋ก l2 norm์ boundary์์์ optimal point์์ ์ต์๊ฐ์ ๊ฐ์ง๋๋ก Gradient์ Norm์ ์ถ๊ฐํ๋ ํํ๋ก ์ฌ์ฉํจ.
-
ํผ์ ํธ๋ก (Perceptron)Permalink
input
๋ด์ ์ด ์ค์ํ ์ด์ ๋ ๋ด์ ์ ํตํด ๋์จ scalar๊ฐ์ด activation function์ input์ผ๋ก ๋ค์ด๊ฐ๊ธฐ ๋๋ฌธ์ด๋ค.
๊ณต๊ฐ์ ์ผ๋ก ๋ณด๋ฉด,
ํ์ต์ ํตํด ์ป์ด์ง
์ด
๊ฒฐ์ ๊ฒฝ๊ณ (decision boundary)๋ ์ ํํ๋ณํจ์
๊ฐ 0์ ๋ง์กฑ์ํค๋ ์ ์งํฉ
๋ง์ฝ bias๋ฅผ ์ฌ์ฉํ ๊ฒฝ์ฐ bias()๊ฐ ๊ฒฐ์ ๊ฒฝ๊ณ๋ฅผ ๊ฒฐ์ ํ๋ ์์๊ฐ ๋จ(๊ธฐ์ธ๊ธฐ๋ ๊ฐ์ง๋ง ์์น ๋ค๋ฅธ).
์ฌ๊ธฐ๋ฅผ ์ฐธ์กฐ.
Linear Classifier (cs231n)Permalink
์ด๋ฏธ์ง X(tensor)๋ฅผ flatten ์์ผ์ 32 x 32 x 3
์ธ ๋ฐ์ดํฐ๋ฅผ 3072 x 1
์ shape์ธ vector์ผ๋ก ๋ง๋ค์ด์ ์
๋ ฅ๊ฐ์ผ๋ก ๋ฃ์ด์ค ๊ฒ์ด๊ณ ,
W๋ 10 x 3072
์ shape์ผ๋ก ๋ง๋ค์ด์ ์ด ํ๋ ฌ๊ณผ input vector์์ ๋ด์ ์ผ๋ก ๋์จ ๊ฐ์ด 10 x 1
์ shape์ ์ทจํ๊ฒ ๋ง๋ค์ด์ค. (10๊ฐ์ ํผ์
ํธ๋ก ์ด ์๋ค๊ณ ๋ณด๋ฉด ๋จ)
10๊ฐ์ target shape์ ๋ง๋ ๊ฒ์ ์์์. 3๊ฐ์ target class๋ฅผ ์ํ๋ค๋ฉด 3 x 1
์ shape์ผ๋ก ์ ์ฉํ๋ฉด ๋จ.
์๋์ slide๋ฅผ ๋ณด๋ฉด,
cat, dog and ship์ธ 3๊ฐ์ ํด๋์ค๋ก ๊ตฌ๋ถํ๋ ์์ ๋ฅผ ๋ณด์ฌ์ฃผ๊ธฐ ์ํด์ W์ shape์ด 3 x 4
์์ ์ ์ ์์.
ํผ์ ํธ๋ก ํ๋๊ฐ ์ ํ ๋ถ๋ฅ๊ธฐ 1๊ฐ๋ผ๊ณ ์๊ฐํ๋ฉด ๋จ.
cs231n:
The problem is that the linear classifier is only learning one template for each class.
So, if thereโs sort of variations in how that class might appear, itโs trying to average out all those different variations, all those different appearances, and use just one single template to recognize each of those categories.
Images as points in high dimensional space. The linear classifier is putting in these linear decision boundaries to try to draw linear separation between one category and the rest of the categories.
์ญํ๋ ฌ (Inverse Matrix)Permalink
vector๋ฅผ transform ์ํจ ๋ค์ ๋ค์ ์๊ณต๊ฐ์ผ๋ก ๋๋๋ฆฌ๊ธฐ ์ํด ์ฌ์ฉ๋จ.
๊ณต๊ฐ์ ๋ณํ๋ฅผ ์ฌ์ฉํ๋ ๊ธฐ๊ณํ์ต ๋ชจ๋ธ์ด๋ ๊ฐ์ค(PCA ๊ฐ์ ๊ฒฝ์ฐ)์ ์ฌ์ฉํ๋ ๊ฒฝ์ฐ์ ์ญํ๋ ฌ์ด ๊ฐ๋ฅํ๋ฉด ํธ๋ฆฌํด์ง๋ ๋ถ๋ถ์ด ์กด์ฌํจ.
์ ํ๋์์์ ์ญํ๋ ฌ์ ํตํด ๋ฐฉ์ ์์ ๋ณด๋ค ํธ๋ฆฌํ๊ฒ ํ๊ธฐ ์ํจ.
- ๊ฐ์ญํ๋ ฌ(Invertible Matrix)์ ์กฐ๊ฑด ์ค ์ค์ํ ๊ฒ.
์ ๋ชจ๋ ํ๊ณผ ์ด์ด ์ ํ๋ ๋ฆฝ์ด๋ค. . ๋ positive definite ๋์นญํ๋ ฌ์. ์ eigenvalue๋ ๋ชจ๋ 0์ด ์๋๋ค.
ํ๋ ฌ์ (Determinant)Permalink
๊ธฐํํ์ ์๋ฏธ: ํ๋ ฌ์ ๊ณฑ์ ์ํ ๊ณต๊ฐ์ ํ์ฅ ๋๋ ์ถ์ ํด์
: ํ๋์ ์ฐจ์์ ๋ฐ๋ผ ์ถ์๋์ด ๋ถํผ๋ฅผ ์๊ฒ ๋จ : ๋ถํผ ์ ์งํ ๋ณํ/๋ฐฉํฅ ๋ณด์กด ๋จ : ๋ถํผ ์ ์งํ ๋ณํ/๋ฐฉํฅ ๋ณด์กด ์๋จ : 5๋ฐฐ ๋ถํผ ํ์ฅ๋๋ฉฐ ๋ฐฉํฅ ๋ณด์กด
์๊ณต๊ฐ์ ๋ํ ๋ณํ์ ๋ถํผ์ ๋ณํ๋ฅผ ์ธก์ ํ๋ ๊ฒ์.
์ ๋ถํธ ํ๋ ฌ (positive definite matrices)Permalink
ํ๋ ฌ์ ๊ณต๊ฐ์ ๋ชจ์ต์ ํ๋จํ๊ธฐ ์ํด?
์์ ์ ๋ถํธ ํ๋ ฌ: 0์ด ์๋ ๋ชจ๋ ๋ฒกํฐ
์ฑ์ง
- ๊ณ ์ ๊ฐ ๋ชจ๋ ์์
- ์ญํ๋ ฌ๋ ์ ๋ถํธ ํ๋ ฌ
.
๋ถํด (Decomposition)Permalink
๊ณ ์ ๊ฐ ๋ถํด (Eigen-decomposition)Permalink
ML-Basics-Linear-Algebra ์ฐธ์กฐ.
์ ๋ฐฉํ๋ ฌ
์ด ์ฃผ์ด์ก์ ๋, ์ ๋ง์กฑํ๋ ๋ฅผ ์ ๊ณ ์ ๊ฐ(eigenvalue) ๊ทธ๋ฆฌ๊ณ ์ ์ฐ๊ด๋ ๊ณ ์ ๋ฒกํฐ(eigenvector)๋ผ๊ณ ๋ถ๋ฅธ๋ค. Eigenvectors: ์ ํ๋ณํ(T)์ด ์ผ์ด๋ ํ์๋ ๋ฐฉํฅ์ด ๋ณํ์ง ์๋ ์๋ฒกํฐ๊ฐ ์๋ ๋ฒกํฐ.
Eigenvalues: Eigenvectors์ ๊ธธ์ด๊ฐ ๋ณํ๋ ๋ฐฐ์(scale), reversed๋ scaled๊ฐ ๋ ์ ์์ง๋ง ๋ฐฉํฅ์ ๋ณํ์ง ์๋๋ค.
They make for interesting basis vectors. Basis vectors whos transformation matrices are maybe computationally more simpler or ones that make for better coordinate systems.numpy.linalg ๋ชจ๋์ eig ํจ์๋ฅผ ์ฌ์ฉํ์ฌ ๊ณ ์ ๊ฐ๊ณผ ๊ณ ์ ๋ฒกํฐ๋ฅผ ๊ตฌํ ์ ์๋ค.
Figure 2.3: An example of the effect of eigenvectors and eigenvalues. Here, we have a matrix A with two orthonormal eigenvectors, v(1) with eigenvalue ฮป1 and v(2) with eigenvalue ฮป2. (Left) We plot the set of all unit vectors u โ R2 as a unit circle. (Right) We plot the set of all points Au. By observing the way that A distorts the unit circle, we can see that it scales space in direction v(i) by ฮปi. Deep Learning. Ian Goodfellow, Yoshua Bengio, and Aaron Courville.
๊ณ ์ ๊ฐ ๋ถํด๋ฅผ ํตํด์ ํ๋ ฌ์ ์ญํ๋ ฌ๋ ๊ตฌํ ์ ์๊ณ , PCA์์๋ ํ์ฉํจ.
๊ณ ์ ๊ฐ ๋ถํด๋ ์ ์ฌ๊ฐ ํ๋ ฌ์๋ง ์ ์ฉ๋จ.
ํ์ง๋ง, ML์์ ํญ์ ์ ์ฌ๊ฐ ํ๋ ฌ๋ง ์กด์ฌํ๋ค๋ ๋ณด์ฅ์ด ์๊ธฐ ๋๋ฌธ์ SVD๋ฅผ ์ฌ์ฉ.
ํน์๊ฐ ๋ถํด (SVD: Singular Value Decomposition)Permalink
์ ์ฌ๊ฐ ํ๋ ฌ์ด ์๋ ํ๋ ฌ์ ์ญํ๋ ฌ์ ๊ณ์ฐํ๊ธฐ ์ํด ์ฌ์ฉ๋จ
ํน์ด๊ฐ๋ถํด(SVD)์ ๊ธฐํํ์ ์๋ฏธPermalink
ํ๋ ฌ์
ํ๋ ฌ
๐ ๋ฐ๋ผ์ ์
<๊ทธ๋ฆผ1> ์ถ์ฒ: ์ํคํผ๋์
๐ ์ฆ, ํ๋ ฌ์ ํน์ด๊ฐ(singular value)์ด๋ ์ด ํ๋ ฌ๋ก ํํ๋๋ ์ ํ๋ณํ์ ์ค์ผ์ผ ๋ณํ์ ๋ํ๋ด๋ ๊ฐ์ผ๋ก ํด์ํ ์ ์๋ค.
๐ ๊ณ ์ ๊ฐ๋ถํด(eigendecomposition)์์ ๋์ค๋ ๊ณ ์ ๊ฐ(eigenvalue)๊ณผ ๋น๊ตํด ๋ณด๋ฉด ๊ณ ์ ๊ฐ์ ๋ณํ์ ์ํด ๋ถ๋ณ์ธ ๋ฐฉํฅ๋ฒกํฐ(-> ๊ณ ์ ๋ฒกํฐ)์ ๋ํ ์ค์ผ์ผ factor์ด๊ณ , ํน์ด๊ฐ์ ๋ณํ ์์ฒด์ ์ค์ผ์ผ factor๋ก ๋ณผ ์ ์๋ค.
๐ ์ด ์ฃผ์ ์ ๊ด๋ จํ์ฌ ์กฐ๊ธ ๋ ์์์ ๋๋๋ฅผ ํด ๋ณด๋ฉด,
Information Theory & Optimization (chapter 3 in Deep Learning book)Permalink
ํ๋ฅ ๋ถํฌ๊ฐ์ ์ ์ฌ์ฑ์ ์ ๋ํ
์ ๋ณด์ด๋ก ์ ๊ธฐ๋ณธ์๋ฆฌ ๐ ํ๋ฅ ์ด ์์์๋ก ๋ง์ ์ ๋ณด
unlikely event์ ์ ๋ณด๋์ด ๋ง์.
์๊ธฐ ์ ๋ณด (self information)Permalink
์ฌ๊ฑด(๋ฉ์์ง,
์, ๋์ ์๋ฉด์ด ๋์ค๋ ์ฌ๊ฑด์ ์ ๋ณด๋:
1~6์ธ ์ฃผ์ฌ์์์ 1์ด ๋์ค๋ ์ฌ๊ฑด์ ์ ๋ณด๋:
ํ์์ ์ฌ๊ฑด์ด ์๋์ ์ผ๋ก ๋์ ์ ๋ณด๋์ ๊ฐ๋๋ค๊ณ ๋งํ ์ ์์.
์ํธ๋กํผ (Entropy)Permalink
ํ๋ฅ ๋ณ์
๋ชจ๋ ์ฌ๊ฑด ์ ๋ณด๋์ ๊ธฐ๋๊ฐ์ผ๋ก ํํ
์ด์ฐํ๋ฅ ๋ถํฌ
๋๋
์ฐ์ํ๋ฅ ๋ถํฌ๋๋ ์, ๋์ ์ ์๋ค์ ๋ฐ์ ํ๋ฅ ์ด ๋์ผํ ๊ฒฝ์ฐ์ ์ํธ๋กํผ๋ ๋ค์๊ณผ ๊ฐ์
๋์ ์ ๋ฐ์ ํ๋ฅ ์ ๋ฐ๋ฅธ ์ํธ๋กํผ ๋ณํ (binary entrophy)
- ๊ณตํํ ๋์ ์ผ ๊ฒฝ์ฐ ๊ฐ์ฅ ํฐ ์ํธ๋กํผ๋ฅผ ๊ตฌํ ์ ์์
- ๋์ ๋์ง๊ธฐ ๊ฒฐ๊ณผ ์ ์ก์๋ ์ต๋ 1๋นํธ๊ฐ ํ์ํจ์ ์๋ฏธ
๋ชจ๋ ์ฌ๊ฑด์ด ๋์ผํ ํ๋ฅ ์ ๊ฐ์ง ๋, ์ฆ, ๋ถํ์ค์ฑ์ด ๊ฐ์ฅ ๋์ ๊ฒฝ์ฐ, ์ํธ๋กํผ๊ฐ ์ต๋ ๊ฐ์ ๊ฐ๋๋ค.
์, ์ท๊ณผ pair ์ฃผ์ฌ์(1~6)์ ์ํธ๋กํผ ๊ฐ์ ๋น๊ต.
์ท:
์ฃผ์ฌ์:
๊ต์ฐจ ์ํธ๋กํผ (Cross Entropy)Permalink
๋ ๊ฐ์ ํ๋ฅ ๋ถํฌ๊ฐ ์ผ๋ง ๋งํผ์ ์ ๋ณด๋ฅผ ๊ณต์ ํ๋ ๊ฐ.
P๋ผ๋ ํ๋ฅ ๋ถํฌ์ ๋ํด์ Q์ ๋ถํฌ์ cross entropy
๋ฅ๋ฌ๋์์ output์ ํ๋ฅ ๊ฐ์.
์์คํจ์๋ ์ ๋ต(label or target)๊ณผ ์์ธก๊ฐ(prediction)์ ๋น๊ตํ๊ธฐ ๋๋ฌธ์
์ด๋ฅผ ํ๋ฅ ๊ฐ์ผ๋ก ๋น๊ตํ๋ ๊ฒ์.
label ๊ฐ์ ๊ฒฝ์ฐ๋ OHE๋ก ํ์ง๋ง ์ด๊ฒ๋ 1๋ก ๋์ด์๋ ํ๋ฅ ๋ถํฌ๊ณ output๋ ํ๋ฅ ๋ถํฌ์ด๊ธฐ ๋๋ฌธ์
์ด ์ฒ๋๋ก ๋น๊ต๊ฐ๋ฅํ ๊ฒ์ด ๋ฐ๋ก CE์.
์์ ์์ ์ ๊ฐํ๋ฉด,
์ด ์์ ์ถ๊ฐํด์ ๋ณํํ ๊ฒ์.
์ด ์์ ํฉ์น๋ฉด์ด๋ ๊ฒ ๋๋ ๋ฐ, ์ด ์์ KL Divergence ๋ผ๊ณ ํจ.
์ฌ๊ธฐ์
๋ฅผ ๋ฐ์ดํฐ์ ๋ถํฌ๋ผ๊ณ ํ๋ฉด, ์ด๋ ํ์ต๊ณผ์ ์์ ๋ณํํ์ง ์์.
๋ ๊ณ ์ ์ด๊ธฐ ๋๋ฌธ์ ๋ฅผ ์กฐ์ ํด์ cross entropy๊ฐ์ ์ต์ํ ์ํค๋ ๊ฒ์. Cross Entropy๋ฅผ ์์คํจ์๋ก ์ฌ์ฉํ๋ ๊ฒฝ์ฐ,
์ด ์์์,
๋ ๊ณ ์ ์ด๊ธฐ ๋๋ฌธ์ KLD๋ฅผ ์ต์ํ ํ๋ ๊ฒ๊ณผ ๋์ผํจ. ์ฆ, ๊ฐ์ง๊ณ ์๋ ๋ฐ์ดํฐ ๋ถํฌ P(x)์ ์ถ์ ํ ๋ฐ์ดํฐ ๋ถํฌ Q(x)๊ฐ์ ์ฐจ์ด ์ต์ํ ํ๋๋ฐ ๊ต์ฐจ ์ํธ๋กํผ๋ฅผ ์ฌ์ฉํจ.
KLD (KullbackโLeibler divergence)Permalink
- P์ Q ์ฌ์ด์ KLD
- ๋ ํ๋ฅ ๋ถํฌ ์ฌ์ด์ ๊ฑฐ๋ฆฌ๋ฅผ ๊ณ์ฐํ ๋ ์ฃผ๋ก ์ฌ์ฉ.
P์ Q์ cross entrophy๋ p์ ์ํธ๋กํผ + P์ Q๊ฐ์ KL ๋ค์ด๋ฒ์ ์ค์.
LogitPermalink
DL์ output์ probability๊ฐ ๋์ด์ผ ํ๋๋ฐ,
๋คํธ์ํฌ๋ฅผ ํต๊ณผํด์ ๋์จ ๊ฐ์ ๋ฒ์๋
activation function(sigmoid)์ ์ ์ฉํด์ ํ๋ฅ ๊ฐ์ผ๋ก ๋ง๋ค์ด ์ฃผ๋๋ฐ, ์ด๋ฐ ๊ฒฝ์ฐ ๊ฐ ํด๋์ค์ ๋ํ ํ๋ฅ ์ (๋ชจ๋ ํด๋์ค์ ํ๋ฅ ์ ๋ํ์ ๋ 1์ด ์๋)
multilabel classification์ผ ๊ฒฝ์ฐ์ ๊ฐ๋ฅํ์ง๋ง.
multiclass์ ๊ฒฝ์ฐ์๋ ๋ชจ๋ ํด๋์ค์ ๋ํ ํ๋ฅ ์ ์ํ๋ ๊ฒ์(๋ชจ๋ ํด๋์ค์ ํ๋ฅ ์ ๋ํ์ ๋ 1)
์ด ์ญํ ์ ํด์ฃผ๋ ๊ฒ์ด softmax function์
ํ๋ฅ ์์์ logit function์
p๊ฐ 0%์ ๊ฐ๊น์ธ ๋ logit์
์ฆ ๋ก์ง์ ๊ฐ์ง๊ณ ์๋ค๋ฉด(
ํ๋ฅ ์ด ์ปค์ง๋ฉด ๋ก์ง๋ ์ปค์ง๊ธฐ ๋๋ฌธ์ ๋ฅ๋ฌ๋์์ ํ๋ฅ ๋์ ๋ก์ง์ ์ค์ฝ์ด๋ก๋ ์ฌ์ฉ์ด ๊ฐ๋ฅํ๋ค๋ ์๋ฏธ์.
ouput์ผ๋ก ๋ก์ง์ด ๋์ค๊ณ ์ด๊ฑธ sigmoid๋ก ๋ฐ๊พธ๋ฉด ๊ฐ ํด๋์ค์ ๋ํ ํ๋ฅ ์ด ๋์ด(๋ชจ๋ ํด๋์ค์ ๋ํด์ ๊ฐ ํด๋์ค๊ฐ ์๋, ํฉํ๋ฉด 1์ ๋์)
softmax๋ ๋ก์ง์ ์ฌ์ฉํด์ ๋ชจ๋ ํด๋์ค์ ๋ํ ํ๋ฅ ์ ์ป๊ฒ ํด์ค.
์ด๊ฒ์ด ๋ฅ๋ฌ๋์ ๋์์ด ๋๋ ์ด์ ๋ label์ OHE ํ๊ธฐ ๋๋ฌธ์.
ํ๋ฅ ๊ฐ์ด ๋์ ๊ฒ๋ค์ ์์ฃผ ๋๊ฒ, ๋ฎ์ ๊ฐ๋ค์ ์์ฃผ ๋ฎ๊ฒ ํ๋ฉด OHE์ ๋น์ทํด์ง๊ธฐ ๋๋ฌธ.
๋ฐ๋ผ์ CrossEntropy ํ์ต์ ๋์์ด ๋๋ ๊ฒ์.
why e in log?
0๋ณด๋ค ํฐ ์๋ฌด ๊ฐ์ด๋ ์จ๋ ์๊ด์ ์์ง๋ง(์ํ์ ์ผ๋ก๋),
๋ฅ๋ฌ๋์ output์ ๋ก์ง์ด๋ผ๊ณ ๊ฐ์ ํ๊ธฐ ๋๋ฌธ์, ๋ก์ง์ log์ e base๋ฅผ ์ฌ์ฉํ๊ณ ์์.
๋ฐ๋ผ์,๊ณ์ฐ์ด ์๋นํ ๊ฐํธํด์ง.
๋ค๋ฅธ ์ซ์๋ฅผ ์ฌ์ฉํด๋ softmax์ ๋น์ทํ ๊ฒฐ๊ณผ๋ ๋์ค์ง๋ง, ๋ฅ๋ฌ๋ ์์ด๋์ด์ ๊ทผ๊ฑฐ๊ฐ ๋ก์ง์ด๊ธฐ ๋๋ฌธ์ e๋ฅผ ์ฌ์ฉํ๋ ๊ฒ์.
์ค์ผ๋ฌ ๋๋ฒ๋ผ๊ณ ํจ.
Summary
- Softmax gives probability distribution over predicted output classes.
- The final layer in deep learning has logit values which are raw values for prediction by softmax.
- Logit is the input to softmax
ํธ๋ฏธ๋ถ (partial derivative)Permalink
- ๋ณ์๊ฐ ๋ณต์์ธ ํจ์์ ๋ฏธ๋ถ
- ๋ฏธ๋ถ ๊ฐ์ด ์ด๋ฃจ๋ ๋ฒกํฐ๋ฅผ gradient๋ผ๊ณ ๋ถ๋ฆ.
Jacobian MatrixPermalink
ํ๋ ฌ์ ๋ฏธ๋ถํ ๊ฒ.
1์ฐจ ํธ๋ ํจ์
์ ๊ฒฝ๋ง์์ ์ฐ์ฐ์ ํ๋ ฌ๋ก ์ด๋ฃจ์ด์ง๊ณ , ๋ฏธ๋ถ์ด ํ์ํ๋ฐ jacobian์ ํตํด ๋ฏธ๋ถํจ.
์,
์์ฝ๋น์์ด ๋งํ๊ณ ์ ํ๋ ๊ฒ์ ๋ฏธ์ ์์ญ์์ โ๋น์ ํ ๋ณํโ์ โ์ ํ ๋ณํ์ผ๋ก ๊ทผ์ฌโ ์ํจ ๊ฒ.
AppendixPermalink
Positive Definite MatricesPermalink
Geometric meaning of DeterminantPermalink
ReferencePermalink
Manifold Learning: https://deepinsight.tistory.com/124
Representation Learning: https://ratsgo.github.io/deep%20learning/2017/04/25/representationlearning/
Representation Learning: https://velog.io/@tobigs-gnn1213/7.-Graph-Representation-Learning
cs231n slides: http://cs231n.stanford.edu/slides/2021/
SVD: https://darkpgmr.tistory.com/106
logit: https://youtu.be/K7HTd_Zgr3w
partial derivative: https://youtu.be/ly4S0oi3Yz8, https://youtu.be/GkB4vW16QHI, https://youtu.be/AXqhWeUEtQU
jacobian matrix: https://angeloyeo.github.io/2020/07/24/Jacobian.html
Leave a comment