공부하는 단계에서 정리한 내용입니다.
잘못된 내용이 있다면 말씀해주시면 감사하겠습니다.
https://mml-book.github.io/book/mml-book.pdf
계산을 어떻게 하는지 구체적으로 알아보는 단원이다.
2.3.1 Particular and General Solution
- Particular solution 구하는 거까진 이해되는데 general solution 구하는게 무슨 말인지 모르겠다.. (헐 이제 이해됨)
갑자기 $\lambda_{1}$과 $\lambda_{2}$는 어디서 튀어나온 것인가.
다시 보면 이해가 될까..? 이거를 왜 하고 있는지 이해가 안 됨
다시 와서 봐야겠다.
아무튼 지금은 particular solution하고 general solution을 구해서 해를 구하는구나 정도만 이해하고 넘어가보겠다.
2.3.2 Elementary Transformations
- Elementary transformation을 통해 linear equation 문제를 풀 수 있다.
- 그냥 최대한 사다리꼴 모양 유도하고 연립방정식 푸는대로 풀면 되는 듯 하다.
- 자유변수 설정하는 부분이 이해가 안 됐는데 이제야 이해했다. 후..
Def 2.6 (Row-Echelon Form)
- 행렬이 사다리꼴 형태이려면 왼쪽에서부터 0이 밑으로 가야한다. 아래와 같은 형태여야 한다는 것이다.
\begin{bmatrix}
1 & 2 & 3 & 4 \\
0 & 2 & 3 & 4 \\
0 & 0 & 0 & 4
\end{bmatrix}
- 1번째 행의 pivot은 1, 2번째 행의 pivot은 4, 3번째 행의 pivot은 3이다.
- Basic variable: $x_{1}$, $x_{2}$, $x_{4}$
- Free variable: $x_{3}$
- Reduced Row Echelon Form: Row Echelon Form이면서, 모든 pivot이 1이고, 열 안에서 pivot말고는 다 0이어야 한다.
아래와 같이 Row-Echelon Form을 Reduced Row Echelon Form으로 나타낼 수 있다.
$$
\text{Row Echelon Form: }
\begin{bmatrix}
1 & 2 & 3 & 4 \\
0 & 1 & 2 & 3 \\
0 & 0 & 1 & 2
\end{bmatrix}
\quad \text{Reduced Row Echelon Form: }
\begin{bmatrix}
1 & 0 & 0 & 0 \\
0 & 1 & 0 & -1 \\
0 & 0 & 1 & 2
\end{bmatrix}
$$
2.3.3 The Minus-1 Trick
- 자유 변수를 시각적으로 구별하고, 이를 바탕으로 해 공간을 바로 구할 수 있도록 행렬을 확장하는 방법
- 자유변수 열에 -1을 추가해서 $\tilde{A}$을 만든 다음, 해를 구한다.
$$
A =
\begin{bmatrix}
1 & 3 & 0 & 0 & 3 \\
0 & 0 & 1 & 0 & 9 \\
0 & 0 & 0 & 1 & -4
\end{bmatrix}
\qquad
\tilde{A} =
\begin{bmatrix}
1 & 3 & 0 & 0 & 3 \\
0 & -1 & 0 & 0 & 0 \\
0 & 0 & 1 & 0 & 9 \\
0 & 0 & 0 & 1 & -4 \\
0 & 0 & 0 & 0 & -1
\end{bmatrix}
\qquad
x = \lambda_1
\begin{bmatrix}
3 \\ -1 \\ 0 \\ 0 \\ 0
\end{bmatrix}
+ \lambda_2
\begin{bmatrix}
3 \\ 0 \\ 9 \\ -4 \\ -1
\end{bmatrix}
$$
Q: 무조건 -1만 넣어야 할까? 하필이면 왜 -1을 넣는걸까?
궁금해서 지피티에게 물어본 결과..
A: 무조건 -1을 넣어야 하는 건 아니다. 1을 넣어도 되고 -100을 넣어도 된다.
하지만 -1이 더 많이 사용되는 이유는..
(1) 부호의 대조를 통해 자유 변수를 더 명확히 구분
−1을 사용하면 기본 변수와 자유 변수를 더 직관적으로 구분할 수 있음.
기본 변수 열은 대부분 양수로 시작하는 경우가 많기 때문에, −1은 자유 변수임을 더 강조하는 역할을 함.
(2) 표준적 사용
수학에서 Minus-1 Trick은 -1을 사용하는 것이 관례로 자리 잡혀 있음.
1을 넣으면 해석하는 사람이 혼란스러워할 수 있음.
(3) 계산상의 차이 없음
1을 넣거나 -1을 넣어도 계산 결과는 같지만, −1은 "트릭"으로서 더 직관적으로 보이는 장점이 있음.
결론은, 1을 넣어도 수학적으로 문제가 없고, 해 공간은 동일하게 유지되지만
-1이 더 직관적이고 표준적으로 사용되기 때문에 일반적으로는 -1을 사용한다!
- 그리고 아래와 같이 gaussian elimination을 적용해서 역행렬을 구할 수 있다.
$$
\quad
A = \begin{bmatrix}
1 & 0 & 2 & 0 \\
1 & 1 & 0 & 0 \\
1 & 2 & 0 & 1 \\
1 & 1 & 1 & 1
\end{bmatrix}
\quad
\text{Augmented A: }
\quad
\begin{bmatrix}
1 & 0 & 2 & 0 & | & 1 & 0 & 0 & 0 \\
1 & 1 & 0 & 0 & | & 0 & 1 & 0 & 0 \\
1 & 2 & 0 & 1 & | & 0 & 0 & 1 & 0 \\
1 & 1 & 1 & 1 & | & 0 & 0 & 0 & 1
\end{bmatrix}
$$
$$
\text{RREF of Augmented A: }
\quad
\begin{bmatrix}
1 & 0 & 0 & 0 & | & -1 & 2 & -2 & 2 \\
0 & 1 & 0 & 0 & | & 1 & -1 & 2 & -2 \\
0 & 0 & 1 & 0 & | & 1 & -1 & 1 & -1 \\
0 & 0 & 0 & 1 & | & -1 & 0 & -1 & 2
\end{bmatrix}
\quad
\quad
A^{-1} =
\begin{bmatrix}
-1 & 2 & -2 & 2 \\
1 & -1 & 2 & -2 \\
1 & -1 & 1 & -1 \\
-1 & 0 & -1 & 2
\end{bmatrix}
$$
2.3.4 Algorithms for Solving a System of Linear Equations
- 연립방정식 $Ax = b$를 푸는 방법으로 4가지를 제시한다.
(1) 역행렬이 존재할 때 역행렬 이용
$$Ax = b \implies x = A^{-1}b$$
(2) Moore-Penrose pseudo-inverse 이용
- $(A^\top A)^{-1} A^\top$를 Moore-Penrose pseudo-inverse라고 한다.
$$Ax = b \iff A^\top Ax = A^\top b \iff x = (A^\top A)^{-1} A^\top b$$
(3) Gaussian Elimination 이용
- 를 row-echelon form로 변환해서 해를 구한다.
(4) Iterative Method 사용
- 대규모 문제에서 효율적으로 x를 근사적으로 계산한다.
$$\mathbf{x}^{(k+1)} = \mathbf{C} \mathbf{x}^{(k)} + \mathbf{d}$$
'기본기 다지기 > Mathematics for ML' 카테고리의 다른 글
[선형대수] 2.6 Basis and Rank (0) | 2025.01.25 |
---|---|
[선형대수] 2.5 Linear Independence (0) | 2025.01.24 |
[선형대수] 2.4 Vector Spaces (0) | 2025.01.23 |
[선형대수] 2.2 Matrices (0) | 2025.01.21 |
[선형대수] 2.1 Systems of Linear Equations (0) | 2025.01.20 |