기본기 다지기/Mathematics for ML

[선형대수] 2.3 Solving Systems of Linear Equations

syveany 2025. 1. 22. 03:32

공부하는 단계에서 정리한 내용입니다.

잘못된 내용이 있다면 말씀해주시면 감사하겠습니다.

https://mml-book.github.io/book/mml-book.pdf

 

계산을 어떻게 하는지 구체적으로 알아보는 단원이다.

 

2.3.1 Particular and General Solution

- Particular solution 구하는 거까진 이해되는데 general solution 구하는게 무슨 말인지 모르겠다.. (헐 이제 이해됨)

  갑자기 $\lambda_{1}$과 $\lambda_{2}$는 어디서 튀어나온 것인가.

  다시 보면 이해가 될까..? 이거를 왜 하고 있는지 이해가 안 됨

  다시 와서 봐야겠다.

  아무튼 지금은 particular solution하고 general solution을 구해서 해를 구하는구나 정도만 이해하고 넘어가보겠다.

 

2.3.2 Elementary Transformations

- Elementary transformation을 통해 linear equation 문제를 풀 수 있다.

- 그냥 최대한 사다리꼴 모양 유도하고 연립방정식 푸는대로 풀면 되는 듯 하다.

- 자유변수 설정하는 부분이 이해가 안 됐는데 이제야 이해했다. 후..

 

Def 2.6 (Row-Echelon Form)

- 행렬이 사다리꼴 형태이려면 왼쪽에서부터 0이  밑으로 가야한다. 아래와 같은 형태여야 한다는 것이다.

\begin{bmatrix}
1 & 2 & 3 & 4 \\
0 & 2 & 3 & 4 \\
0 & 0 & 0 & 4
\end{bmatrix}

- 1번째 행의 pivot은 1, 2번째 행의 pivot은 4, 3번째 행의 pivot은 3이다. 

- Basic variable: $x_{1}$, $x_{2}$, $x_{4}$

- Free variable: $x_{3}$

- Reduced Row Echelon Form: Row Echelon Form이면서, 모든  pivot이 1이고, 열 안에서 pivot말고는 다 0이어야 한다.

아래와 같이 Row-Echelon Form을 Reduced Row Echelon Form으로 나타낼 수 있다.

$$
\text{Row Echelon Form: }
\begin{bmatrix}
1 & 2 & 3 & 4 \\
0 & 1 & 2 & 3 \\
0 & 0 & 1 & 2
\end{bmatrix}
\quad \text{Reduced Row Echelon Form: }
\begin{bmatrix}
1 & 0 & 0 & 0 \\
0 & 1 & 0 & -1 \\
0 & 0 & 1 & 2
\end{bmatrix}
$$

 

2.3.3 The Minus-1 Trick

- 자유 변수를 시각적으로 구별하고, 이를 바탕으로 해 공간을 바로 구할 수 있도록 행렬을 확장하는 방법

- 자유변수 열에 -1을 추가해서 $\tilde{A}$을 만든 다음, 해를 구한다.

$$
A =
\begin{bmatrix}
1 & 3 & 0 & 0 & 3 \\
0 & 0 & 1 & 0 & 9 \\
0 & 0 & 0 & 1 & -4
\end{bmatrix}
\qquad 
\tilde{A} =
\begin{bmatrix}
1 & 3 & 0 & 0 & 3 \\
0 & -1 & 0 & 0 & 0 \\
0 & 0 & 1 & 0 & 9 \\
0 & 0 & 0 & 1 & -4 \\
0 & 0 & 0 & 0 & -1
\end{bmatrix}
\qquad
x = \lambda_1
\begin{bmatrix}
3 \\ -1 \\ 0 \\ 0 \\ 0
\end{bmatrix}
+ \lambda_2
\begin{bmatrix}
3 \\ 0 \\ 9 \\ -4 \\ -1
\end{bmatrix}
$$

 

Q: 무조건 -1만 넣어야 할까? 하필이면 왜 -1을 넣는걸까?

궁금해서 지피티에게 물어본 결과..

A: 무조건 -1을 넣어야 하는 건 아니다. 1을 넣어도 되고 -100을 넣어도 된다.
   하지만 -1이 더 많이 사용되는 이유는..
	(1) 부호의 대조를 통해 자유 변수를 더 명확히 구분
		−1을 사용하면 기본 변수와 자유 변수를 더 직관적으로 구분할 수 있음.
		기본 변수 열은 대부분 양수로 시작하는 경우가 많기 때문에, −1은 자유 변수임을 더 강조하는 역할을 함.
	(2) 표준적 사용
		수학에서 Minus-1 Trick은 -1을 사용하는 것이 관례로 자리 잡혀 있음.
		1을 넣으면 해석하는 사람이 혼란스러워할 수 있음.
	(3) 계산상의 차이 없음
		1을 넣거나 -1을 넣어도 계산 결과는 같지만, −1은 "트릭"으로서 더 직관적으로 보이는 장점이 있음.
	
   결론은, 1을 넣어도 수학적으로 문제가 없고, 해 공간은 동일하게 유지되지만
   -1이 더 직관적이고 표준적으로 사용되기 때문에 일반적으로는 -1을 사용한다!

 

- 그리고 아래와 같이 gaussian elimination을 적용해서 역행렬을 구할 수 있다.

$$
\quad
A = \begin{bmatrix}
1 & 0 & 2 & 0 \\
1 & 1 & 0 & 0 \\
1 & 2 & 0 & 1 \\
1 & 1 & 1 & 1
\end{bmatrix}
\quad
\text{Augmented A: }
\quad
\begin{bmatrix}
1 & 0 & 2 & 0 & | & 1 & 0 & 0 & 0 \\
1 & 1 & 0 & 0 & | & 0 & 1 & 0 & 0 \\
1 & 2 & 0 & 1 & | & 0 & 0 & 1 & 0 \\
1 & 1 & 1 & 1 & | & 0 & 0 & 0 & 1
\end{bmatrix}
$$

$$
\text{RREF of Augmented A: }
\quad
\begin{bmatrix}
1 & 0 & 0 & 0 & | & -1 & 2 & -2 & 2 \\
0 & 1 & 0 & 0 & | & 1 & -1 & 2 & -2 \\
0 & 0 & 1 & 0 & | & 1 & -1 & 1 & -1 \\
0 & 0 & 0 & 1 & | & -1 & 0 & -1 & 2
\end{bmatrix}
\quad
\quad
A^{-1} =
\begin{bmatrix}
-1 & 2 & -2 & 2 \\
1 & -1 & 2 & -2 \\
1 & -1 & 1 & -1 \\
-1 & 0 & -1 & 2
\end{bmatrix}
$$

2.3.4 Algorithms for Solving a System of Linear Equations

- 연립방정식 $Ax = b$를 푸는 방법으로 4가지를 제시한다.

  (1) 역행렬이 존재할 때 역행렬 이용

$$Ax = b \implies x = A^{-1}b$$

  (2) Moore-Penrose pseudo-inverse 이용

  - $(A^\top A)^{-1} A^\top$를 Moore-Penrose pseudo-inverse라고 한다.

$$Ax = b \iff A^\top Ax = A^\top b \iff x = (A^\top A)^{-1} A^\top b$$

  (3) Gaussian Elimination 이용

  - 를 row-echelon form로 변환해서 해를 구한다.

  (4) Iterative Method 사용

  - 대규모 문제에서 효율적으로 x를 근사적으로 계산한다.

$$\mathbf{x}^{(k+1)} = \mathbf{C} \mathbf{x}^{(k)} + \mathbf{d}$$