diff --git a/_posts/2025-08-04-02.Information-Theory.md b/_posts/2025-08-04-02.Information-Theory.md
index 9d81980973..bb5e8d043c 100644
--- a/_posts/2025-08-04-02.Information-Theory.md
+++ b/_posts/2025-08-04-02.Information-Theory.md
@@ -36,65 +36,84 @@ long contents .....
## 2.4 Jointly Distributed Random Variables
두 개의 확률변수 $X \in \mathcal{X},\ Y \in \mathcal{Y}$ 를 생각해보자. 이 확률 변수들의 결합 확률 분포(Joint Probability Distribution)의 확률 밀도 함수 (Probability mass function)는 다음과 같이 주어질 것이다.
+
$$
p_{X, Y}(x, y)= \mathrm{Pr} [X=x, Y=y]
$$
+
이 결합확률분포의 확률밀도함수 $p_{X,Y}(x,y)$는 $X, Y$가 동시에 특정한 값 $x, y$를 가질 확률을 말한다.
이때 특정한 확률변수 하나에 대해서만 (여기서는, $X$) 그 확률을 고려해볼 수 있는데, 이를 주변 확률 분포(Marginal Probability Distribution)이라 한다. 이 값은 다음과 같이 목표가 되는 확률변수 $X=x$에서 나머지 확률변수에 대한 확률밀도함수값의 가중합으로 구해진다.
+
$$
p_{X} (x)= \sum_{y\in \mathcal{Y} }^{}{p_{X, Y} (x, y)}
$$
-다르게 바라보면, 다음과 같이 가능한 $y \in \mathcal{Y}$ 에 대한 조건부 확률 $p_{X\mid Y}(x\mid Y)$의 기댓값으로도 생각할 수 있고
+
+다르게 바라보면, 다음과 같이 가능한 $y \in \mathcal{Y}$ 에 대한 조건부 확률 $p_{X\mid Y}(x\mid Y)$의 기댓값으로도 생각할 수 있고
+
$$
p_{X} (x) = \sum_{y\in \mathcal{Y} }^{}{p_{X\mid Y} (x\mid y)p_{Y} (y)} = \mathbb{E}[p_{X\mid Y} (x\mid Y)]
$$
+
이는 $X$에 대한 주변 확률 분포(이하, Marginal)가 조건부 확률의 $Y-$평균으로 간주할 수 있음을 보여준다.
---
이제 결합확률분포를 이루는 두 확률변수 $X, Y$에 각각 임의의 함수$f: X\to \mathbb{R}, g: Y\to \mathbb{R}$ 을 씌웠을 때의 기댓값을 생각해보자.
+
$$
\begin{align}
\mathbb{E}[f(X)+g(Y)] &= \sum_{x,y}^{}{[f(x)+g(y)]p_{X,Y}(x,y) } \\
&= \underbrace{ \sum_{x,y}^{}{f(x)p_{X,Y}(x,y) } }_{\text{term1} } + \underbrace{ \sum_{x,y}^{}{g(y)p_{X,Y}(x,y) } }_{\text{term2} }
\end{align}
$$
+
위 식에서 $\text{term1}$에서 $f$는 확률변수 $X$에만 의존하고, $\text{term2}$에서 $g$는 확률변수 $Y$에만 의존하므로 각 항을 확률변수 $Y, X$에 대한 marginal로 쓸 수 있다.
+
$$
\begin{align}
\sum_{x,y}^{}{f(x)p_{X,Y}(x,y) }+\sum_{x,y}^{}{g(y)p_{X,Y}(x,y) } &= \sum_{x}^{}{f(x)p_{X} (x)} + \sum_{y}^{}{g(y)} p_{Y} (y) \\
&= \mathbb{E}[f(X)] +\mathbb{E}[g(Y)]
\end{align}
$$
+
이로써 확률변수 $X, Y$가 결합확률분포를 이룰 때, 각 변수에 대한 함수의 기댓값은 항상, 심지어 $X, Y$가 서로 독립이 아닐 때에도, $\mathbb{E}[f(X) + g(Y)] = \mathbb{E}[f(X)]+\mathbb{E}[g(Y)]$의 선형성을 띰을 알 수 있다.
---
결합확률분포는 또한 다음의 특징을 가진다.
+
$$
p_{X,Y} (x,y)= p_{X} (x)\cdot p_{Y} (y) \iff X \perp\mkern-10mu\perp Y
$$
+
$\impliedby$ 방향은 독립의 정의에 의해 자연스럽게 도출된다. 따라서 $\implies$ 방향을 증명하기 위해, $\phi_{1}: X\to \mathbb{R}, \phi_{2}Y\to\mathbb{R}$인 두 함수 $\phi_{1}, \phi_{2}$에 대해
+
$$
p_{X, Y} (x, y)= \phi_{1} (x) \cdot\ \phi_{2} (y)
$$
+
를 만족한다고 가정하자.
$X, Y$ 각각의 marginal을 조건부 확률로 나타내면,
+
$$
\begin{align}
p_{X} (x) = \sum_{y}^{}{p_{X, Y} (x, y)} = \sum_{y}^{}{\phi_{1} (x)\cdot \phi_{2} (y)} = \phi_{1} (x)\cdot \sum_{y}^{}{\phi_{2} (y)} = \phi_{1} (x) \cdot C_{Y} \\
p_{Y} (y) = \sum_{x}^{}{p_{X, Y} (x, y)} = \sum_{x}^{}{\phi_{1} (x)\cdot \phi_{2} (y)} = \phi_{2} (y)\cdot \sum_{x}^{}{\phi_{1} (x)} = \phi_{2} (y) \cdot C_{X}
\end{align}
$$
+
이때, 전체 결합확률분포의 정규화 조건 $\sum_{}^{}{p_{X, Y}(x, y)}= 1$에 따라
+
$$
\sum_{X, Y}^{}{p_{X, Y} (x, y)} = \sum_{x}^{}{}\sum_{y}^{}{} \phi_{1}(x)\cdot \phi_{2} (y) = \left( \sum_{x}^{}{\phi_{1} (x)} \right) \cdot \left( \sum_{y}^{}{\phi_{2} (y)} \right) = C_{X} \cdot C_{Y} = 1
$$
+
$$
\therefore p_{X, Y} (x, y)= \cfrac{1}{C_{X} \cdot C_{Y} }\cdot \phi_{1} (x)\cdot \phi_{2} (y) = \cfrac{\phi_{1}(x)}{C_{X} }\cdot \cfrac{\phi_{2} (y)}{C_{Y} } = p_{X} (x)\cdot p_{Y} (y)
$$
+
$X, Y$가 서로 독립임을 알 수 있다.
### 2.4.1 Joint Entropy
@@ -249,7 +268,7 @@ $H(Y4\mid Y1=1)$은 $3/4\log4/3+1/4\log4$이다.
->**상호 정보량(Mutual Information)이란?**
+> **상호 정보량(Mutual Information)이란?**
상호 정보량은 엔트로피와 조건부 엔트로피의 차이로 정의된다.
@@ -269,7 +288,7 @@ $$
---
-만약 $X$와 $Y$가 서로 **독립**이라면, 위 도식 혹은 정의에 의해 $$I(X; Y) = 0$$임을 보일 수 있다.
+만약 $X$와 $Y$가 서로 **독립**이라면, 위 도식 혹은 정의에 의해 $$I(X; Y) = 0$$임을 보일 수 있다.
또한, $I(X; Y) = 0$이면 $X$와 $Y$는 독립이다.
상호 정보량은 다음과 같이 **KL divergence**로도 표현된다.
@@ -285,31 +304,39 @@ $I(X; Y) = 0$이라면, $p_{X,Y} = p_X p_Y$가 되어 $X$와 $Y$는 독립이
**정리 36 (데이터 처리 부등식 I)**
**정리.** $f$가 결정론적 함수라면,
+
$$
H(X) \ge H(f(X))
$$
+
이다.
-**증명.**
+**증명.**
+
$$
H(X, f(X)) = H(X) + H(f(X)\mid X) = H(X)
$$
+
또한,
+
$$
H(X, f(X)) = H(f(X)) + H(X\mid f(X)) \ge H(f(X))
$$
+
따라서 $H(X) \ge H(f(X))$이다.
($f$가 일대일 대응이고 전사이면 역함수가 존재하므로 이 경우에는 $H(X)=H(f(X))$.)
---
**정리 37 (Mutual information은 대칭적이다)**
-**정리.**
+**정리.**
+
$$
I(X;Y) = I(Y;X)
$$
-**증명.**
+**증명.**
+
$$
\begin{aligned}
I(X;Y) &= H(X) - H(X\mid Y) \\
@@ -322,12 +349,14 @@ $$
---
**정리 38 (Mutual information은 비음수이다)**
-**정리.**
+**정리.**
+
$$
I(X;Y) \ge 0
$$
-**증명.**
+**증명.**
+
$$
\begin{aligned}
H(X) - H(X\mid Y)
@@ -335,9 +364,10 @@ H(X) - H(X\mid Y)
&= \mathbb{E}\left[\log \frac{p_{X\mid Y}(X\mid Y)}{p_X(X)}\right] \\
&= \mathbb{E}\left[\log \frac{p_{X,Y}(X,Y)}{p_X(X)p_Y(Y)}\right] \\
&= \sum_{x,y} p_{X,Y}(x,y) \log \frac{p_{X,Y}(x,y)}{p_X(x)p_Y(y)} \\
-&= D\!\left(p_{X,Y} \,\|\, p_X p_Y\right) \ge 0
+&= D\!\left(p_{X,Y} \,\|\, p_X p_Y\right) \ge 0
\end{aligned}
$$
+
따라서 $I(X;Y) = D(p_{X,Y}\,\|\,p_X p_Y) \ge 0$.
여기서 $p_X p_Y$는 $X$와 $Y$가 각각의 주변분포 $p_X, p_Y$를 가지지만 서로 독립인 $(X,Y)$에 대한 분포이다.
또한 부등식 $H(X) \ge H(X\mid Y)$는 “조건부를 취하면 (불확실성이) 줄어들거나 유지된다”는 해석을 가질 수 있다.
@@ -346,11 +376,13 @@ $$
**정리 39 (데이터 처리 부등식 II)**
**정리.** 임의의 함수 $f: \mathcal{X} \to \mathbb{R}$에 대해 다음이 성립한다:
+
$$
I(X;Y) \ge I(f(X);Y)
$$
-**증명.**
+**증명.**
+
$$
\begin{aligned}
I(X;Y) &= H(Y) - H(Y\mid X) \\
@@ -362,21 +394,25 @@ $$
**일반화.**
$X - Y - Z$가 마르코프 체인(또는 $X$와 $Z$가 $Y$를 조건으로 주었을 때 조건부 독립)일 때, 다음이 서로 동치이다:
-1. $X - Y - Z \iff X$와 $Z$가 $Y$를 주었을 때 독립이다. $(X \perp Z \mid Y)$
-2. $Y$가 알려져 있을 때 $X$는 $Z$를 추정하는 데 쓸모없다.
-3. 모든 $x,y,z$에 대해 $p_{Z\mid X,Y}(z\mid x,y) = p_{Z\mid Y}(z\mid y)$.
+
+1. $X - Y - Z \iff X$와 $Z$가 $Y$를 주었을 때 독립이다. $(X \perp Z \mid Y)$
+2. $Y$가 알려져 있을 때 $X$는 $Z$를 추정하는 데 쓸모없다.
+3. 모든 $x,y,z$에 대해 $p_{Z\mid X,Y}(z\mid x,y) = p_{Z\mid Y}(z\mid y)$.
---
-**정리 40 (데이터 처리 부등식 III)**
+**정리 40 (데이터 처리 부등식 III)**
**정리.**
만약 $X - Y - Z$가 마르코프 체인을 이룬다면,
+
$$
I(X;Z) \le I(Y;Z)
$$
+
또는 대칭적으로 $I(Z;X) \le I(Z;Y)$.
-**증명.**
+**증명.**
+
$$
\begin{aligned}
I(Y;Z) &= H(Z) - H(Z\mid Y) \\
@@ -385,6 +421,7 @@ I(Y;Z) &= H(Z) - H(Z\mid Y) \\
&= I(X;Z)
\end{aligned}
$$
+
따라서 $I(Y;Z) \ge I(X;Z)$, 즉 $I(Z;Y) \ge I(Z;X)$이다.
**문제 29.(b)**
@@ -396,30 +433,37 @@ $X, Y, Z$가 결합 확률 분포를 가지는 임의의 확률 변수일 때,
**1. 체인 룰(chain rule) 적용**
상호 정보의 체인 룰에 따르면:
+
$$
I(X, Y; Z) = I(X; Z) + I(Y; Z \mid X).
$$
+
이는 “$X, Y$가 합쳐질 때 $Z$와 주고받는 정보량”을
먼저 $X$가 주는 정보량과, $X$를 알고 난 뒤 $Y$가 더 주는 추가 정보량으로 분해한 식이다.
**2. 조건부 상호 정보의 비음성**
-항상
+항상
+
$$
I(Y; Z \mid X) \ge 0
$$
+
이다. (KL 발산 형태로 증명할 수 있다.)
**3. 부등식 결론**
따라서
+
$$
I(X, Y; Z) = I(X; Z) + I(Y; Z \mid X) \ge I(X; Z).
$$
**4. 등호 성립 조건**
-등호 $I(X, Y; Z) = I(X; Z)$가 되려면
+등호 $I(X, Y; Z) = I(X; Z)$가 되려면
+
$$
I(Y; Z \mid X) = 0 \iff Y \perp Z \mid X
$$
+
이어야 한다.
즉 “$X$를 조건으로 두었을 때 $Y$와 $Z$가 독립”이어야 한다.
이 역시 $Y \to X \to Z$ 형태의 마르코프 사슬과 동치이다.
@@ -428,44 +472,57 @@ $$
**문제 31.**
임의의 결정론적 함수 $g$에 대하여,
+
$$
H(X \mid g(Y)) = H(X \mid Y)
$$
+
이 성립하려면 어떤 조건이 필요한가?
**풀이**
**1. 데이터 처리 부등식 I (조건부 형태)**
이미 알고 있는 바:
+
$$
H(X \mid g(Y)) \ge H(X \mid Y),
$$
+
왜냐하면 “$Y$를 알면 $g(Y)$를 알 수 있지만, $g(Y)$를 안다고 해서 항상 $Y$가 복원되지는 않으므로” 불확실성이 더 작아지거나 같기 때문이다.
**2. 등호 조건 분석**
+
$$
H(X \mid g(Y)) = H(X \mid Y)
$$
+
일 때, 양쪽 사이에 끼어 있는
+
$$
H(X \mid Y) - H(X \mid g(Y)) = I(X;Y \mid g(Y)) = 0
$$
+
이다.
즉, “$g(Y)$를 조건으로 $X$와 $Y$가 독립”이어야 한다.
**3. 마르코프 사슬 해석**
+
$$
I(X;Y \mid g(Y)) = 0 \iff X \perp Y \mid g(Y).
$$
-이는 바로
+
+이는 바로
+
$$
X \longrightarrow g(Y) \longrightarrow Y
$$
+
꼴의 마르코프 사슬 형태가 성립함을 뜻한다.
**4. 특수 사례**
-- $g$가 일대일 대응(가역)이면 당연히 $g(Y) \leftrightarrow Y$ 양방향 복원이 가능하므로 등호 성립.
-- 또 $X$와 $Y$가 본래 독립이라도
+
+- $g$가 일대일 대응(가역)이면 당연히 $g(Y) \leftrightarrow Y$ 양방향 복원이 가능하므로 등호 성립.
+- 또 $X$와 $Y$가 본래 독립이라도
$$
H(X \mid g(Y)) = H(X) = H(X \mid Y)
$$
@@ -483,16 +540,19 @@ $$
**1. 데이터 처리 부등식 II**
이것은 4.4절에서 나온 정리와 같다. 임의의 결정론적 함수 $g$에 대하여:
+
$$
I(g(X); Y) \le I(X; Y).
$$
**2. 직관**
-- $X$가 $Y$에 갖는 정보량이 $I(X;Y)$이고,
-- $X$를 $g$로 가공한 $g(X)$는 $X$보다 “덜 상세”(또는 같음) →
+
+- $X$가 $Y$에 갖는 정보량이 $I(X;Y)$이고,
+- $X$를 $g$로 가공한 $g(X)$는 $X$보다 “덜 상세”(또는 같음) →
- $g(X)$가 $Y$에 제공할 수 있는 정보도 당연히 $I(X;Y)$ 이하여야 한다.
**3. 형식적 증명**
+
$$
\begin{aligned}
I(g(X); Y) &= H(Y) - H(Y \mid g(X)) \\
@@ -502,10 +562,12 @@ I(g(X); Y) &= H(Y) - H(Y \mid g(X)) \\
$$
**4. 등호 성립 조건**
-등호가 되려면
+등호가 되려면
+
$$
H(Y \mid g(X)) = H(Y \mid X) \iff I(Y; X \mid g(X)) = 0 \iff Y \perp X \mid g(X).
$$
+
즉 “$g(X)$를 조건으로 $X$와 $Y$가 독립”일 때 등호가 된다.
다시 말해 $g(X)$를 기준으로 $X$와 $Y$는 더 이상의 상호 정보(조건부)가 없다.
@@ -730,21 +792,72 @@ i.i.d. ←────────────|───────────
### 2.5.3 kth Order Markov Process
확률 과정 X에 대해,
+
$$
P_{X_i | X^{i-1}}(x_i \mid x^{i-1}) = P_{X_i | X_{i-k}^{i-1}}(x_i \mid x_{i-k}^{i-1}),
$$
+
이 성립하는 시퀀스는 k차 마르코프 과정(kth Order Markov Process)를 따른다.
+
즉, k차 마르코프 과정을 따르는 시퀀스에 대해서
+
$$
P_{X^n}(x^n) = \prod_{i=1}^{n} P_{X_i \mid X_{i-k}^{i-1}}(x_i \mid x_{i-k}^{i-1})
$$
+
이 성립한다.
### 2.5.4 Stationary Distribution
+
+
+**그림 7 설명**
+
+- **i.i.d(독립 동일 분포) 가정**: 시퀀스 내 각 확률변수가 서로 완전히 독립이며 상관관계가 없음.
+- **실제(practical) 환경**: 시퀀스 내 변수들 간의 상관관계가 높음.
+- **정상 분포(stationary distribution)**: i.i.d보다 현실을 더 잘 근사하며, $k$차 마르코프 과정보다 현실 상황에 더 가까움.
+
+---
+
+**정의 45. 정상(stationary) 과정**
+랜덤 프로세스 $X_1, X_2, \dots, X_n$이 다음을 만족하면 정상 과정이라 한다.
+
+$$
+P_{X_i^{i+n}} = P_{X_{i+1}^{i+n+1}}, \quad \forall i, n
+$$
+
+- 임의의 $n$-튜플을 $i$번째 시점에서 시작해도, $(i+1)$번째 시점에서 시작해도 분포가 동일하다.
+- 확률변수의 분포가 **시간에 의존하지 않는다**.
+
+여기서
+
+- $P_{X_i^n}$ : $i$번째 시점부터 $n$개의 변수를 포함하는 분포
+- $P_{X_{i+1}^n}$ : $(i+1)$번째 시점부터 $n$개의 변수를 포함하는 분포
+
+---
+
+**예제 46. 랜덤 워크(Random Walk)**
+
+$$
+X_0 = 0,\quad X_n = X_{n-1} \pm 1
+$$
+
+- $X_1$의 가능한 값: $\{0, -1\}$
+- $X_2$의 가능한 값: $\{2, 0, -2\}$
+
+시간이 지남에 따라 값의 분포가 변하고, $X_n$이 $X_0$보다 "더 랜덤"해진다.
+⇒ **정상이 아님**.
+
+---
+
+**비고**
+
+- 모든 마르코프 과정이 정상인 것은 아니다.
+- 정상 과정은 무한 의존성(infinite dependency)을 가질 수 있다.
+
### 2.5.5 Stationary Markov Process
**예제 47.** 초기 분포가 $P(A) = P(B) = P(C) = \frac{1}{3}$인 다음 1차 마르코프 과정을 생각해보자.
@@ -772,7 +885,7 @@ $$
---
-**예제 50.** $p_{X_i \mid X_{i-1}}(1\mid0) = p_{X_i \mid X_{i-1}}(0 \mid 1) = \alpha < \frac{1}{2}, p_{X_i \mid X_{i-1}}(0 \mid 0) = p_{X_i \mid X_{i-1}}(1 \mid 1) = 1 - \alpha$ 인 이항 확률 과정을 생각해보자. 이 때 전이 행렬은 다음과 같다.
+**예제 50.** $p_{X_i \mid X_{i-1}}(1\mid0) = p_{X_i \mid X_{i-1}}(0 \mid 1) = \alpha < \frac{1}{2}, p_{X_i \mid X_{i-1}}(0 \mid 0) = p_{X_i \mid X_{i-1}}(1 \mid 1) = 1 - \alpha$ 인 이항 확률 과정을 생각해보자. 이 때 전이 행렬은 다음과 같다.
$$
P = \begin{pmatrix}
@@ -805,7 +918,7 @@ $$
[P\pi^\star]_i = \frac{1}{n} \sum_{j=1}^n P_{ji}
$$
-전이 행렬에서 한 행의 합은 확률 분포이므로 항상 1이 되어 $[P\pi^\star]_i = 1/n$.
+전이 행렬에서 한 행의 합은 확률 분포이므로 항상 1이 되어 $[P\pi^\star]_i = 1/n$.
따라서 $P \pi^\star = \pi^\star$, $\pi^\star$는 정상 분포이다.
---
@@ -816,7 +929,6 @@ $$
\pi_\infty = \lim_{t \to \infty} \pi_t
$$
-
**정리 52.** 극한 분포는 정상 분포여야 한다.
풀이: $\pi_{t+1} = P \pi_t$ 의 양변에 극한을 취하여 쉽게 증명 가능하다.
@@ -825,7 +937,7 @@ $$
$X_0 \sim p_0$라 할 때, 다음과 같은 전이 행렬을 가진 1차 마르코프 과정을 생각해보자.
$$
-P =
+P =
\begin{bmatrix}
1 - \epsilon & \epsilon/(n-1) & \cdots & \epsilon/(n-1) \\
\epsilon/(n-1) & 1 - \epsilon & \cdots & \epsilon/(n-1) \\
@@ -841,7 +953,6 @@ $$
X_t \approx f_\theta(X_{t+1}, t)
$$
-
그렇다면 우리는 균일 분포로부터 $\tilde X_N$을 샘플링한 후, $f_\theta(\cdot, t)$ 를 재귀적으로 적용하여 $\tilde X_0$ 를 얻을 수 있다. 이 $\tilde X_0$는 $X_0 \sim p_0$와 유사하게 동작할 것으로 기대할 수 있으며, 이것이 **생성적 확산 모델(generative diffusion process)**의 핵심 아이디어이다.
## 2.6 Continuous Random Variables
@@ -863,7 +974,7 @@ $$
$$
\begin{aligned}
-D(f \parallel g)
+D(f \parallel g)
&= \mathbb{E}_f \left[ \log \frac{f(X)}{g(X)} \right] \\
&= \int f(x) \cdot \log \frac{f(x)}{g(x)} \, dx \\
&= - \int f(x) \cdot \log \frac{g(x)}{f(x)} \, dx \\
@@ -880,7 +991,7 @@ $-\log$는 아래로 볼록(convex)인 함수이므로, Jensen 부등식을 위
$$
\begin{aligned}
-I(X; Y)
+I(X; Y)
&= \mathbb{E} \left[ \log \frac{f_{X,Y}(X,Y)}{f_X(X) f_Y(Y)} \right] \\
&= D\left(f_{X,Y} \parallel f_X f_Y \right)
\end{aligned}
@@ -933,22 +1044,22 @@ $\Delta$가 작아질수록 $H(X^\Delta)$는 더 커지는데, 이는 $\Delta$
---
-이산적인 상황에서 엔트로피 $H$는 **라벨 불변성(label invariance)** 을 만족하지만, 미분 엔트로피는 그렇지 않다. 라벨 불변성이란, 일대일 대응 $f$에 대해 $H(X) = H(f(X))$가 성립하는 성질을 말한다.
+이산적인 상황에서 엔트로피 $H$는 **라벨 불변성(label invariance)** 을 만족하지만, 미분 엔트로피는 그렇지 않다. 라벨 불변성이란, 일대일 대응 $f$에 대해 $H(X) = H(f(X))$가 성립하는 성질을 말한다.
> (예시)
->
+>
> 이산 확률변수 $X_1 \in \{1,2,3\}$에 대해
> $P(X_1 = 1) = 0.4$, $P(X_1 = 2) = 0.5$, $P(X_1 = 3) = 0.1$라 하자.
> 또한 $X_2 = 2X_1 \in \{2,4,6\}$이며
> $P(X_2 = 2) = 0.4$, $P(X_2 = 4) = 0.5$, $P(X_2 = 6) = 0.1$이다.
> 분포가 동일하므로 $H(X_1)$과 $H(X_2)$는 동일하다.
->
+>
> 그러나 연속 확률 변수에서는 그렇지 않다. 예를 들어 $U \sim \mathrm{Unif}(0,1)$이고 $V = 2U \sim \mathrm{Unif}(0,2)$일 때,
> $h(U) = \log(1-0) = \log 1 = 0$,
> $h(V) = \log(2-0) = \log 2 = 1$이다.
-또한, 미분 엔트로피는 음수가 될 수도 있다.
-예를 들어 $U \sim \mathrm{Unif}(0, 1/2)$라면 $h(U) = -\log 2$가 된다. 이는 미분 엔트로피가 $\log\Delta$ 항을 포함하여 정규화되기 때문이다.
+또한, 미분 엔트로피는 음수가 될 수도 있다.
+예를 들어 $U \sim \mathrm{Unif}(0, 1/2)$라면 $h(U) = -\log 2$가 된다. 이는 미분 엔트로피가 $\log\Delta$ 항을 포함하여 정규화되기 때문이다.
### 2.6.4 Properties of Differential Entropy
@@ -1022,13 +1133,12 @@ $$
### 2.6.6 Maximum Differential Entropy
-> **이산 변수에서 최대 엔트로피는 균등 분포에서 달성된다.**
->
+> **이산 변수에서 최대 엔트로피는 균등 분포에서 달성된다.**
+>
> 이산 확률 변수 $X \in \{1, 2, \dots, K\}$의 엔트로피는 다음 부등식을 만족한다.
> $H(X) \leq \log_2 K$
->
->등호는 균등 분포일 때 성립한다.
-
+>
+> 등호는 균등 분포일 때 성립한다.
> 2차 모멘트 제약 조건
@@ -1044,7 +1154,7 @@ $$
**정리65. 가우시안 분포가 최대 미분 엔트로피를 가진다.**
-*proof.*
+_proof._
$X$의 확률 밀도 함수를 $f_X$,
평균 0, 분산 $P$인 가우시안 확률 변수 $X' \sim \mathcal{N}(0, P)$의 pdf를
@@ -1053,8 +1163,7 @@ $$
g(x) = \frac{1}{\sqrt{2 \pi P}} \exp\left(-\frac{x^2}{2P}\right)
$$
-라고 하자.
-
+라고 하자.
KL 발산의 정의에 의해,
@@ -1078,7 +1187,6 @@ $$
\mathbb{E}_f \left[\log \frac{1}{g(X)}\right] = \log \sqrt{2 \pi P} + \frac{P}{2P} = \log \sqrt{2 \pi P} + \frac{1}{2} = h(g)
$$
-
$$
D(f \| g) = h(g) - h(f_X) \geq 0
$$
@@ -1089,4 +1197,4 @@ $$
h(g) \geq h(f_X)
$$
-$\therefore$ 2차 모멘트 제약 조건 하에서 가우시안 분포가 최대 미분 엔트로피를 가진다.
\ No newline at end of file
+$\therefore$ 2차 모멘트 제약 조건 하에서 가우시안 분포가 최대 미분 엔트로피를 가진다.
diff --git a/images/figure7.png b/images/figure7.png
new file mode 100644
index 0000000000..bb3784ede5
Binary files /dev/null and b/images/figure7.png differ