diff --git a/_posts/2025-08-04-02.Information-Theory.md b/_posts/2025-08-04-02.Information-Theory.md index 9d81980973..bb5e8d043c 100644 --- a/_posts/2025-08-04-02.Information-Theory.md +++ b/_posts/2025-08-04-02.Information-Theory.md @@ -36,65 +36,84 @@ long contents ..... ## 2.4 Jointly Distributed Random Variables 두 개의 확률변수 $X \in \mathcal{X},\ Y \in \mathcal{Y}$ 를 생각해보자. 이 확률 변수들의 결합 확률 분포(Joint Probability Distribution)의 확률 밀도 함수 (Probability mass function)는 다음과 같이 주어질 것이다. + $$ p_{X, Y}(x, y)= \mathrm{Pr} [X=x, Y=y] $$ + 이 결합확률분포의 확률밀도함수 $p_{X,Y}(x,y)$는 $X, Y$가 동시에 특정한 값 $x, y$를 가질 확률을 말한다. 이때 특정한 확률변수 하나에 대해서만 (여기서는, $X$) 그 확률을 고려해볼 수 있는데, 이를 주변 확률 분포(Marginal Probability Distribution)이라 한다. 이 값은 다음과 같이 목표가 되는 확률변수 $X=x$에서 나머지 확률변수에 대한 확률밀도함수값의 가중합으로 구해진다. + $$ p_{X} (x)= \sum_{y\in \mathcal{Y} }^{}{p_{X, Y} (x, y)} $$ -다르게 바라보면, 다음과 같이 가능한 $y \in \mathcal{Y}$ 에 대한 조건부 확률 $p_{X\mid Y}(x\mid Y)$의 기댓값으로도 생각할 수 있고 + +다르게 바라보면, 다음과 같이 가능한 $y \in \mathcal{Y}$ 에 대한 조건부 확률 $p_{X\mid Y}(x\mid Y)$의 기댓값으로도 생각할 수 있고 + $$ p_{X} (x) = \sum_{y\in \mathcal{Y} }^{}{p_{X\mid Y} (x\mid y)p_{Y} (y)} = \mathbb{E}[p_{X\mid Y} (x\mid Y)] $$ + 이는 $X$에 대한 주변 확률 분포(이하, Marginal)가 조건부 확률의 $Y-$평균으로 간주할 수 있음을 보여준다. --- 이제 결합확률분포를 이루는 두 확률변수 $X, Y$에 각각 임의의 함수$f: X\to \mathbb{R}, g: Y\to \mathbb{R}$ 을 씌웠을 때의 기댓값을 생각해보자. + $$ \begin{align} \mathbb{E}[f(X)+g(Y)] &= \sum_{x,y}^{}{[f(x)+g(y)]p_{X,Y}(x,y) } \\ &= \underbrace{ \sum_{x,y}^{}{f(x)p_{X,Y}(x,y) } }_{\text{term1} } + \underbrace{ \sum_{x,y}^{}{g(y)p_{X,Y}(x,y) } }_{\text{term2} } \end{align} $$ + 위 식에서 $\text{term1}$에서 $f$는 확률변수 $X$에만 의존하고, $\text{term2}$에서 $g$는 확률변수 $Y$에만 의존하므로 각 항을 확률변수 $Y, X$에 대한 marginal로 쓸 수 있다. + $$ \begin{align} \sum_{x,y}^{}{f(x)p_{X,Y}(x,y) }+\sum_{x,y}^{}{g(y)p_{X,Y}(x,y) } &= \sum_{x}^{}{f(x)p_{X} (x)} + \sum_{y}^{}{g(y)} p_{Y} (y) \\ &= \mathbb{E}[f(X)] +\mathbb{E}[g(Y)] \end{align} $$ + 이로써 확률변수 $X, Y$가 결합확률분포를 이룰 때, 각 변수에 대한 함수의 기댓값은 항상, 심지어 $X, Y$가 서로 독립이 아닐 때에도, $\mathbb{E}[f(X) + g(Y)] = \mathbb{E}[f(X)]+\mathbb{E}[g(Y)]$의 선형성을 띰을 알 수 있다. --- 결합확률분포는 또한 다음의 특징을 가진다. + $$ p_{X,Y} (x,y)= p_{X} (x)\cdot p_{Y} (y) \iff X \perp\mkern-10mu\perp Y $$ + $\impliedby$ 방향은 독립의 정의에 의해 자연스럽게 도출된다. 따라서 $\implies$ 방향을 증명하기 위해, $\phi_{1}: X\to \mathbb{R}, \phi_{2}Y\to\mathbb{R}$인 두 함수 $\phi_{1}, \phi_{2}$에 대해 + $$ p_{X, Y} (x, y)= \phi_{1} (x) \cdot\ \phi_{2} (y) $$ + 를 만족한다고 가정하자. $X, Y$ 각각의 marginal을 조건부 확률로 나타내면, + $$ \begin{align} p_{X} (x) = \sum_{y}^{}{p_{X, Y} (x, y)} = \sum_{y}^{}{\phi_{1} (x)\cdot \phi_{2} (y)} = \phi_{1} (x)\cdot \sum_{y}^{}{\phi_{2} (y)} = \phi_{1} (x) \cdot C_{Y} \\ p_{Y} (y) = \sum_{x}^{}{p_{X, Y} (x, y)} = \sum_{x}^{}{\phi_{1} (x)\cdot \phi_{2} (y)} = \phi_{2} (y)\cdot \sum_{x}^{}{\phi_{1} (x)} = \phi_{2} (y) \cdot C_{X} \end{align} $$ + 이때, 전체 결합확률분포의 정규화 조건 $\sum_{}^{}{p_{X, Y}(x, y)}= 1$에 따라 + $$ \sum_{X, Y}^{}{p_{X, Y} (x, y)} = \sum_{x}^{}{}\sum_{y}^{}{} \phi_{1}(x)\cdot \phi_{2} (y) = \left( \sum_{x}^{}{\phi_{1} (x)} \right) \cdot \left( \sum_{y}^{}{\phi_{2} (y)} \right) = C_{X} \cdot C_{Y} = 1 $$ + $$ \therefore p_{X, Y} (x, y)= \cfrac{1}{C_{X} \cdot C_{Y} }\cdot \phi_{1} (x)\cdot \phi_{2} (y) = \cfrac{\phi_{1}(x)}{C_{X} }\cdot \cfrac{\phi_{2} (y)}{C_{Y} } = p_{X} (x)\cdot p_{Y} (y) $$ + $X, Y$가 서로 독립임을 알 수 있다. ### 2.4.1 Joint Entropy @@ -249,7 +268,7 @@ $H(Y4\mid Y1=1)$은 $3/4\log4/3+1/4\log4$이다. 상호 정보량 설명 다이어그램

->**상호 정보량(Mutual Information)이란?** +> **상호 정보량(Mutual Information)이란?** 상호 정보량은 엔트로피와 조건부 엔트로피의 차이로 정의된다. @@ -269,7 +288,7 @@ $$ --- -만약 $X$와 $Y$가 서로 **독립**이라면, 위 도식 혹은 정의에 의해 $$I(X; Y) = 0$$임을 보일 수 있다. +만약 $X$와 $Y$가 서로 **독립**이라면, 위 도식 혹은 정의에 의해 $$I(X; Y) = 0$$임을 보일 수 있다. 또한, $I(X; Y) = 0$이면 $X$와 $Y$는 독립이다. 상호 정보량은 다음과 같이 **KL divergence**로도 표현된다. @@ -285,31 +304,39 @@ $I(X; Y) = 0$이라면, $p_{X,Y} = p_X p_Y$가 되어 $X$와 $Y$는 독립이 **정리 36 (데이터 처리 부등식 I)** **정리.** $f$가 결정론적 함수라면, + $$ H(X) \ge H(f(X)) $$ + 이다. -**증명.** +**증명.** + $$ H(X, f(X)) = H(X) + H(f(X)\mid X) = H(X) $$ + 또한, + $$ H(X, f(X)) = H(f(X)) + H(X\mid f(X)) \ge H(f(X)) $$ + 따라서 $H(X) \ge H(f(X))$이다. ($f$가 일대일 대응이고 전사이면 역함수가 존재하므로 이 경우에는 $H(X)=H(f(X))$.) --- **정리 37 (Mutual information은 대칭적이다)** -**정리.** +**정리.** + $$ I(X;Y) = I(Y;X) $$ -**증명.** +**증명.** + $$ \begin{aligned} I(X;Y) &= H(X) - H(X\mid Y) \\ @@ -322,12 +349,14 @@ $$ --- **정리 38 (Mutual information은 비음수이다)** -**정리.** +**정리.** + $$ I(X;Y) \ge 0 $$ -**증명.** +**증명.** + $$ \begin{aligned} H(X) - H(X\mid Y) @@ -335,9 +364,10 @@ H(X) - H(X\mid Y) &= \mathbb{E}\left[\log \frac{p_{X\mid Y}(X\mid Y)}{p_X(X)}\right] \\ &= \mathbb{E}\left[\log \frac{p_{X,Y}(X,Y)}{p_X(X)p_Y(Y)}\right] \\ &= \sum_{x,y} p_{X,Y}(x,y) \log \frac{p_{X,Y}(x,y)}{p_X(x)p_Y(y)} \\ -&= D\!\left(p_{X,Y} \,\|\, p_X p_Y\right) \ge 0 +&= D\!\left(p_{X,Y} \,\|\, p_X p_Y\right) \ge 0 \end{aligned} $$ + 따라서 $I(X;Y) = D(p_{X,Y}\,\|\,p_X p_Y) \ge 0$. 여기서 $p_X p_Y$는 $X$와 $Y$가 각각의 주변분포 $p_X, p_Y$를 가지지만 서로 독립인 $(X,Y)$에 대한 분포이다. 또한 부등식 $H(X) \ge H(X\mid Y)$는 “조건부를 취하면 (불확실성이) 줄어들거나 유지된다”는 해석을 가질 수 있다. @@ -346,11 +376,13 @@ $$ **정리 39 (데이터 처리 부등식 II)** **정리.** 임의의 함수 $f: \mathcal{X} \to \mathbb{R}$에 대해 다음이 성립한다: + $$ I(X;Y) \ge I(f(X);Y) $$ -**증명.** +**증명.** + $$ \begin{aligned} I(X;Y) &= H(Y) - H(Y\mid X) \\ @@ -362,21 +394,25 @@ $$ **일반화.** $X - Y - Z$가 마르코프 체인(또는 $X$와 $Z$가 $Y$를 조건으로 주었을 때 조건부 독립)일 때, 다음이 서로 동치이다: -1. $X - Y - Z \iff X$와 $Z$가 $Y$를 주었을 때 독립이다. $(X \perp Z \mid Y)$ -2. $Y$가 알려져 있을 때 $X$는 $Z$를 추정하는 데 쓸모없다. -3. 모든 $x,y,z$에 대해 $p_{Z\mid X,Y}(z\mid x,y) = p_{Z\mid Y}(z\mid y)$. + +1. $X - Y - Z \iff X$와 $Z$가 $Y$를 주었을 때 독립이다. $(X \perp Z \mid Y)$ +2. $Y$가 알려져 있을 때 $X$는 $Z$를 추정하는 데 쓸모없다. +3. 모든 $x,y,z$에 대해 $p_{Z\mid X,Y}(z\mid x,y) = p_{Z\mid Y}(z\mid y)$. --- -**정리 40 (데이터 처리 부등식 III)** +**정리 40 (데이터 처리 부등식 III)** **정리.** 만약 $X - Y - Z$가 마르코프 체인을 이룬다면, + $$ I(X;Z) \le I(Y;Z) $$ + 또는 대칭적으로 $I(Z;X) \le I(Z;Y)$. -**증명.** +**증명.** + $$ \begin{aligned} I(Y;Z) &= H(Z) - H(Z\mid Y) \\ @@ -385,6 +421,7 @@ I(Y;Z) &= H(Z) - H(Z\mid Y) \\ &= I(X;Z) \end{aligned} $$ + 따라서 $I(Y;Z) \ge I(X;Z)$, 즉 $I(Z;Y) \ge I(Z;X)$이다. **문제 29.(b)** @@ -396,30 +433,37 @@ $X, Y, Z$가 결합 확률 분포를 가지는 임의의 확률 변수일 때, **1. 체인 룰(chain rule) 적용** 상호 정보의 체인 룰에 따르면: + $$ I(X, Y; Z) = I(X; Z) + I(Y; Z \mid X). $$ + 이는 “$X, Y$가 합쳐질 때 $Z$와 주고받는 정보량”을 먼저 $X$가 주는 정보량과, $X$를 알고 난 뒤 $Y$가 더 주는 추가 정보량으로 분해한 식이다. **2. 조건부 상호 정보의 비음성** -항상 +항상 + $$ I(Y; Z \mid X) \ge 0 $$ + 이다. (KL 발산 형태로 증명할 수 있다.) **3. 부등식 결론** 따라서 + $$ I(X, Y; Z) = I(X; Z) + I(Y; Z \mid X) \ge I(X; Z). $$ **4. 등호 성립 조건** -등호 $I(X, Y; Z) = I(X; Z)$가 되려면 +등호 $I(X, Y; Z) = I(X; Z)$가 되려면 + $$ I(Y; Z \mid X) = 0 \iff Y \perp Z \mid X $$ + 이어야 한다. 즉 “$X$를 조건으로 두었을 때 $Y$와 $Z$가 독립”이어야 한다. 이 역시 $Y \to X \to Z$ 형태의 마르코프 사슬과 동치이다. @@ -428,44 +472,57 @@ $$ **문제 31.** 임의의 결정론적 함수 $g$에 대하여, + $$ H(X \mid g(Y)) = H(X \mid Y) $$ + 이 성립하려면 어떤 조건이 필요한가? **풀이** **1. 데이터 처리 부등식 I (조건부 형태)** 이미 알고 있는 바: + $$ H(X \mid g(Y)) \ge H(X \mid Y), $$ + 왜냐하면 “$Y$를 알면 $g(Y)$를 알 수 있지만, $g(Y)$를 안다고 해서 항상 $Y$가 복원되지는 않으므로” 불확실성이 더 작아지거나 같기 때문이다. **2. 등호 조건 분석** + $$ H(X \mid g(Y)) = H(X \mid Y) $$ + 일 때, 양쪽 사이에 끼어 있는 + $$ H(X \mid Y) - H(X \mid g(Y)) = I(X;Y \mid g(Y)) = 0 $$ + 이다. 즉, “$g(Y)$를 조건으로 $X$와 $Y$가 독립”이어야 한다. **3. 마르코프 사슬 해석** + $$ I(X;Y \mid g(Y)) = 0 \iff X \perp Y \mid g(Y). $$ -이는 바로 + +이는 바로 + $$ X \longrightarrow g(Y) \longrightarrow Y $$ + 꼴의 마르코프 사슬 형태가 성립함을 뜻한다. **4. 특수 사례** -- $g$가 일대일 대응(가역)이면 당연히 $g(Y) \leftrightarrow Y$ 양방향 복원이 가능하므로 등호 성립. -- 또 $X$와 $Y$가 본래 독립이라도 + +- $g$가 일대일 대응(가역)이면 당연히 $g(Y) \leftrightarrow Y$ 양방향 복원이 가능하므로 등호 성립. +- 또 $X$와 $Y$가 본래 독립이라도 $$ H(X \mid g(Y)) = H(X) = H(X \mid Y) $$ @@ -483,16 +540,19 @@ $$ **1. 데이터 처리 부등식 II** 이것은 4.4절에서 나온 정리와 같다. 임의의 결정론적 함수 $g$에 대하여: + $$ I(g(X); Y) \le I(X; Y). $$ **2. 직관** -- $X$가 $Y$에 갖는 정보량이 $I(X;Y)$이고, -- $X$를 $g$로 가공한 $g(X)$는 $X$보다 “덜 상세”(또는 같음) → + +- $X$가 $Y$에 갖는 정보량이 $I(X;Y)$이고, +- $X$를 $g$로 가공한 $g(X)$는 $X$보다 “덜 상세”(또는 같음) → - $g(X)$가 $Y$에 제공할 수 있는 정보도 당연히 $I(X;Y)$ 이하여야 한다. **3. 형식적 증명** + $$ \begin{aligned} I(g(X); Y) &= H(Y) - H(Y \mid g(X)) \\ @@ -502,10 +562,12 @@ I(g(X); Y) &= H(Y) - H(Y \mid g(X)) \\ $$ **4. 등호 성립 조건** -등호가 되려면 +등호가 되려면 + $$ H(Y \mid g(X)) = H(Y \mid X) \iff I(Y; X \mid g(X)) = 0 \iff Y \perp X \mid g(X). $$ + 즉 “$g(X)$를 조건으로 $X$와 $Y$가 독립”일 때 등호가 된다. 다시 말해 $g(X)$를 기준으로 $X$와 $Y$는 더 이상의 상호 정보(조건부)가 없다. @@ -730,21 +792,72 @@ i.i.d. ←────────────|─────────── ### 2.5.3 kth Order Markov Process 확률 과정 X에 대해, + $$ P_{X_i | X^{i-1}}(x_i \mid x^{i-1}) = P_{X_i | X_{i-k}^{i-1}}(x_i \mid x_{i-k}^{i-1}), $$ + 이 성립하는 시퀀스는 k차 마르코프 과정(kth Order Markov Process)를 따른다. + 즉, k차 마르코프 과정을 따르는 시퀀스에 대해서 + $$ P_{X^n}(x^n) = \prod_{i=1}^{n} P_{X_i \mid X_{i-k}^{i-1}}(x_i \mid x_{i-k}^{i-1}) $$ + 이 성립한다. ### 2.5.4 Stationary Distribution +stationary Distribution + +**그림 7 설명** + +- **i.i.d(독립 동일 분포) 가정**: 시퀀스 내 각 확률변수가 서로 완전히 독립이며 상관관계가 없음. +- **실제(practical) 환경**: 시퀀스 내 변수들 간의 상관관계가 높음. +- **정상 분포(stationary distribution)**: i.i.d보다 현실을 더 잘 근사하며, $k$차 마르코프 과정보다 현실 상황에 더 가까움. + +--- + +**정의 45. 정상(stationary) 과정** +랜덤 프로세스 $X_1, X_2, \dots, X_n$이 다음을 만족하면 정상 과정이라 한다. + +$$ +P_{X_i^{i+n}} = P_{X_{i+1}^{i+n+1}}, \quad \forall i, n +$$ + +- 임의의 $n$-튜플을 $i$번째 시점에서 시작해도, $(i+1)$번째 시점에서 시작해도 분포가 동일하다. +- 확률변수의 분포가 **시간에 의존하지 않는다**. + +여기서 + +- $P_{X_i^n}$ : $i$번째 시점부터 $n$개의 변수를 포함하는 분포 +- $P_{X_{i+1}^n}$ : $(i+1)$번째 시점부터 $n$개의 변수를 포함하는 분포 + +--- + +**예제 46. 랜덤 워크(Random Walk)** + +$$ +X_0 = 0,\quad X_n = X_{n-1} \pm 1 +$$ + +- $X_1$의 가능한 값: $\{0, -1\}$ +- $X_2$의 가능한 값: $\{2, 0, -2\}$ + +시간이 지남에 따라 값의 분포가 변하고, $X_n$이 $X_0$보다 "더 랜덤"해진다. +⇒ **정상이 아님**. + +--- + +**비고** + +- 모든 마르코프 과정이 정상인 것은 아니다. +- 정상 과정은 무한 의존성(infinite dependency)을 가질 수 있다. + ### 2.5.5 Stationary Markov Process **예제 47.** 초기 분포가 $P(A) = P(B) = P(C) = \frac{1}{3}$인 다음 1차 마르코프 과정을 생각해보자. @@ -772,7 +885,7 @@ $$ --- -**예제 50.** $p_{X_i \mid X_{i-1}}(1\mid0) = p_{X_i \mid X_{i-1}}(0 \mid 1) = \alpha < \frac{1}{2}, p_{X_i \mid X_{i-1}}(0 \mid 0) = p_{X_i \mid X_{i-1}}(1 \mid 1) = 1 - \alpha$ 인 이항 확률 과정을 생각해보자. 이 때 전이 행렬은 다음과 같다. +**예제 50.** $p_{X_i \mid X_{i-1}}(1\mid0) = p_{X_i \mid X_{i-1}}(0 \mid 1) = \alpha < \frac{1}{2}, p_{X_i \mid X_{i-1}}(0 \mid 0) = p_{X_i \mid X_{i-1}}(1 \mid 1) = 1 - \alpha$ 인 이항 확률 과정을 생각해보자. 이 때 전이 행렬은 다음과 같다. $$ P = \begin{pmatrix} @@ -805,7 +918,7 @@ $$ [P\pi^\star]_i = \frac{1}{n} \sum_{j=1}^n P_{ji} $$ -전이 행렬에서 한 행의 합은 확률 분포이므로 항상 1이 되어 $[P\pi^\star]_i = 1/n$. +전이 행렬에서 한 행의 합은 확률 분포이므로 항상 1이 되어 $[P\pi^\star]_i = 1/n$. 따라서 $P \pi^\star = \pi^\star$, $\pi^\star$는 정상 분포이다. --- @@ -816,7 +929,6 @@ $$ \pi_\infty = \lim_{t \to \infty} \pi_t $$ - **정리 52.** 극한 분포는 정상 분포여야 한다. 풀이: $\pi_{t+1} = P \pi_t$ 의 양변에 극한을 취하여 쉽게 증명 가능하다. @@ -825,7 +937,7 @@ $$ $X_0 \sim p_0$라 할 때, 다음과 같은 전이 행렬을 가진 1차 마르코프 과정을 생각해보자. $$ -P = +P = \begin{bmatrix} 1 - \epsilon & \epsilon/(n-1) & \cdots & \epsilon/(n-1) \\ \epsilon/(n-1) & 1 - \epsilon & \cdots & \epsilon/(n-1) \\ @@ -841,7 +953,6 @@ $$ X_t \approx f_\theta(X_{t+1}, t) $$ - 그렇다면 우리는 균일 분포로부터 $\tilde X_N$을 샘플링한 후, $f_\theta(\cdot, t)$ 를 재귀적으로 적용하여 $\tilde X_0$ 를 얻을 수 있다. 이 $\tilde X_0$는 $X_0 \sim p_0$와 유사하게 동작할 것으로 기대할 수 있으며, 이것이 **생성적 확산 모델(generative diffusion process)**의 핵심 아이디어이다. ## 2.6 Continuous Random Variables @@ -863,7 +974,7 @@ $$ $$ \begin{aligned} -D(f \parallel g) +D(f \parallel g) &= \mathbb{E}_f \left[ \log \frac{f(X)}{g(X)} \right] \\ &= \int f(x) \cdot \log \frac{f(x)}{g(x)} \, dx \\ &= - \int f(x) \cdot \log \frac{g(x)}{f(x)} \, dx \\ @@ -880,7 +991,7 @@ $-\log$는 아래로 볼록(convex)인 함수이므로, Jensen 부등식을 위 $$ \begin{aligned} -I(X; Y) +I(X; Y) &= \mathbb{E} \left[ \log \frac{f_{X,Y}(X,Y)}{f_X(X) f_Y(Y)} \right] \\ &= D\left(f_{X,Y} \parallel f_X f_Y \right) \end{aligned} @@ -933,22 +1044,22 @@ $\Delta$가 작아질수록 $H(X^\Delta)$는 더 커지는데, 이는 $\Delta$ --- -이산적인 상황에서 엔트로피 $H$는 **라벨 불변성(label invariance)** 을 만족하지만, 미분 엔트로피는 그렇지 않다. 라벨 불변성이란, 일대일 대응 $f$에 대해 $H(X) = H(f(X))$가 성립하는 성질을 말한다. +이산적인 상황에서 엔트로피 $H$는 **라벨 불변성(label invariance)** 을 만족하지만, 미분 엔트로피는 그렇지 않다. 라벨 불변성이란, 일대일 대응 $f$에 대해 $H(X) = H(f(X))$가 성립하는 성질을 말한다. > (예시) -> +> > 이산 확률변수 $X_1 \in \{1,2,3\}$에 대해 > $P(X_1 = 1) = 0.4$, $P(X_1 = 2) = 0.5$, $P(X_1 = 3) = 0.1$라 하자. > 또한 $X_2 = 2X_1 \in \{2,4,6\}$이며 > $P(X_2 = 2) = 0.4$, $P(X_2 = 4) = 0.5$, $P(X_2 = 6) = 0.1$이다. > 분포가 동일하므로 $H(X_1)$과 $H(X_2)$는 동일하다. -> +> > 그러나 연속 확률 변수에서는 그렇지 않다. 예를 들어 $U \sim \mathrm{Unif}(0,1)$이고 $V = 2U \sim \mathrm{Unif}(0,2)$일 때, > $h(U) = \log(1-0) = \log 1 = 0$, > $h(V) = \log(2-0) = \log 2 = 1$이다. -또한, 미분 엔트로피는 음수가 될 수도 있다. -예를 들어 $U \sim \mathrm{Unif}(0, 1/2)$라면 $h(U) = -\log 2$가 된다. 이는 미분 엔트로피가 $\log\Delta$ 항을 포함하여 정규화되기 때문이다. +또한, 미분 엔트로피는 음수가 될 수도 있다. +예를 들어 $U \sim \mathrm{Unif}(0, 1/2)$라면 $h(U) = -\log 2$가 된다. 이는 미분 엔트로피가 $\log\Delta$ 항을 포함하여 정규화되기 때문이다. ### 2.6.4 Properties of Differential Entropy @@ -1022,13 +1133,12 @@ $$ ### 2.6.6 Maximum Differential Entropy -> **이산 변수에서 최대 엔트로피는 균등 분포에서 달성된다.** -> +> **이산 변수에서 최대 엔트로피는 균등 분포에서 달성된다.** +> > 이산 확률 변수 $X \in \{1, 2, \dots, K\}$의 엔트로피는 다음 부등식을 만족한다. > $H(X) \leq \log_2 K$ -> ->등호는 균등 분포일 때 성립한다. - +> +> 등호는 균등 분포일 때 성립한다. > 2차 모멘트 제약 조건 @@ -1044,7 +1154,7 @@ $$ **정리65. 가우시안 분포가 최대 미분 엔트로피를 가진다.** -*proof.* +_proof._ $X$의 확률 밀도 함수를 $f_X$, 평균 0, 분산 $P$인 가우시안 확률 변수 $X' \sim \mathcal{N}(0, P)$의 pdf를 @@ -1053,8 +1163,7 @@ $$ g(x) = \frac{1}{\sqrt{2 \pi P}} \exp\left(-\frac{x^2}{2P}\right) $$ -라고 하자. - +라고 하자. KL 발산의 정의에 의해, @@ -1078,7 +1187,6 @@ $$ \mathbb{E}_f \left[\log \frac{1}{g(X)}\right] = \log \sqrt{2 \pi P} + \frac{P}{2P} = \log \sqrt{2 \pi P} + \frac{1}{2} = h(g) $$ - $$ D(f \| g) = h(g) - h(f_X) \geq 0 $$ @@ -1089,4 +1197,4 @@ $$ h(g) \geq h(f_X) $$ -$\therefore$ 2차 모멘트 제약 조건 하에서 가우시안 분포가 최대 미분 엔트로피를 가진다. \ No newline at end of file +$\therefore$ 2차 모멘트 제약 조건 하에서 가우시안 분포가 최대 미분 엔트로피를 가진다. diff --git a/images/figure7.png b/images/figure7.png new file mode 100644 index 0000000000..bb3784ede5 Binary files /dev/null and b/images/figure7.png differ