核心思想:信息是用來(lái)消除不確定性的。事件發(fā)生的可能性越?。ㄔ揭馔猓l(fā)生時(shí)帶來(lái)的信息量就越大。
1. 信息量
定義: 一個(gè)離散事件 x 發(fā)生所帶來(lái)的信息量 I(x),定義為該事件發(fā)生概率 p(x) 的倒數(shù)的對(duì)數(shù)(通常以2為底)。
公式: I(x) = log?(1 / p(x)) = -log?(p(x))
單位: 比特 (bit),因?yàn)榈讛?shù)是2。如果用自然對(duì)數(shù)(底數(shù)e),單位是奈特(nat);如果用10為底,單位是哈特萊(hartley)。比特是最常用的。
直觀解釋
概率越低,信息量越大: 想象有人告訴你“明天太陽(yáng)會(huì)從東方升起”。這個(gè)事件概率 p(日出) ≈ 1,所以 I(日出) = -log?(1) = 0 比特。這幾乎沒(méi)有帶來(lái)任何新信息,因?yàn)槟阍缇痛_定了。相反,如果有人告訴你“明天會(huì)下雪”(假設(shè)你在一個(gè)很少下雪的地方),這個(gè)事件概率 p(下雪) 很小,比如 0.01,那么 I(下雪) = -log?(0.01) ≈ 6.64 比特。這個(gè)信息量很大,因?yàn)樗司薮蟮牟淮_定性(明天不下雪的可能性是99%)。
對(duì)數(shù)的作用
確保信息量是可加的。如果兩個(gè)獨(dú)立事件 x 和 y 同時(shí)發(fā)生,它們帶來(lái)的總信息量 I(x, y) = I(x) + I(y)。因?yàn)?span> p(x, y) = p(x)*p(y),所以 I(x, y) = -log?(p(x)p(y)) = -log?(p(x)) - log?(p(y)) = I(x) + I(y)。將概率的乘法關(guān)系轉(zhuǎn)化為信息量的加法關(guān)系,這在數(shù)學(xué)處理上非常方便。將 [0, 1] 的概率范圍映射到 [0, ∞) 的信息量范圍。
2. 信息熵
信息量描述的是單個(gè)事件帶來(lái)的信息。信息熵描述的是整個(gè)信源(一個(gè)能產(chǎn)生離散消息的系統(tǒng)或隨機(jī)變量)的平均不確定性或平均信息量。
定義: 離散隨機(jī)變量 X,有有限個(gè)可能的取值 {x?, x?, ..., xn},對(duì)應(yīng)的概率分布為 P(X) = {p(x?), p(x?), ..., p(xn)},且滿(mǎn)足 Σ p(xi) = 1。隨機(jī)變量 X 的信息熵 H(X) 定義為 X 所有可能取值的信息量 I(xi) 在其概率分布 P(X) 上的期望值(平均值)。
公式: H(X) = E[I(X)] = Σ [p(xi) * I(xi)] = Σ [p(xi) * (-log?(p(xi)))] = - Σ [p(xi) * log?(p(xi))] (求和范圍 i = 1 到 n)
單位: 比特/符號(hào) (bits per symbol)(或奈特/符號(hào)、哈特萊/符號(hào))。
直觀解釋
熵 H(X) 度量了在觀察到 X 的實(shí)際取值之前,我們對(duì) X 取值結(jié)果的平均不確定程度。熵越大,意味著信源的平均不確定性越高,每次觀察能帶來(lái)的平均信息量也越大。 熵 H(X) 也代表了信源 X 每產(chǎn)生一個(gè)符號(hào)(或發(fā)生一次事件)所能提供的平均信息量。它是信息量的概率加權(quán)平均。
概率分布越均勻,熵越大: 想象兩個(gè)信源:信源A(均勻硬幣): P(正面)=0.5, P(反面)=0.5。
H(A) = - [0.5 * log?(0.5) + 0.5 * log?(0.5)] = - [0.5 * (-1) + 0.5 * (-1)] = - [-0.5 - 0.5] = - [-1] = 1 比特。
信源B(作弊硬幣): P(正面)=0.9, P(反面)=0.1。
H(B) = - [0.9 * log?(0.9) + 0.1 * log?(0.1)] ≈ - [0.9 * (-0.152) + 0.1 * (-3.322)] ≈ - [-0.1368 - 0.3322] ≈ - [-0.469] ≈ 0.469 比特。
信源A完全公平,結(jié)果最難預(yù)測(cè),不確定性最高,熵最大(1比特)。信源B高度偏向正面,結(jié)果更容易預(yù)測(cè)(猜正面大概率猜對(duì)),不確定性較低,熵較小(0.469比特)。
概率分布越集中(越確定),熵越?。? 極端情況,如果 P(xk)=1 (某個(gè)事件必然發(fā)生),其他 p(xi)=0 (i≠k),則 H(X) = - [1 * log?(1) + 0 * log?(0) + ...] = -[1 * 0 + 0 * ...] = 0 比特。完全沒(méi)有不確定性。
編碼效率的極限: 熵具有極其重要的實(shí)際意義。香農(nóng)的無(wú)噪聲編碼定理指出:熵 H(X) 是離散無(wú)記憶信源 X 進(jìn)行無(wú)損壓縮時(shí),平均每個(gè)符號(hào)所需的最短碼長(zhǎng)的理論下限。 也就是說(shuō),無(wú)論使用多么精巧的編碼方案(如霍夫曼編碼),壓縮后平均每個(gè)符號(hào)的比特?cái)?shù)不可能低于 H(X) 比特。在上面硬幣的例子中,信源A(熵1比特)無(wú)法被壓縮到平均每符號(hào)少于1比特(公平硬幣的結(jié)果確實(shí)需要1比特來(lái)表示,正面=0,反面=1)。信源B(熵≈0.469比特)理論上可以用小于1比特/符號(hào)的平均長(zhǎng)度進(jìn)行無(wú)損編碼(例如,利用其偏向性,用更短的碼字表示更常出現(xiàn)的正面)。
從離散消息角度總結(jié)
單個(gè)消息(事件): 事件 x 發(fā)生的信息量 I(x) = -log?(p(x))。它量化了該事件發(fā)生所消除的不確定性。概率越小,信息量越大。
信源(消息產(chǎn)生器): 離散隨機(jī)變量 X(代表信源)的信息熵 H(X) = - Σ p(xi) log?(p(xi))。它量化了整個(gè)信源的平均不確定性或平均每產(chǎn)生一個(gè)符號(hào)(消息)所能提供的平均信息量。
關(guān)鍵關(guān)系: 熵 H(X) 是信息量 I(x) 在信源所有可能符號(hào)上的期望值(平均值)。
核心意義: 信息熵給出了對(duì)離散信源產(chǎn)生的消息進(jìn)行最有效表示(無(wú)損壓縮)所需的最小平均比特?cái)?shù)。它是數(shù)據(jù)壓縮的理論極限。
依賴(lài)因素: 信息熵只依賴(lài)于信源符號(hào)的概率分布 P(X),與符號(hào)本身的具體含義無(wú)關(guān)。