信(xin)息增益
時間:2025-01-15 來源:華(hua)清遠見
一、信息增益的定義
信息增益(Information Gain)是決策樹(shu)算法中用(yong)于特征選(xuan)擇(ze)的一種重要度(du)量標準。它衡量了(le)在(zai)使用(yong)某個特征進行數據集(ji)劃分之后,數據集(ji)不確定性(或熵)的減少程度(du)。
簡單來說,信(xin)息增益(yi)表示了由于特征(zheng)的(de)存在而使(shi)得數(shu)據(ju)集分類變(bian)得更(geng)加明(ming)確(que)的(de)信(xin)息量。
具體來說(shuo),信息增益的定義為:
信息增益=父節點的信息熵−子節點的加權平均信息熵
其中:
l 父節(jie)點的(de)信息熵(shang)是指在使用特征進行(xing)劃分之前,數據集整(zheng)體的(de)不確定(ding)性(xing)或混亂(luan)程度,通常(chang)使用香(xiang)農熵(shang)(Shannon Entropy)來衡(heng)量。
l 子節點的(de)加(jia)權平均信息(xi)熵(shang)是指在(zai)使用(yong)特征進(jin)行劃(hua)分(fen)之后(hou),各個子數(shu)據(ju)集(即劃(hua)分(fen)后(hou)的(de)各個分(fen)支(zhi))的(de)信息(xi)熵(shang)的(de)加(jia)權平均值(zhi),權重通常根(gen)據(ju)子數(shu)據(ju)集的(de)大小來確定。
信息增益越大,說明使用該特(te)征進行劃分(fen)后,數據(ju)集的不確(que)定(ding)性(xing)(xing)減(jian)少得越多,即該特(te)征對分(fen)類(lei)的貢獻越大。因此(ci),在構(gou)建決(jue)策樹時,通常(chang)會選擇(ze)信息增益最(zui)大的特(te)征作為當前節點的分(fen)裂特(te)征,以(yi)最(zui)大化(hua)地減(jian)少數據(ju)集的不確(que)定(ding)性(xing)(xing),從而(er)提高(gao)分(fen)類(lei)的準(zhun)確(que)性(xing)(xing)。
二、信息增益的計算步驟
1. 計算父節點的信息熵(shang):
使(shi)用訓練集中所有樣本的(de)類別信息(xi)計算父節(jie)點的(de)信息(xi)熵(shang)。信息(xi)熵(shang)是用于度(du)量一(yi)個系統的(de)不確定性或(huo)無序程度(du)的(de)概念。計算公式為(wei):

其(qi)中(zhong),H(D)是(shi)數據集 DD 的(de)熵,pi是(shi)數據集 D中(zhong)第 i類(lei)的(de)概率,k 是(shi)類(lei)別的(de)總數。
2. 計算特(te)征的條件熵:
對于每(mei)個可能(neng)的(de)(de)分裂特征,計(ji)算(suan)該特征條件下(xia)的(de)(de)信息(xi)熵。這涉及將訓練集(ji)(ji)中的(de)(de)樣本劃分成不同的(de)(de)子集(ji)(ji),并計(ji)算(suan)每(mei)個子集(ji)(ji)的(de)(de)信息(xi)熵。然后(hou),根據每(mei)個子集(ji)(ji)在數據集(ji)(ji)中的(de)(de)比(bi)例,計(ji)算(suan)加權平均的(de)(de)條件熵。計(ji)算(suan)公(gong)式為:

其中,H(D∣A)是(shi)在特(te)征 A 的(de)條(tiao)件(jian)下(xia)的(de)條(tiao)件(jian)熵,Values(A)是(shi)特(te)征 A 的(de)所(suo)有取(qu)值,DvDv是(shi) 在特(te)征 A的(de)取(qu)值 v上(shang)的(de)數(shu)據子集,∣Dv∣和(he) ∣D∣分(fen)別是(shi)數(shu)據子集 Dv和(he)數(shu)據集 D的(de)大 小。
3. 計算信(xin)息增益:
信息增益是父節(jie)點(dian)信息熵(shang)減去(qu)由于(yu)特(te)征分裂而導致的(de)子節(jie)點(dian)的(de)加權平均信息熵(shang)。計算公式為:

其中,IG(D,A) 是在(zai)特(te)征 A上的信息(xi)增(zeng)益。
三、信息增益在構建決策樹時的重要性
(一)特征選擇:
在構建決策樹時,信息(xi)增益用于選擇最(zui)優特(te)征來劃分數據(ju)集。
對(dui)于每個節(jie)點(dian)(dian),計算所有(you)候選特(te)(te)征(zheng)的(de)(de)信(xin)息增益(yi),并選擇信(xin)息增益(yi)最大的(de)(de)特(te)(te)征(zheng)作為該節(jie)點(dian)(dian)的(de)(de)分裂(lie)特(te)(te)征(zheng)。這可以確保每個分裂(lie)都能最大程度(du)地減少數據集的(de)(de)不(bu)確定(ding)性(xing),從而提高分類的(de)(de)準確性(xing)。
(二)避免過擬合:
信息增(zeng)益不僅考慮了特征對數據(ju)集(ji)分類能力(li)的提升,還通過信
息熵和條件熵的(de)計算(suan),隱含地考慮了數(shu)據的(de)純度。因此(ci),使用信息增益作(zuo)為特(te)征(zheng)選(xuan)擇的(de)標準(zhun),有助于避免選(xuan)擇過于復雜的(de)特(te)征(zheng),從(cong)而減(jian)少(shao)過擬合的(de)風險。
(三(san))構(gou)建(jian)高效的決策樹:
通過信息增益進行特征選擇,可以逐層(ceng)分裂數據(ju)集,使得(de)每個(ge)
葉節點盡(jin)可能(neng)純凈。這有助于構(gou)建(jian)更(geng)加簡潔和高效的(de)(de)決策樹模型(xing),提(ti)高分類和預(yu)測的(de)(de)速度(du)和準確性。
總(zong)之,信息(xi)增益在(zai)決(jue)策樹算法(fa)中扮演著至關重要的(de)角(jiao)色,它通過(guo)量化特征(zheng)對數據集分類(lei)能力提升的(de)貢獻程度,指導特征(zheng)選擇過(guo)程,從而構建(jian)出高效(xiao)且(qie)準(zhun)確的(de)決(jue)策樹模型。
四(si)、信息增益的計算(suan)示例(li)
假設我們有一個關于是(shi)否(fou)出去玩的決策樹數據(ju)集,其中(zhong)包含以下屬性:Outlook(天(tian)氣狀況)、Temperature(溫(wen)度)、Humidity(濕度)和Windy(是(shi)否(fou)刮(gua)風),目標(biao)變量(liang)是(shi)Play(是(shi)否(fou)出去玩)。
首先,我們計算整個數據集(ji)的信息熵(原(yuan)始(shi)狀態的信息量):數據集(ji)包(bao)含14個實例,其中9個正例(yes)和(he)5個負例(no)。

接下來,我們使(shi)用(yong)Outlook屬性(xing)來劃(hua)分數(shu)據集,并計算劃(hua)分后的信息熵(shang)。Outlook屬性(xing)有(you)三個取值(zhi):sunny、overcast和rain。
1. 對于Outlook=sunny,有5個實(shi)例,其中2個正(zheng)例和(he)3個負例:

2. 對于(yu)Outlook=overcast,有4個實例(li),全部是正例(li):

3. 對(dui)于(yu)Outlook=rain,有5個(ge)實例,其中3個(ge)正例和2個(ge)負例:

然后,我們計算劃分后的信(xin)(xin)息總量,即(ji)加權平均信(xin)(xin)息熵:

最后,我們計算(suan)信息增益:

類似地,我(wo)們可(ke)以計算其他屬(shu)性(xing)的信息增益,并選擇信息增益最大的屬(shu)性(xing)作為當前(qian)節點(dian)的分裂(lie)屬(shu)性(xing)。
請注意,上述計算中的數值可能因四舍五入而(er)有(you)輕微差異,但整體思路和步驟是正(zheng)確(que)的。在實際應(ying)用(yong)(yong)中,應(ying)使(shi)用(yong)(yong)精確(que)的計算結果來構建決策樹。

