 集成學(xue)習方(fang)法:隨機森(sen)林與梯度提(ti)升機(GBM)
							時間:2025-02-24      來源(yuan):華(hua)清遠見
							集成學(xue)習方(fang)法:隨機森(sen)林與梯度提(ti)升機(GBM)
							時間:2025-02-24      來源(yuan):華(hua)清遠見 
							集成學習方法:隨機森林與梯度提升機(GBM)
集成學習是一種(zhong)強大的機(ji)器學習方法(fa),通過組合(he)多(duo)(duo)個基(ji)學習器來(lai)提(ti)升(sheng)整體模型(xing)的性(xing)能。在眾多(duo)(duo)集成學習算法(fa)中,隨機(ji)森林和梯度提(ti)升(sheng)機(ji)(GBM)是最常用(yong)的兩種(zhong)方法(fa)。本(ben)文(wen)將簡(jian)單介紹(shao)它們的原理(li)、特點(dian),并(bing)通過代碼展(zhan)示如何使用(yong) Python 實(shi)現它們。
1. 隨機森林(Random Forest)
隨機森林(lin)是一種基于決(jue)策樹的集成方法,它(ta)通過以(yi)下(xia)兩個隨機化步驟來(lai)構建(jian)多個弱學習器(決(jue)策樹):
計算原理:
· 樣(yang)(yang)本隨機性(xing):為了生成不同的(de)決策樹(shu),隨機森林對訓練數據(ju)進行有放回的(de)抽(chou)樣(yang)(yang)(bootstrap sampling),即每次抽(chou)取一(yi)個(ge)子集(ji),這(zhe)些(xie)子集(ji)的(de)大(da)小和原(yuan)始數據(ju)集(ji)相同,但可能(neng)會有重復的(de)樣(yang)(yang)本。這(zhe)意味著每棵樹(shu)可能(neng)會看到(dao)不同的(de)數據(ju),增(zeng)強(qiang)了模型的(de)多樣(yang)(yang)性(xing)。
· 特(te)征隨(sui)(sui)機性:在構(gou)建每(mei)棵(ke)決策樹時,隨(sui)(sui)機森(sen)林不(bu)會使(shi)用所有的特(te)征來(lai)劃分(fen)節點。相反,隨(sui)(sui)機選擇一個特(te)征的子(zi)集,并在該子(zi)集上找到最佳劃分(fen)。這樣可(ke)以(yi)使(shi)得每(mei)棵(ke)決策樹具有不(bu)同的視角(jiao),進一步(bu)減少過擬合。
計算過程:
ü 訓練(lian)階段:
o 隨機抽取多(duo)個子(zi)樣本數據集(ji)。
o 對每(mei)個子(zi)樣本(ben)集構建(jian)一(yi)棵決策(ce)樹,在每(mei)個節(jie)點上隨機選(xuan)擇特(te)征。
o 重復上述過(guo)程,直到生(sheng)成預(yu)設(she)數量的(de)決策樹(shu)。
ü 預測階(jie)段:
o 對每個新(xin)樣本,所(suo)有決策樹(shu)分(fen)(fen)別進行預測(ce)(分(fen)(fen)類問題為投票(piao),回歸(gui)問題為平均)。
o 最終的(de)(de)輸出是所有決策樹(shu)的(de)(de)輸出結果的(de)(de)聚合(如(ru)使用(yong)投票或平均方(fang)法)。
這(zhe)種集成方式減少了單(dan)棵決策(ce)樹的誤差,提(ti)高了模型的穩定性(xing)和準確性(xing)。
數學原理
基礎概念:決策樹(shu)
隨機森林(lin)是由多棵決策(ce)樹構(gou)(gou)成(cheng)的集成(cheng)學習方法。每棵決策(ce)樹的構(gou)(gou)建和(he)預測(ce)過程都依(yi)賴于信息增益、基尼指數等指標。
	
	
	
	
	
	
	 

