大話數(shù)據(jù)挖掘——預(yù)測分析之決策樹方法
2021-03-02 18:18:58
次
接上一篇《大話數(shù)據(jù)挖掘之預(yù)測分析》
徐教授的PPT又翻開了新的一頁,他將光筆指向屏幕上的樹狀圖,講道:“所謂決策樹就是一個類似流程圖的樹型結(jié)構(gòu),樹的最高層結(jié)點就是根結(jié)點,樹的每個內(nèi)部結(jié)點代表對一個屬性(取值)的測試,其分支就代表測試的每個結(jié)果,而樹的每個葉結(jié)點就代表一個類別。從根節(jié)點到葉子節(jié)點的每一條路徑構(gòu)成一條‘IF…THEN…’分類規(guī)則。”
李部長凝視著大屏幕上的決策樹,明白了其中的奧妙,不禁道:“決策樹方法實際上就是通過一定的評判策略判定哪一個屬性對分類最為重要,就將其作為根節(jié)點,然后再判斷余下的節(jié)點中最重要的的節(jié)點,直到葉子節(jié)點。”
“好,理解得還比較透徹。不過,李部長,什么樣的節(jié)點才可以標(biāo)注為葉子節(jié)點呢?”徐教授問。
李部長吱吱唔唔:“好像有三種情況……”
“對,附合以下三個條件之一的節(jié)點就可為葉子節(jié)點:(1)節(jié)點的樣本集合中所有的樣本都屬于同一類;(2)節(jié)點的樣本集合中所有的屬性都已經(jīng)處理完畢,沒有剩余屬性可以用來進(jìn)一步劃分樣本,這時候采用子集中多數(shù)樣本所屬于的類來標(biāo)記該節(jié)點;(3)節(jié)點的樣本集合中所有樣本的剩余屬性取值完全相同,但所屬類別卻不同,此時用樣本中多數(shù)類來標(biāo)示該節(jié)點。”

徐教授接著說:“決策樹算法的典型代表是ID3(Interactive Dicremiser version 3)算法,它是由Quinlan等人于1986年提出的,是當(dāng)前機(jī)器學(xué)習(xí)領(lǐng)域中最有影響力的算法之一。其核心思想是在決策樹的構(gòu)建過程中采取基于信息增益的特征選擇策略,即選取具有最高信息增益的屬性作為當(dāng)前節(jié)點的分裂屬性,使得對結(jié)果劃分中的樣本分類所需要的信息量最小。以此構(gòu)造與訓(xùn)練數(shù)據(jù)一致的一棵決策樹,從而保證了決策樹具有最小的分支數(shù)量和最小的冗余度。”
李部長:“ID3算法思想簡單,并且由其構(gòu)造的決策樹對樣本的識別率比較高。在實際應(yīng)用中,ID3算法還有什么不足之處嗎?”
徐教授按了一下光筆,并說:“請看大屏幕ID3算法的缺點主要表現(xiàn)在以下幾個方面。”
ID3算法的不足之處
(1)ID3算法在搜索過程中不能再回溯重新考慮選擇過的屬性,從而收斂到局部最優(yōu)解而不是全局最優(yōu)解;
(2)信息增益的度量偏袒于屬性取值數(shù)目較多的屬性,這不太合理;
(3)ID3算法只能處理離散值得屬性,不能處理連續(xù)屬性;
(4)當(dāng)訓(xùn)練樣本過小或者包含有噪聲的時候,容易產(chǎn)生過度擬和(Overfitting)現(xiàn)象。
馬處長看著屏幕,問道:“徐老師,那怎樣改進(jìn)ID3算法呢?”
徐教授回答道:“針對ID3算法的不足,Quinlan于1993年提出了ID3的改進(jìn)的方法——C4.5。與ID3相比,C4.5主要在以下幾個方面作了修改,并且引進(jìn)了新的功能:用信息增益比率作為選擇標(biāo)準(zhǔn),彌補了ID3算法偏向于取值較多的屬性的不足;合并連續(xù)屬性的值;可以處理具有缺少屬性值的訓(xùn)練樣本;運用不同的剪枝技術(shù)來避免決策樹的過擬合現(xiàn)象;K次交叉驗證等等。”
李部長又問:“徐老師,我們在使用決策樹算法進(jìn)行分類時,有時會出現(xiàn)過擬合現(xiàn)象,這是怎么回事呢?”
徐教授不厭其煩:“基本的決策樹構(gòu)造算法沒有考慮噪聲,因此生成的決策樹可以完全與訓(xùn)練數(shù)據(jù)擬合,也就是說,對訓(xùn)練數(shù)據(jù)的測試準(zhǔn)確度可以達(dá)到100%。但是在有噪聲的情況下,完全擬合將導(dǎo)致“過擬合”的結(jié)果,即對訓(xùn)練數(shù)據(jù)的完全擬合反而導(dǎo)致對新數(shù)據(jù)的預(yù)測能力下降。這是因為當(dāng)訓(xùn)練數(shù)據(jù)集合包含噪聲時,決策樹在生成的過程中為了與訓(xùn)練數(shù)據(jù)一致,必然生成了一些反映噪聲的分支,這些分支不僅在新的決策問題中導(dǎo)致錯誤的預(yù)測,而且增加了模型的復(fù)雜度。”
馬處長也問道:“那怎么避免過擬合現(xiàn)象呢?”
徐教授:“解決決策樹生成過程中的過擬合問題的方法主要是對決策樹進(jìn)行剪枝。剪枝是一種克服噪聲的技術(shù),它有助于提高決策樹對新數(shù)據(jù)的準(zhǔn)確分類能力,同時能使決策樹得到簡化,使其更容易理解,加快分類速度。剪枝策略可分為預(yù)剪枝(pre-pruning)和后剪枝(post-pruning)兩種。預(yù)剪枝主要是通過建立某些規(guī)則限制決策樹的充分生長,后剪枝則是等決策樹充分生長完畢后再剪去那些不具有一般代表性的葉節(jié)點或者分枝。盡管前一種方法可能看起來更直接,但是后一種方法在實踐中更成功。因此在實際運用中更多的采用的是后剪枝技術(shù)。”