欧美40老熟妇色xxxxx,免费+国产+在线观看,末成年女a∨片一区二区,久久伊人色av天堂九九,免费中文熟妇在线影片

美林?jǐn)?shù)據(jù)
ABOUT US
美林?jǐn)?shù)據(jù)技術(shù)股份有限公司(簡稱:美林?jǐn)?shù)據(jù),NEEQ:831546)是國內(nèi)知名的數(shù)據(jù)治理和數(shù)據(jù)分析服務(wù)提供商。

美林?jǐn)?shù)據(jù)技術(shù)專家團(tuán)隊(duì)|機(jī)器學(xué)習(xí)中樣本不平衡問題的實(shí)用解決方法

2021-12-23 10:44:00
近些年,隨著智能化應(yīng)用概念在各個(gè)行業(yè)的普及、智能應(yīng)用項(xiàng)目的落地實(shí)踐,作為智能應(yīng)用的基礎(chǔ)技術(shù)-機(jī)器學(xué)習(xí),也得到了廣泛的應(yīng)用并取得了不錯(cuò)的效果。與此同時(shí),在實(shí)際的項(xiàng)目應(yīng)用中也經(jīng)歷了各種各樣的難題,如數(shù)據(jù)分散難統(tǒng)一、輸出結(jié)果滯后、數(shù)據(jù)不準(zhǔn)確等,其中樣本不平衡就是一個(gè)典型的數(shù)據(jù)問題。
機(jī)器學(xué)習(xí)
樣本不平衡問題是指在進(jìn)行模式分類時(shí),樣本中某一類數(shù)據(jù)遠(yuǎn)多于其他類數(shù)據(jù)而造成對少數(shù)類判別不準(zhǔn)確的問題,而實(shí)際應(yīng)用中數(shù)量較少的樣本往往包含著關(guān)鍵的信息。例如在設(shè)備故障預(yù)測中的故障樣本,產(chǎn)品質(zhì)量分析中的不合格樣本,用戶流失預(yù)警中的流失用戶,竊電識別中的竊電用戶,醫(yī)療診斷中的病例樣本等等,都是在智能化應(yīng)用分析過程中需要重點(diǎn)關(guān)注的對象。
對于樣本不平衡分類問題的解決,我們目前嘗試過5個(gè)方向:
1、改變數(shù)據(jù)分布,降低不平衡度,包括采樣的方法(過采樣算法、欠采樣算法)和數(shù)據(jù)合成的方法;
2、優(yōu)化算法,分析已有算法在面對不平衡數(shù)據(jù)的缺陷,改進(jìn)算法或者提出新算法來提升少數(shù)類的分類準(zhǔn)確率,主要包括代價(jià)敏感和集成學(xué)習(xí);
3、引入先驗(yàn)知識,在建模的過程中的樣本生成、模型設(shè)計(jì)、模型訓(xùn)練階段引入先驗(yàn)知識,提升模型準(zhǔn)確性;
4、遷移學(xué)習(xí),利用其它領(lǐng)域相似的數(shù)據(jù)和知識對本領(lǐng)域內(nèi)模型進(jìn)行優(yōu)化;
5、調(diào)整業(yè)務(wù)目標(biāo),嘗試改變看問題的角度,調(diào)整業(yè)務(wù)的目標(biāo)或?qū)I(yè)務(wù)問題進(jìn)行轉(zhuǎn)換。

01、改變數(shù)據(jù)分布
數(shù)據(jù)集
?通過采樣的方式  
采樣方法是通過對訓(xùn)練集進(jìn)行處理使其從不平衡的數(shù)據(jù)集變成平衡的數(shù)據(jù)集,在大部分情況下會對最終的結(jié)果帶來提升。采樣分為過采樣和欠采樣,其中過采樣是把小眾類復(fù)制多份,而欠采樣則是從大眾類中剔除一些樣本,或者說只從大眾類中選取部分樣本。
?數(shù)據(jù)合成方式
數(shù)據(jù)合成是通過少量可用的樣本生成更多的樣本,即從原始數(shù)據(jù)分布的角度來進(jìn)行的,生成和真實(shí)數(shù)據(jù)分布相似的數(shù)據(jù),達(dá)到樣本增強(qiáng)的目的。主要的樣本增強(qiáng)方法包含:SMOTE平滑、GAN生成對抗網(wǎng)絡(luò)模型等。
SMOTE平滑主要應(yīng)用在小型數(shù)據(jù)集上來獲得新的樣本,實(shí)現(xiàn)方式是隨機(jī)選擇一個(gè)樣本,計(jì)算它與其它樣本的距離,得到K近鄰,從K近鄰中隨機(jī)選擇多個(gè)樣本構(gòu)建出新樣本。
GAN生成對抗網(wǎng)絡(luò)模型:主要包括了兩個(gè)部分,即生成器 generator 與判別器 discriminator。生成器主要用來學(xué)習(xí)真實(shí)數(shù)據(jù)分布從而讓自身生成的數(shù)據(jù)更加真實(shí),以騙過判別器。判別器則需要對接收的數(shù)據(jù)進(jìn)行真假判別。在整個(gè)過程中,生成器努力地讓生成的數(shù)據(jù)更加真實(shí),而判別器則努力地去識別出數(shù)據(jù)的真假,這個(gè)過程相當(dāng)于一個(gè)二人博弈,隨著時(shí)間的推移,生成器和判別器在不斷地進(jìn)行對抗,最終兩個(gè)網(wǎng)絡(luò)達(dá)到了一個(gè)動(dòng)態(tài)均衡:生成器生成的數(shù)據(jù)像接近于真實(shí)數(shù)據(jù)分布,而判別器識別不出真假數(shù)據(jù),從而達(dá)到構(gòu)建更多新樣本的目的。
例如,在用戶竊電識別模型中,數(shù)據(jù)庫中查實(shí)的竊電用戶量整體較少,如果直接構(gòu)建模型會導(dǎo)致模型泛化性能低,易過擬合,無法使模型更精準(zhǔn)的學(xué)習(xí)到竊電用戶的特性。那么為了保障模型的準(zhǔn)確率,我們可以基于查實(shí)的竊電用戶數(shù)據(jù),針對不同竊電手段數(shù)據(jù)通過采用SMOTE平滑方法對數(shù)據(jù)進(jìn)行樣本增強(qiáng),獲取到更多符合原始數(shù)據(jù)分布的樣本,讓智能模型充分學(xué)習(xí)到竊電用戶的特性,有效地提高模型的泛化性能和抗干擾能力。該模型采用數(shù)據(jù)樣本增強(qiáng)后,竊電用戶識別模型準(zhǔn)確率從70%提升至86%,為項(xiàng)目帶來實(shí)質(zhì)性的提升。
需要注意的是,通過采樣的方式增加樣本適用于樣本量有一定基礎(chǔ)的情況,對于樣本數(shù)據(jù)本身較小,或樣本極度不均衡的情況如異常樣本只有個(gè)位數(shù),使用起來意義并不大。數(shù)據(jù)合成的方法在一些領(lǐng)域使用較多,如在電信行業(yè)的流失行為預(yù)測、電網(wǎng)領(lǐng)域的用戶畫像,圖像識別等,但是在工業(yè)領(lǐng)域,如產(chǎn)品的加工過工程,設(shè)備的故障產(chǎn)生,數(shù)據(jù)之間都就有很強(qiáng)的關(guān)聯(lián)性,數(shù)據(jù)之間存在內(nèi)在的物理關(guān)系,而數(shù)據(jù)合成的方法只關(guān)注了數(shù)據(jù)的分布特征,而忽略了數(shù)據(jù)之間的強(qiáng)關(guān)聯(lián)關(guān)系,因此往往導(dǎo)致生成數(shù)據(jù)脫離現(xiàn)實(shí)情況。

02、優(yōu)化算法
從算法層面,在模型設(shè)計(jì)與訓(xùn)練中采用傾向性策略以緩解樣本的不平衡程度,主要包括代價(jià)敏感和集成學(xué)習(xí)。代價(jià)敏感通過修改損失函數(shù)使得模型更加重視少數(shù)類,集成學(xué)習(xí)通過將多個(gè)分類器的結(jié)果集成提高整體分類準(zhǔn)確度。
?從評價(jià)指標(biāo)的角度   
對于數(shù)據(jù)極端不平衡時(shí),這時(shí)候就不能觀察模型準(zhǔn)確率這個(gè)指標(biāo)了。我們可以通過觀察訓(xùn)練結(jié)果的精準(zhǔn)率和召回率,這樣做有兩個(gè)好處:一是可以了解算法對于數(shù)據(jù)的敏感程度;二是可以明確采取哪種評價(jià)指標(biāo)更合適。針對機(jī)器學(xué)習(xí)中的樣本不平衡問題,建議更多采用PR(Precision-Recall曲線),而非ROC曲線,如果采用ROC曲線來作為評價(jià)指標(biāo),很容易因?yàn)锳UC值高而忽略實(shí)際對少量樣本的效果其實(shí)并不理想的情況。
當(dāng)然在實(shí)際的應(yīng)用中,也應(yīng)結(jié)合業(yè)務(wù)需要來確定評價(jià)指標(biāo)的選擇。例如,在流失預(yù)警場景中,應(yīng)根據(jù)現(xiàn)場維護(hù)人員的數(shù)據(jù)量,決定是采用召回率作為主要評價(jià)指標(biāo)還是以精準(zhǔn)率作為主要指標(biāo)。另外,在工業(yè)應(yīng)用中,如果將模型作為輔助手段用于質(zhì)量預(yù)警時(shí),主要考慮的模型的準(zhǔn)確性,要確保每次給出的結(jié)果是準(zhǔn)確的,在設(shè)備故障判斷時(shí),要確保召回率,不能漏掉任何一個(gè)故障。
?代價(jià)敏感法    
代價(jià)敏感法核心思想是在算法實(shí)現(xiàn)過程中,對于分類中不同樣本數(shù)量的類別分別賦予不同的權(quán)重(一般思路分類中的小樣本量類別權(quán)重高,大樣本量類別權(quán)重低),通過這種方式使模型更加重視小樣本類,然后進(jìn)行計(jì)算和建模。
?集成學(xué)習(xí)   
集成方法指的是在每次生成訓(xùn)練集時(shí)使用所有分類中的小樣本量,同時(shí)從分類中的大樣本量中隨機(jī)抽取數(shù)據(jù)來與小樣本量合并構(gòu)成訓(xùn)練集,這樣反復(fù)多次會得到很多訓(xùn)練集和訓(xùn)練模型。最后在應(yīng)用時(shí),使用組合方法(例如投票、加權(quán)投票等)產(chǎn)生分類預(yù)測結(jié)果。如果計(jì)算資源充足,并且對于模型的時(shí)效性要求不高的話,這種方法比較合適。

03、引入先驗(yàn)知識
利用先驗(yàn)知識,將業(yè)務(wù)知識、機(jī)理規(guī)則等引入機(jī)器學(xué)習(xí)的樣本生成、模型設(shè)計(jì)、模型訓(xùn)練等階段也是解決樣本不平衡問題的一個(gè)思路。先驗(yàn)知識可以快速推廣到只包含少量監(jiān)督信息樣本的新任務(wù)。在數(shù)據(jù)挖掘模型構(gòu)建的過程中,充分利用先驗(yàn)知識的相關(guān)規(guī)則可以提升模型效果,先驗(yàn)知識主要從兩個(gè)方面發(fā)揮價(jià)值:
數(shù)據(jù):利用先驗(yàn)知識來增強(qiáng)監(jiān)督經(jīng)驗(yàn),例如可以使用先驗(yàn)知識判斷傳感器采集數(shù)據(jù)的范圍,對于超過范圍的異常數(shù)據(jù)剔除處理,避免因?yàn)閿?shù)據(jù)采集錯(cuò)誤干擾到模型訓(xùn)練。
模型:利用先驗(yàn)知識減少假設(shè)空間的大小,如齒輪點(diǎn)蝕、剝落斷齒等局部故障,故障部位進(jìn)入嚙合時(shí)系統(tǒng)受到?jīng)_擊激勵(lì),故障齒輪每轉(zhuǎn)一圈,系統(tǒng)受一次沖擊,這種現(xiàn)象是周期性的,可基于此特性來設(shè)計(jì)模型。
如在配變重過載預(yù)測模型構(gòu)建過程中,模型階段通過先驗(yàn)知識縮小了預(yù)測空間,充分考慮配變負(fù)載率近2年P(guān)earson相關(guān)系數(shù)判定近2年的變化趨勢,篩選相關(guān)系數(shù)高的配變,利用先驗(yàn)知識預(yù)測未來周期內(nèi)負(fù)載率,將負(fù)載率明顯過低的設(shè)備進(jìn)行剔除,減少樣本的不平衡度,提升模型的泛化能力。
值得注意得是:在利用先驗(yàn)知識的同時(shí),一定要保障先驗(yàn)知識的準(zhǔn)確性,如果先驗(yàn)知識存在誤差,必然導(dǎo)致模型的誤差增大,影響模型準(zhǔn)確率。

04、遷移學(xué)習(xí)
既然當(dāng)前領(lǐng)域的樣例數(shù)據(jù)獲取難度比較大,那么可不可以使用相似領(lǐng)域的數(shù)據(jù)和知識來代替呢?實(shí)際生活中有很多這樣的例子,比如學(xué)會吹笛子,就比較容易學(xué)吹簫、葫蘆絲等管弦樂器,學(xué)會了C語言,在學(xué)一些其它編程語言會簡單很多,這其實(shí)就是遷移學(xué)習(xí)的思想。從相關(guān)領(lǐng)域中遷移標(biāo)注數(shù)據(jù)或者知識結(jié)構(gòu)、完成或改進(jìn)目標(biāo)領(lǐng)域的學(xué)習(xí)效果。
遷移學(xué)習(xí)
一般地,有三種常見的遷移方式:
一是基于實(shí)例的遷移,對已有的其它領(lǐng)域大樣本進(jìn)行有效的權(quán)重分配,讓其它領(lǐng)域的樣本與目標(biāo)域的樣本分布特征接近;
二是基于特征的遷移,分為基于特征選擇的遷移和基于特征映射的遷移。基于特征選擇的遷移學(xué)習(xí)算法,關(guān)注的是如何找出源領(lǐng)域與目標(biāo)領(lǐng)域之間共同的特征表示,然后利用這些特征進(jìn)行知識遷移;基于特征映射的遷移學(xué)習(xí)算法,將源領(lǐng)域和目標(biāo)領(lǐng)域的數(shù)據(jù)從原始特征空間映射到新的特征空間中去,在該空間中,源領(lǐng)域數(shù)據(jù)與的目標(biāo)領(lǐng)域的數(shù)據(jù)分布相同;
三是基于共享參數(shù)的遷移,其主要研究的是如何找到源數(shù)據(jù)和目標(biāo)數(shù)據(jù)的空間模型之間的共同參數(shù)或者先驗(yàn)分布。
在齒輪、軸承類機(jī)械設(shè)備故障預(yù)測過程中,實(shí)際工況下,由于設(shè)備長期處于正常服役狀態(tài),正常樣本豐富,故障樣本非常少,經(jīng)常面臨數(shù)據(jù)嚴(yán)重不平衡的問題。對于齒輪、軸承這類簡單的機(jī)械,相同類型的部件其在發(fā)生故障時(shí)表現(xiàn)的特征往往具有很強(qiáng)的相似性。這時(shí)可以用遷移學(xué)習(xí)的方法,具體的實(shí)現(xiàn)方法一方面通過數(shù)據(jù)分布變換將要遷移的數(shù)據(jù)的分布狀況轉(zhuǎn)換為目標(biāo)數(shù)據(jù)的分布狀況。
齒輪、軸承類機(jī)械設(shè)備故障預(yù)測
另一方面將兩個(gè)領(lǐng)域的數(shù)據(jù)特征進(jìn)行空間變換,使其具備相同的特征分布。假如采集的是震動(dòng)信號,根據(jù)目標(biāo)數(shù)據(jù)時(shí)域下的幅值分布將公共的震動(dòng)信號轉(zhuǎn)換成與目標(biāo)分布相似的信號,再利用時(shí)頻變換,將時(shí)域空間下的特征映射到頻域下(注意盡可能使用相對指標(biāo),而不是絕對指標(biāo)),然后再進(jìn)行零件故障預(yù)測模型的構(gòu)建。
此外,遷移學(xué)習(xí)在落地應(yīng)用中往往受幾個(gè)方面的影響,一是不同的應(yīng)用場景,數(shù)據(jù)之間的影響關(guān)系差異非常大,數(shù)據(jù)之間的相互關(guān)系往往會發(fā)生變化,導(dǎo)致不能完全遷移。二是目標(biāo)的表征變量較多的情況下,做特征的映射本身就是一個(gè)大工程,實(shí)現(xiàn)起來并不容易,適合特征比較少的場景。

05、調(diào)整業(yè)務(wù)目標(biāo)
以上的方式都不適用的情況下該怎么辦呢?這時(shí)就需要放大招了——調(diào)整業(yè)務(wù)目標(biāo)。一般對于樣本極不均衡現(xiàn)象分類預(yù)測問題我們可以將其轉(zhuǎn)換為回歸問題或異常檢測問題。
?分類變回歸  
在實(shí)際的項(xiàng)目中,還有一種方法來實(shí)現(xiàn)預(yù)測的目標(biāo),那就是將分類預(yù)測問題轉(zhuǎn)換為回歸預(yù)測問題。采用回歸預(yù)測+業(yè)務(wù)規(guī)則相結(jié)合的方法實(shí)現(xiàn)預(yù)測的目的。例如在一個(gè)產(chǎn)品質(zhì)量預(yù)測項(xiàng)目中,原來的目標(biāo)是構(gòu)建產(chǎn)品是否合格的預(yù)測模型,但是在模型的構(gòu)建過程中發(fā)現(xiàn)不合格產(chǎn)品占比非常少,只有極個(gè)別的樣本,用來構(gòu)建產(chǎn)品不合格模型基礎(chǔ)條件不夠。
這時(shí)就可以轉(zhuǎn)變?yōu)轭A(yù)測產(chǎn)品檢測指標(biāo)的方法,這種方法是在不合格產(chǎn)品數(shù)量占比較少的情況下轉(zhuǎn)而預(yù)測產(chǎn)品檢測過程中的評判指標(biāo)。相對來說,產(chǎn)品檢測過程中的檢測指標(biāo)樣本的積累會比不合格產(chǎn)品的樣本積累要更容易。很顯然,對于產(chǎn)品檢測指標(biāo)的預(yù)測是屬于回歸預(yù)測的范疇,可采用機(jī)器學(xué)習(xí)中回歸類預(yù)測方法來實(shí)現(xiàn)。對于回歸模型預(yù)測的結(jié)果,可以結(jié)合現(xiàn)有的業(yè)務(wù)規(guī)則進(jìn)行判斷,從而達(dá)到預(yù)測產(chǎn)品是否合格的目的。
?分類變異常檢測   
第二種做法是使用非監(jiān)督式的學(xué)習(xí)方法,將此類問題看做是單分類或異常檢測問題。這類方法的重點(diǎn)不在于找出類間的差別,而是為其中一類進(jìn)行建模。例如在設(shè)備故障診斷項(xiàng)目中,沒有異常數(shù)據(jù),那我們就為正常情況圈定一個(gè)范圍,在新數(shù)據(jù)判斷時(shí)在這個(gè)范圍內(nèi)的就認(rèn)為是正常數(shù)據(jù),不在這個(gè)范圍內(nèi)的我們就認(rèn)為就是異常數(shù)據(jù),需要重點(diǎn)關(guān)注的。當(dāng)然在實(shí)際應(yīng)用中模型也會不斷的迭代更新,判斷的效果會越來越準(zhǔn)。

本文介紹了實(shí)際項(xiàng)目中我們嘗試的幾種樣本不平衡問題的解決方法,希望上述的某種方法能夠幫助你解決目前遇到的問題或者能為你帶來一些解題思路。
而上述這些方法也只是眾多樣本不平衡問題解決方法中的冰山一角,這里建議大家多閱讀一些這方面的文章,你可能從中獲取一些更有趣更有效的方法。當(dāng)然樣本不平衡問題的解決更多的還要結(jié)合現(xiàn)場的環(huán)境和遇到的問題,靈活的選擇應(yīng)對方法,沒有一種方案可以解決一切問題。

服務(wù)熱線
400-608-2558
咨詢熱線
15502965860
美林?jǐn)?shù)據(jù)
微信掃描二維碼,立即在線咨詢