大數(shù)據(jù)分析之?dāng)?shù)據(jù)缺失值處理教程來(lái)啦!
2022-11-10 16:04:55
次
高質(zhì)量的決策必然依賴于高質(zhì)量的數(shù)據(jù)輸入。
數(shù)據(jù)分析師在進(jìn)行挖掘建模時(shí),先要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,這一階段常常占據(jù)數(shù)據(jù)挖掘建模80%左右的工作量。數(shù)據(jù)預(yù)處理做得好,往往能讓后續(xù)的數(shù)據(jù)分析工作事半功倍,而數(shù)據(jù)缺失作為數(shù)據(jù)分析中經(jīng)常遇到的問(wèn)題,更是數(shù)據(jù)準(zhǔn)備工作中不可忽視的重要一環(huán)。
什么是缺失值?
缺失值是指粗糙數(shù)據(jù)中由于缺少信息而造成的數(shù)據(jù)缺失或截?cái)啵瑢?dǎo)致現(xiàn)有數(shù)據(jù)集中某個(gè)或某些屬性的值不完全。缺失值不僅包括數(shù)據(jù)庫(kù)中的NULL值,也包括用于表示數(shù)值缺失的特殊數(shù)值。
在實(shí)際業(yè)務(wù)中,數(shù)據(jù)往往都是來(lái)自不同的系統(tǒng)或業(yè)務(wù)部門,缺乏統(tǒng)一的標(biāo)準(zhǔn)和機(jī)制,結(jié)構(gòu)多樣的海量的數(shù)據(jù)匯集在一起,很容易出現(xiàn)有缺失值的情況。

當(dāng)數(shù)據(jù)缺失比例較小時(shí),我們可以直接手動(dòng)刪除缺失記錄,但在實(shí)際業(yè)務(wù)數(shù)據(jù)中,通常缺失數(shù)據(jù)占比較大,這時(shí)候如果手工進(jìn)行處理效率非常慢,如果直接刪除缺失記錄,會(huì)造成大量信息丟失,影響最終的分析結(jié)論。
那么當(dāng)數(shù)據(jù)出現(xiàn)缺失時(shí),我們要進(jìn)行怎樣的操作呢?下面我們用Tempo AI來(lái)進(jìn)行演示,只需簡(jiǎn)單幾步就可以實(shí)現(xiàn)從缺失值的識(shí)別到缺失值的處理過(guò)程。
缺失值識(shí)別
對(duì)于缺失值的識(shí)別可以使用到的節(jié)點(diǎn)包括屬性生成、描述數(shù)據(jù)特征和數(shù)據(jù)過(guò)濾節(jié)點(diǎn)。
?屬性生成節(jié)點(diǎn)
該節(jié)點(diǎn)可以使用isnull函數(shù)進(jìn)行缺失值識(shí)別,該函數(shù)支持任意類型數(shù)據(jù)的缺失值識(shí)別,具體操作如下所示。
01、使用文件輸入和屬性生成節(jié)點(diǎn)構(gòu)建流程;
02、通過(guò)文件輸入節(jié)點(diǎn)上傳存在缺失數(shù)據(jù)的數(shù)據(jù)集;
03、在屬性生成中用isnull函數(shù)對(duì)存在缺失的數(shù)據(jù)進(jìn)行處理;
04、流程執(zhí)行成功后,在洞察查看運(yùn)行結(jié)果。如果存在空值返回true,如果不為空返回false。
?描述數(shù)據(jù)特征節(jié)點(diǎn)
該節(jié)點(diǎn)可通過(guò)勾選【缺失個(gè)數(shù)】選項(xiàng)進(jìn)行實(shí)現(xiàn)。
01、首先使用文件輸入和描述數(shù)據(jù)特征節(jié)點(diǎn)構(gòu)建流程;
02、通過(guò)文件輸入節(jié)點(diǎn)上傳存在缺失數(shù)據(jù)的數(shù)據(jù)集;
03、在描述數(shù)據(jù)特征中通過(guò)勾選【缺失個(gè)數(shù)】選項(xiàng)對(duì)存在缺失的數(shù)據(jù)進(jìn)行整理;
04、流程執(zhí)行成功后,在洞察查看運(yùn)行結(jié)果,可查看到是否存在缺失值情況,以及具體每個(gè)指標(biāo)的缺失值個(gè)數(shù)。
?數(shù)據(jù)過(guò)濾節(jié)點(diǎn)
該節(jié)點(diǎn)可以在【過(guò)濾條件】處選擇保留缺失或過(guò)濾非缺失達(dá)到此目的。
01、首先使用文件輸入和數(shù)據(jù)過(guò)濾節(jié)點(diǎn)構(gòu)建流程;
02、通過(guò)文件輸入節(jié)點(diǎn)上傳存在缺失數(shù)據(jù)的數(shù)據(jù)集;
03、在數(shù)據(jù)過(guò)濾節(jié)點(diǎn)中,通過(guò)在【過(guò)濾條件】處選擇“缺失”,對(duì)存在缺失的數(shù)據(jù)進(jìn)行識(shí)別,并選擇保留滿足以下任意條件的數(shù)據(jù);
04、流程執(zhí)行成功后,在洞察查看運(yùn)行結(jié)果,將存在缺失過(guò)濾出來(lái),可查看具體哪些數(shù)據(jù)存在缺失值。
缺失值處理
對(duì)于缺失值的處理可以使用到的節(jié)點(diǎn)包括數(shù)據(jù)過(guò)濾、缺失值處理和自動(dòng)數(shù)據(jù)處理節(jié)點(diǎn)。
?數(shù)據(jù)過(guò)濾節(jié)點(diǎn)
該節(jié)點(diǎn)適用于將存在缺失值的行為全部刪除的情況。
01、使用文件輸入和數(shù)據(jù)過(guò)濾節(jié)點(diǎn)構(gòu)建流程;
02、通過(guò)文件輸入節(jié)點(diǎn)上傳存在缺失數(shù)據(jù)的數(shù)據(jù)集;
03、在數(shù)據(jù)過(guò)濾節(jié)點(diǎn)中,在【過(guò)濾條件】處選擇“非缺失”,并選擇保留滿足以下全部條件的數(shù)據(jù),對(duì)存在缺失的數(shù)據(jù)進(jìn)行過(guò)濾;
04、流程執(zhí)行成功后,在洞察查看運(yùn)行結(jié)果,結(jié)果中已經(jīng)將存在缺失情況的數(shù)據(jù)過(guò)濾掉,實(shí)現(xiàn)了對(duì)缺失值的處理。
?缺失值處理節(jié)點(diǎn)
該節(jié)點(diǎn)可以對(duì)【處理方式】根據(jù)使用場(chǎng)景進(jìn)行選擇。
01、使用文件輸入和缺失值處理節(jié)點(diǎn)構(gòu)建流程;
02、通過(guò)文件輸入節(jié)點(diǎn)上傳存在缺失數(shù)據(jù)的數(shù)據(jù)集;
03、在缺失值處理節(jié)點(diǎn)中通過(guò)選擇【處理方式】對(duì)缺失值進(jìn)行處理;
04、流程執(zhí)行成功后,在洞察查看運(yùn)行結(jié)果。如果存在空值將按照設(shè)置處理方式進(jìn)行填充。
?自動(dòng)數(shù)據(jù)處理節(jié)點(diǎn)
該節(jié)點(diǎn)可以選擇缺失值填充規(guī)則來(lái)進(jìn)行處理。
01、使用文件輸入和自動(dòng)數(shù)據(jù)處理節(jié)點(diǎn)構(gòu)建流程;
02、通過(guò)文件輸入節(jié)點(diǎn)上傳存在缺失數(shù)據(jù)的數(shù)據(jù)集;
03、在自動(dòng)數(shù)據(jù)處理節(jié)點(diǎn)中通過(guò)選擇【缺失值填充規(guī)則】對(duì)缺失值進(jìn)行處理;
04、流程執(zhí)行成功后,在洞察查看運(yùn)行結(jié)果。如果存在空值情況將按照缺失值填充規(guī)則進(jìn)行填充。
Tempo 機(jī)器學(xué)習(xí)平臺(tái)在設(shè)計(jì)之初,就秉承著“智建模、易應(yīng)用”的設(shè)計(jì)理念,除了上面所提到的方法,還支持通過(guò)建立預(yù)測(cè)模型來(lái)對(duì)缺失值進(jìn)行填充,使用機(jī)器學(xué)習(xí)模塊的回歸和分類等相關(guān)節(jié)點(diǎn)進(jìn)行預(yù)測(cè)模型建立和利用,從而達(dá)到填充缺失值的目的。
處理完缺失值后,還能使用Tempo機(jī)器學(xué)習(xí)平臺(tái)的多種數(shù)據(jù)預(yù)處理方法,輕松實(shí)現(xiàn)數(shù)據(jù)清理,集成,變換,歸約等數(shù)據(jù)處理工作,為后續(xù)的挖掘分析做準(zhǔn)備。以圖形化、拖拽式的操作,讓用戶以更快的體驗(yàn),高效完成數(shù)據(jù)分析的全部流程,還支持分析成果一鍵式服務(wù)發(fā)布,能夠與企業(yè)現(xiàn)有業(yè)務(wù)系統(tǒng)無(wú)縫整合,真正賦能企業(yè)的數(shù)字化發(fā)展!