欧美40老熟妇色xxxxx,免费+国产+在线观看,末成年女a∨片一区二区,久久伊人色av天堂九九,免费中文熟妇在线影片

美林?jǐn)?shù)據(jù)
ABOUT US
美林?jǐn)?shù)據(jù)技術(shù)股份有限公司(簡(jiǎn)稱:美林?jǐn)?shù)據(jù),NEEQ:831546)是國(guó)內(nèi)知名的數(shù)據(jù)治理和數(shù)據(jù)分析服務(wù)提供商。

數(shù)據(jù)挖掘過(guò)程中數(shù)據(jù)質(zhì)量常見處理方法

2023-12-06 16:58:00
在建模工作之前,先要了解數(shù)據(jù)的質(zhì)量情況,常見的數(shù)據(jù)質(zhì)量問(wèn)題包括缺失值、異常值等,針對(duì)于不同的問(wèn)題和場(chǎng)景,Tempo人工智能平臺(tái)提供不同的方法進(jìn)行識(shí)別和處理。

1、缺失值問(wèn)題識(shí)別

對(duì)于缺失值的識(shí)別可以使用到的節(jié)點(diǎn)包括屬性生成、描述數(shù)據(jù)特征、數(shù)據(jù)過(guò)濾和過(guò)程查詢分析器節(jié)點(diǎn)。
屬性生成節(jié)點(diǎn)可以使用isnull函數(shù)進(jìn)行缺失值識(shí)別,該函數(shù)支持任意類型數(shù)據(jù)的缺失值識(shí)別,最終返回true和false。
描述數(shù)據(jù)特征節(jié)點(diǎn)可通過(guò)勾選【缺失個(gè)數(shù)】選項(xiàng)進(jìn)行實(shí)現(xiàn)。
數(shù)據(jù)過(guò)濾節(jié)點(diǎn)可以在【過(guò)濾條件】處選擇缺失,并勾選保留滿足以下任意條件的數(shù)據(jù)。
過(guò)程查詢分析器節(jié)點(diǎn)的計(jì)算列功能同屬性生成節(jié)點(diǎn),數(shù)據(jù)過(guò)濾功能同數(shù)據(jù)過(guò)濾節(jié)點(diǎn)。

2、缺失值處理

對(duì)于缺失值的處理可以使用到的節(jié)點(diǎn)包括數(shù)據(jù)過(guò)濾、過(guò)程查詢分析器、缺失值處理和自動(dòng)數(shù)據(jù)處理節(jié)點(diǎn)。
數(shù)據(jù)過(guò)濾節(jié)點(diǎn)適用于將存在缺失值的行全部刪除的情況,在【過(guò)濾條件】處選擇非缺失,并勾選保留滿足以下全部條件的數(shù)據(jù)。
過(guò)程查詢分析器節(jié)點(diǎn)的數(shù)據(jù)過(guò)濾功能同數(shù)據(jù)過(guò)濾節(jié)點(diǎn)。
缺失值處理節(jié)點(diǎn)可以對(duì)【處理方式】根據(jù)使用場(chǎng)景進(jìn)行選擇。
自動(dòng)數(shù)據(jù)處理節(jié)點(diǎn)可以選擇缺失值填充規(guī)則來(lái)進(jìn)行處理,對(duì)于數(shù)值型字段可以使用最大值、最小值、平均值、中位數(shù)和自定義值的方式進(jìn)行填充;對(duì)于字符型字段可以使用最多次數(shù)項(xiàng)、最少次數(shù)項(xiàng)和自定義值的方式進(jìn)行填充。

3、異常值問(wèn)題識(shí)別

對(duì)于異常值的識(shí)別可以使用到的節(jié)點(diǎn)包括數(shù)據(jù)過(guò)濾、屬性生成、過(guò)程查詢分析器、異常值檢測(cè)、孤立點(diǎn)分析以及箱線圖節(jié)點(diǎn)。
數(shù)據(jù)過(guò)濾、屬性生成、過(guò)程查詢分析器節(jié)點(diǎn)適用于已知正常范圍去輸出異常范圍數(shù)據(jù)的情況。數(shù)據(jù)過(guò)濾節(jié)點(diǎn)可以在【過(guò)濾條件】處選擇保留不介于某個(gè)區(qū)間的數(shù)值型或日期型數(shù)據(jù),選擇保留不在列表中中的字符型數(shù)據(jù),并勾選保留滿足以下全部條件的數(shù)據(jù)。屬性生成節(jié)點(diǎn)可以使用邏輯函數(shù)對(duì)字符型或者數(shù)值型數(shù)據(jù)進(jìn)行處理。過(guò)程查詢分析器使用數(shù)據(jù)過(guò)濾和計(jì)算列功能可以達(dá)到數(shù)據(jù)過(guò)濾和屬性生成節(jié)點(diǎn)的功能。
異常值檢測(cè)節(jié)點(diǎn)可以通過(guò)【異常值操作】中選擇僅輸出異常值或標(biāo)記異常值并輸出整表進(jìn)行實(shí)現(xiàn),檢測(cè)方式包括基于四分位距和自定義異常檢測(cè)公式。
箱線圖節(jié)點(diǎn)可以在【離群點(diǎn)處理方式】中選擇只輸出離群值,并在洞察-數(shù)據(jù)集中進(jìn)行異常值的查看。該節(jié)點(diǎn)有兩種使用場(chǎng)景,一種是對(duì)單變量進(jìn)行類別分組畫箱線圖求各組離群值,另一種是對(duì)多變量畫箱線圖求各變量的離群值。

4、異常值處理

對(duì)于異常值處理可以使用異常值檢測(cè)、自動(dòng)數(shù)據(jù)處理和數(shù)據(jù)平滑節(jié)點(diǎn)。
異常值檢測(cè)節(jié)點(diǎn)可在異常值操作中選擇直接刪除、用均值替換和用自定義值替換的方式進(jìn)行處理,檢測(cè)方式包括基于四分位距和自定義異常檢測(cè)公式。
自動(dòng)數(shù)據(jù)處理節(jié)點(diǎn)可以選擇異常值處理規(guī)則來(lái)進(jìn)行處理,即使用該節(jié)點(diǎn)可以實(shí)現(xiàn)3sigma準(zhǔn)則下的異常值處理方法。
數(shù)據(jù)平滑節(jié)點(diǎn)可以有效地去除數(shù)據(jù)中的噪音數(shù)據(jù),通過(guò)選擇多項(xiàng)式樣條插值或者五點(diǎn)三次移動(dòng)平滑方法進(jìn)行處理,還可以調(diào)節(jié)插值粒度。

5、案例

以基于設(shè)備運(yùn)行狀態(tài)的重過(guò)載精準(zhǔn)預(yù)測(cè)案例為例,首先利用Tempo人工智能平臺(tái)的描述數(shù)據(jù)特征節(jié)點(diǎn),對(duì)數(shù)據(jù)進(jìn)行描述性統(tǒng)計(jì)分析,以便于分析和解決數(shù)據(jù)質(zhì)量問(wèn)題,洞察結(jié)果如下圖所示:
數(shù)據(jù)挖掘過(guò)程中數(shù)據(jù)質(zhì)量常見處理方法
從上圖可以看出,行業(yè)指標(biāo)存在缺失值,使用缺失值處理節(jié)點(diǎn)對(duì)其使用最多次項(xiàng)進(jìn)行填充,缺失值處理節(jié)點(diǎn)配置界面如下:
數(shù)據(jù)挖掘過(guò)程中數(shù)據(jù)質(zhì)量常見處理方法
使用異常值檢測(cè)節(jié)點(diǎn)對(duì)原始數(shù)據(jù)進(jìn)行異常值的識(shí)別,洞察中輸出異常數(shù)據(jù)集和各指標(biāo)分位點(diǎn),洞察結(jié)果如下圖,可以看到輸出的異常數(shù)據(jù)集為空表,說(shuō)明原數(shù)據(jù)集不存在異常值,也無(wú)需進(jìn)行異常值處理。
數(shù)據(jù)挖掘過(guò)程中數(shù)據(jù)質(zhì)量常見處理方法
對(duì)于執(zhí)行完的流程可以在洞察中對(duì)結(jié)果數(shù)據(jù)集、模型、圖表等進(jìn)行查看,還可以將所有內(nèi)容導(dǎo)出為word報(bào)告,方便進(jìn)一步對(duì)其進(jìn)行修改,最終形成數(shù)據(jù)質(zhì)量報(bào)告和探索結(jié)論報(bào)告。
基于設(shè)備運(yùn)行狀態(tài)的重過(guò)載精準(zhǔn)預(yù)測(cè)案例導(dǎo)出的word報(bào)告見下圖:

數(shù)據(jù)挖掘過(guò)程中數(shù)據(jù)質(zhì)量常見處理方法

服務(wù)熱線
400-608-2558
咨詢熱線
15502965860
美林?jǐn)?shù)據(jù)
微信掃描二維碼,立即在線咨詢