數(shù)據(jù)挖掘分析過程中,常見的數(shù)據(jù)處理方法有哪些?
2023-12-11 15:45:18
次
在進(jìn)行數(shù)據(jù)挖掘分析的時(shí)候,數(shù)據(jù)處理是非常重要的一環(huán)。數(shù)據(jù)處理一般是要結(jié)合實(shí)際業(yè)務(wù)做相應(yīng)的數(shù)據(jù)處理,為后續(xù)機(jī)器學(xué)習(xí)建模做好準(zhǔn)備。比如數(shù)據(jù)存在缺失值,就要做相應(yīng)的缺失值的填充或刪除操作;數(shù)據(jù)建模需要的數(shù)據(jù)存儲(chǔ)在不同的表或源中,需要做相應(yīng)的融合操作;拿到的數(shù)據(jù)是明細(xì)數(shù)據(jù),但實(shí)際建模需要的是聚合數(shù)據(jù)等等。
一般的建模數(shù)據(jù)是整合清洗好的寬表數(shù)據(jù),因此需要提前準(zhǔn)備好需要分析的寬表數(shù)據(jù)。若沒有,則需要通過DF對(duì)數(shù)據(jù)進(jìn)行整合形成寬表,或者通過AI的擴(kuò)展編程實(shí)現(xiàn)數(shù)據(jù)的整合,形成寬表進(jìn)行落庫,且要與建模流程分開,防止后期建模流程周期長、執(zhí)行慢等問題,在部署時(shí),可以采用調(diào)度編排對(duì)多個(gè)任務(wù)進(jìn)行串連。
除了前面介紹到的缺失值和異常值問題及處理,平臺(tái)中還有許多數(shù)據(jù)處理節(jié)點(diǎn)可以實(shí)現(xiàn)建模分析的前期準(zhǔn)備工作,下面針對(duì)于不同的數(shù)據(jù)問題使用Tempo人工智能產(chǎn)品進(jìn)行處理的方法進(jìn)行介紹。

數(shù)據(jù)重復(fù)
對(duì)于數(shù)據(jù)重復(fù)問題可以使用到的數(shù)據(jù)處理節(jié)點(diǎn)有數(shù)據(jù)去重和過程查詢分析器。
數(shù)據(jù)去重節(jié)點(diǎn)有兩種使用場景,一種是去掉所有列的完全重復(fù)數(shù)據(jù),另一種是去掉指定列的完全重復(fù)數(shù)據(jù)。
在過程查詢分析器中,支持“僅選擇非重復(fù)行”,實(shí)現(xiàn)數(shù)據(jù)去重。
數(shù)據(jù)融合
可以使用到的數(shù)據(jù)處理節(jié)點(diǎn)包括數(shù)據(jù)連接、數(shù)據(jù)拆分、數(shù)據(jù)追加、數(shù)據(jù)差集、數(shù)據(jù)分解和過程查詢分析器節(jié)點(diǎn)。
數(shù)據(jù)連接節(jié)點(diǎn)可以將多個(gè)表進(jìn)行融合。支持多個(gè)數(shù)據(jù)表兩兩表之間單個(gè)或多個(gè)字段為連接字段的連接操作,連接方式包括內(nèi)連接、完全外連接、左連接、右連接。
數(shù)據(jù)追加節(jié)點(diǎn)支持將多個(gè)表的行進(jìn)行拼接。
過程查詢分析器節(jié)點(diǎn)當(dāng)連接多個(gè)數(shù)據(jù)集時(shí),打開節(jié)點(diǎn)可以點(diǎn)擊表連接對(duì)多張表進(jìn)行連接配置從而達(dá)到表連接的目的。
排序
可以使用到的數(shù)據(jù)處理節(jié)點(diǎn)包括排序和過程查詢分析器節(jié)點(diǎn)。
過程查詢分析器節(jié)點(diǎn)通過數(shù)據(jù)排序功能進(jìn)行實(shí)現(xiàn)。
排序節(jié)點(diǎn)可以對(duì)單個(gè)字段或多個(gè)字段組合的升序或降序排序。
其他
分類匯總節(jié)點(diǎn)可以按照某種分類變量和需要分析的數(shù)據(jù)進(jìn)行分類計(jì)算,對(duì)原始數(shù)據(jù)分類,做出表格形式,便于直觀地觀察數(shù)據(jù)的大致分布情況。對(duì)數(shù)值型數(shù)據(jù)可以進(jìn)行計(jì)數(shù)、最大值、最小值、平均值、求和、方差、標(biāo)準(zhǔn)差、唯一計(jì)數(shù)、上四分位數(shù)、下四分位數(shù)、中位數(shù)、變異系數(shù)和百分位數(shù)的處理方式;對(duì)字符型數(shù)據(jù)可以進(jìn)行計(jì)數(shù)和唯一計(jì)數(shù)的處理方式。還可以選擇單獨(dú)輸出匯總結(jié)果或選擇原表數(shù)據(jù)與匯總結(jié)果拼接輸出。
數(shù)據(jù)平衡節(jié)點(diǎn)可以將非平衡數(shù)據(jù)通過丟棄降低多值對(duì)應(yīng)數(shù)量或者復(fù)制增加低值對(duì)應(yīng)數(shù)量,讓不同值下樣本的數(shù)量能夠大致相同。該節(jié)點(diǎn)提供了兩種模式,一種是通過絕對(duì)數(shù)量進(jìn)行數(shù)據(jù)平衡,另一種是通過調(diào)整因子。
隨機(jī)抽樣節(jié)點(diǎn)支持無放回抽樣、有放回抽樣、分層抽樣和N中取1的抽樣方法,還提供了按照絕對(duì)數(shù)量(近似)和相對(duì)比例進(jìn)行抽樣。
綜合性節(jié)點(diǎn)
除去以上的數(shù)據(jù)處理方式,平臺(tái)還支持一些綜合性節(jié)點(diǎn),支持實(shí)現(xiàn)更復(fù)雜的數(shù)據(jù)處理場景。
過程查詢分析器是根據(jù)指定的條件從接入的數(shù)據(jù)表中提取數(shù)據(jù),支持對(duì)數(shù)據(jù)進(jìn)行表連接、計(jì)算列、數(shù)據(jù)選擇、數(shù)據(jù)過濾、數(shù)據(jù)排序、匯總、去重等操作,實(shí)現(xiàn)接入數(shù)據(jù)的查詢分析過程。
自動(dòng)數(shù)據(jù)處理能夠?qū)τ脩糨斎氲臄?shù)據(jù)根據(jù)內(nèi)置的數(shù)據(jù)處理規(guī)則進(jìn)行自動(dòng)處理,提高用戶的數(shù)據(jù)處理效率。包括缺失值處理、離群值處理、標(biāo)準(zhǔn)差判斷處理、單類別占比判斷處理、單類別行數(shù)判斷處理。
以上是使用Tempo人工智能平臺(tái)進(jìn)行數(shù)據(jù)挖掘分析建模過程中進(jìn)行數(shù)據(jù)處理的方法介紹。