挖掘數(shù)據(jù)價值—如何用Tempo數(shù)據(jù)建模工具提升數(shù)據(jù)質(zhì)量
2022-05-13 17:31:26
次
大量的數(shù)據(jù)中隱藏著商業(yè)價值,各行各業(yè)都在做大數(shù)據(jù)分析,挖掘數(shù)據(jù)價值,但是卻很少有人關(guān)注數(shù)據(jù)質(zhì)量的問題,數(shù)據(jù)分析質(zhì)量高不高,直接影響數(shù)據(jù)分析成果的價值,保證數(shù)據(jù)質(zhì)量才是數(shù)據(jù)分析的關(guān)鍵。
數(shù)據(jù)質(zhì)量體現(xiàn)為數(shù)據(jù)的正確性、準(zhǔn)確性、不矛盾性、一致性、完整性和集成性這六大方面。數(shù)據(jù)質(zhì)量在數(shù)據(jù)分析的各個環(huán)節(jié)都應(yīng)加以控制和保證,從數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)分析到最后數(shù)據(jù)分析成果展現(xiàn)及應(yīng)用,其中數(shù)據(jù)處理環(huán)節(jié)是提升數(shù)據(jù)質(zhì)量的重要環(huán)節(jié)。《哈佛商業(yè)評論》的一項研究表明,人們將80%的時間用于數(shù)據(jù)清理和組織,而數(shù)據(jù)分析時間僅占20%。有了Tempo,數(shù)據(jù)預(yù)處理將變得簡單高效!下面我們來看看其中一些重要的功能。
Tempo 支持多種數(shù)據(jù)預(yù)處理方法,包括對行、列、表的30余種數(shù)據(jù)預(yù)處理節(jié)點,實現(xiàn)數(shù)據(jù)清理,集成,變換,歸約等數(shù)據(jù)預(yù)處理,為挖掘分析做好準(zhǔn)備。其中行處理包括:數(shù)據(jù)過濾、排序、隨機抽樣、數(shù)據(jù)平衡等;列處理包括:重命名、屬性過濾、屬性生成、隨機數(shù)生成、缺失值處理、字符型/數(shù)值型/日期型屬性變換、設(shè)置角色等;表處理包括:數(shù)據(jù)連接、數(shù)據(jù)追加、數(shù)據(jù)拆分、數(shù)據(jù)分解、分類匯總、表轉(zhuǎn)置等;高級處理包括:數(shù)據(jù)平滑、主成分分析、因子分析、孤立點分析、RFM、季節(jié)解構(gòu)、異常值檢測、奇異值分解、分箱、局部多項式回歸、過程查詢分析器等。
以某企業(yè)的全國銷售訂單分析為例,在構(gòu)建挖掘分析模型前需要進行數(shù)據(jù)預(yù)處理。
第一步,數(shù)據(jù)連接
將銷售訂單數(shù)據(jù)表與客戶信息數(shù)據(jù)表做數(shù)據(jù)表連接,連接方式為內(nèi)連接,如下圖所示,將兩表以城市、顧客姓名及訂單號相同為連接條件,組合成包含銷售訂單信息及客戶信息的數(shù)據(jù)寬表。
第二步,數(shù)據(jù)過濾
通過數(shù)據(jù)過濾節(jié)點,將寬表數(shù)據(jù)中符合分析條件的數(shù)據(jù)篩選出來,如下圖所示,篩選出銷售額大于50萬的客戶。
第三步,屬性生成
通過屬性生成節(jié)點,構(gòu)造新的屬性。如下圖所示,構(gòu)建新的屬性產(chǎn)品平均單價和凈利潤。
第四步,缺失值處理
將所有字段進行缺失值處理,支持對不同的字段類型采用不同的缺失值處理方式,如下圖所示,如數(shù)值型字段支持用平均值、最大值、最小值、中位數(shù)、眾數(shù)或自定義等方式進行缺失值的處理,字符型和日期型數(shù)據(jù)支持最多次數(shù)項、最少次數(shù)項或自定義方式進行缺失值處理。
第五步,異常值檢測
異常值檢測利用原始數(shù)據(jù)的分布特征情況,對存在異常和噪聲的數(shù)據(jù)進行檢測和識別。如下圖所示,可基于四分位距進行異常值檢測也可根據(jù)業(yè)務(wù)情況自定義異常值條件來檢測異常值,支持直接刪除異常值、用均值替換異常值、僅輸出異常值及標(biāo)記異常值并輸出整表等操作。這里我們自定義折扣點大于1或銷售額小于0或者訂單數(shù)量基于四分位距的異常值點,不作為分析數(shù)據(jù),將異常值直接刪除,從而進行下一步分析。(我們也可以將異常值數(shù)據(jù)輸出單獨分析,也許能發(fā)現(xiàn)一些業(yè)務(wù)問題)
第六步,數(shù)值型屬性變換
根據(jù)客戶的銷售額情況,請客戶分為小客戶、大客戶、重要客戶三個等級。如下圖所示,數(shù)值型屬性變換_區(qū)間轉(zhuǎn)字符,我們定義銷售額在50-100萬的客戶為小客戶,100萬-500萬的為大客戶,500萬以上的為重要客戶。
第七步,主成分分析
為了減少變量數(shù)目并避免多重共線性,用主成分分析方法,在保留原有數(shù)據(jù)90%信息的基礎(chǔ)上提取主成分,然后再用主成分參與構(gòu)建模型。
第八步,設(shè)置角色
將主成分分析的計算結(jié)果作為自變量,構(gòu)建KMeans聚類模型,進行模型評估,將模型結(jié)果輸出到指定的關(guān)系庫中,如下圖所示。
運用Tempo通過使用靈活多樣的數(shù)據(jù)預(yù)處理手段,大大提升了數(shù)據(jù)質(zhì)量,為后續(xù)構(gòu)建挖掘模型提供了更精準(zhǔn)的數(shù)據(jù),同時使構(gòu)建的數(shù)據(jù)挖掘模型更貼合業(yè)務(wù)實際,為后續(xù)業(yè)務(wù)應(yīng)用打下了堅實的基礎(chǔ)!