大量的數(shù)據(jù)中隱藏著商業(yè)價值,各行各業(yè)都在做大數(shù)據(jù)挖掘分析,尋找數(shù)據(jù)價值,但是卻很少有人關注數(shù)據(jù)質量的問題,數(shù)據(jù)挖掘分析質量高不高,直接影響數(shù)據(jù)挖掘分析成果的價值,保證數(shù)據(jù)質量才是數(shù)據(jù)挖掘分析的關鍵。
數(shù)據(jù)質量體現(xiàn)為數(shù)據(jù)的正確性、準確性、不矛盾性、一致性、完整性和集成性這六大方面。數(shù)據(jù)質量在數(shù)據(jù)挖掘分析的各個環(huán)節(jié)都應用加以控制和保證,從數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)挖掘分析到最后數(shù)據(jù)挖掘分析成果展現(xiàn)及應用,其中數(shù)據(jù)處理環(huán)節(jié)是提升數(shù)據(jù)質量的重要環(huán)節(jié)?!豆鹕虡I(yè)評論》近期的一項研究表明,人們將80%的時間用于數(shù)據(jù)清理和組織,而數(shù)據(jù)挖掘分析時間僅占20%。有了Tempo大數(shù)據(jù)分析平臺,數(shù)據(jù)預處理將變得簡單高效!下面我們來看看其中一些重要的功能。
Tempo大數(shù)據(jù)分析平臺支持多種數(shù)據(jù)預處理方法,包括對行、列、表的30余種數(shù)據(jù)預處理節(jié)點,實現(xiàn)數(shù)據(jù)清理,集成,變換,歸約等數(shù)據(jù)預處理,為挖掘分析做好準備。其中行處理包括:數(shù)據(jù)過濾、排序、隨機抽樣、數(shù)據(jù)平衡等;列處理包括:重命名、屬性過濾、屬性生成、隨機數(shù)生成、缺失值處理、字符型/數(shù)值型/日期型屬性變換、設置角色等;表處理包括:數(shù)據(jù)連接、數(shù)據(jù)追加、數(shù)據(jù)拆分、數(shù)據(jù)分解、分類匯總、表轉置等;高級處理包括:數(shù)據(jù)平滑、主成分分析、因子分析、孤立點分析、RFM、季節(jié)解構、異常值檢測、奇異值分解、分箱、局部多項式回歸等。
以某企業(yè)的全國銷售訂單分析為例,在構建挖掘分析模型前需要進行數(shù)據(jù)預處理。
第一步,數(shù)據(jù)連接
將銷售訂單數(shù)據(jù)表與客戶信息數(shù)據(jù)表做數(shù)據(jù)表連接,連接方式為內連接,如下圖所示,將兩表以城市、顧客姓名及訂單號相同為連接條件,組合成包含銷售訂單信息及客戶信息的數(shù)據(jù)寬表。
第二步,數(shù)據(jù)過濾
通過數(shù)據(jù)過濾節(jié)點,將寬表數(shù)據(jù)中符合分析條件的數(shù)據(jù)篩選出來,如下圖所示,篩選出銷售額大于50萬的客戶。
第三步,屬性生成
通過屬性生成節(jié)點,構造新的屬性。如下圖所示,構建新的屬性產品評價單價和凈利潤。
第四步,缺失值處理
將所有字段進行缺失值處理,支持對不同的字段類型采用不同的缺失值處理方式,如下圖所示,如數(shù)值型字段支持用平均值、最大值、最小值、中位數(shù)、眾數(shù)或自定義等方式進行缺失值的處理,字符型和日期型數(shù)據(jù)支持最多次數(shù)項、最少次數(shù)項或自定義方式進行缺失值處理。
第五步,異常值檢測
異常值檢測利用原始數(shù)據(jù)的分布的特征情況,對存在異常和噪聲的數(shù)據(jù)進行檢測和識別。如下圖所示,可基于四分位距進行異常值檢測也可根據(jù)業(yè)務情況自定義異常值條件來檢測異常值,支持直接刪除異常值、用均值替換異常值、僅輸出異常值及標記異常值并輸出整表等操作。這里我們自定義折扣點大于1或銷售額小于0或者訂單數(shù)量基于四分位距的異常值點,不作為分析數(shù)據(jù),將異常值直接刪除,從而進行下一步分析。(我們也可以將異常值數(shù)據(jù)輸出單獨分析,也許能發(fā)現(xiàn)一些業(yè)務問題)
第六步,數(shù)值型屬性變換
根據(jù)客戶的銷售額情況,請客戶分為小客戶、大客戶、重要客戶三個等級。如下圖所示,數(shù)值型屬性變換_區(qū)間轉字符,我們定義銷售額在50-100萬的客戶為小客戶,100萬-500萬的為大客戶,500萬以上的為重要客戶。
第七步,主成分分析
為了減少變量數(shù)目并避免多重共線性,用主成分分析方法,在保留原有數(shù)據(jù)90%的信息的基礎上提取主成分,然后再用主成分參與構建模型。
第八步,設置角色
將主成分分析的計算結果作為自變量,構建KMeans聚類模型,進行模型評估,將模型結果輸出到指定的關系庫中,如下圖所示。
運用Tempo大數(shù)據(jù)分析平臺通過使用靈活多樣的數(shù)據(jù)預處理手段,大大提升了數(shù)據(jù)質量,為后續(xù)構建挖掘模型提供了更精準的數(shù)據(jù),同時使構建的數(shù)據(jù)挖掘模型更貼合業(yè)務實際,為后續(xù)業(yè)務應用打下了堅實的基礎!