大量的數(shù)據(jù)中隱藏著商業(yè)價值,各行各業(yè)都在做大數(shù)據(jù)分析,挖掘數(shù)據(jù)價值,但是卻很少有人關(guān)注數(shù)據(jù)質(zhì)量的問題,數(shù)據(jù)分析質(zhì)量高不高,直接影響數(shù)據(jù)分析成果的價值,保證數(shù)據(jù)質(zhì)量才是數(shù)據(jù)分析的關(guān)鍵。
數(shù)據(jù)質(zhì)量體現(xiàn)為數(shù)據(jù)的正確性、準確性、不矛盾性、一致性、完整性和集成性這六大方面。數(shù)據(jù)質(zhì)量在數(shù)據(jù)分析的各個環(huán)節(jié)都應(yīng)加以控制和保證,從數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)分析到最后數(shù)據(jù)分析成果展現(xiàn)及應(yīng)用,其中數(shù)據(jù)處理環(huán)節(jié)是提升數(shù)據(jù)質(zhì)量的重要環(huán)節(jié)。《哈佛商業(yè)評論》的一項研究表明,人們將80%的時間用于數(shù)據(jù)清理和組織,而數(shù)據(jù)分析時間僅占20%。有了Tempo,數(shù)據(jù)預(yù)處理將變得簡單高效!下面我們來看看其中一些重要的功能。
Tempo 支持多種數(shù)據(jù)預(yù)處理方法,包括對行、列、表的30余種數(shù)據(jù)預(yù)處理節(jié)點,實現(xiàn)數(shù)據(jù)清理,集成,變換,歸約等數(shù)據(jù)預(yù)處理,為挖掘分析做好準備。其中行處理包括:數(shù)據(jù)過濾、排序、隨機抽樣、數(shù)據(jù)平衡等;列處理包括:重命名、屬性過濾、屬性生成、隨機數(shù)生成、缺失值處理、字符型/數(shù)值型/日期型屬性變換、設(shè)置角色等;表處理包括:數(shù)據(jù)連接、數(shù)據(jù)追加、數(shù)據(jù)拆分、數(shù)據(jù)分解、分類匯總、表轉(zhuǎn)置等;高級處理包括:數(shù)據(jù)平滑、主成分分析、因子分析、孤立點分析、RFM、季節(jié)解構(gòu)、異常值檢測、奇異值分解、分箱、局部多項式回歸、過程查詢分析器等。
以某企業(yè)的全國銷售訂單分析為例,在構(gòu)建挖掘分析模型前需要進行數(shù)據(jù)預(yù)處理。