欧美40老熟妇色xxxxx,免费+国产+在线观看,末成年女a∨片一区二区,久久伊人色av天堂九九,免费中文熟妇在线影片

美林數(shù)據(jù)
ABOUT US
美林數(shù)據(jù)技術股份有限公司(簡稱:美林數(shù)據(jù),NEEQ:831546)是國內知名的數(shù)據(jù)治理和數(shù)據(jù)分析服務提供商。

簡單八步:幫您打通數(shù)據(jù)挖掘分析的任督二脈

2018-08-13 16:56:00
大量的數(shù)據(jù)中隱藏著商業(yè)價值,各行各業(yè)都在做大數(shù)據(jù)挖掘分析,尋找數(shù)據(jù)價值,但是卻很少有人關注數(shù)據(jù)質量的問題,數(shù)據(jù)挖掘分析質量高不高,直接影響數(shù)據(jù)挖掘分析成果的價值,保證數(shù)據(jù)質量才是數(shù)據(jù)挖掘分析的關鍵。
 
數(shù)據(jù)質量體現(xiàn)為數(shù)據(jù)的正確性、準確性、不矛盾性、一致性、完整性和集成性這六大方面。數(shù)據(jù)質量在數(shù)據(jù)挖掘分析的各個環(huán)節(jié)都應用加以控制和保證,從數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)挖掘分析到最后數(shù)據(jù)挖掘分析成果展現(xiàn)及應用,其中數(shù)據(jù)處理環(huán)節(jié)是提升數(shù)據(jù)質量的重要環(huán)節(jié)?!豆鹕虡I(yè)評論》近期的一項研究表明,人們將80%的時間用于數(shù)據(jù)清理和組織,而數(shù)據(jù)挖掘分析時間僅占20%。有了Tempo大數(shù)據(jù)分析平臺,數(shù)據(jù)預處理將變得簡單高效!下面我們來看看其中一些重要的功能。
 
Tempo大數(shù)據(jù)分析平臺支持多種數(shù)據(jù)預處理方法,包括對行、列、表的30余種數(shù)據(jù)預處理節(jié)點,實現(xiàn)數(shù)據(jù)清理,集成,變換,歸約等數(shù)據(jù)預處理,為挖掘分析做好準備。其中行處理包括:數(shù)據(jù)過濾、排序、隨機抽樣、數(shù)據(jù)平衡等;列處理包括:重命名、屬性過濾、屬性生成、隨機數(shù)生成、缺失值處理、字符型/數(shù)值型/日期型屬性變換、設置角色等;表處理包括:數(shù)據(jù)連接、數(shù)據(jù)追加、數(shù)據(jù)拆分、數(shù)據(jù)分解、分類匯總、表轉置等;高級處理包括:數(shù)據(jù)平滑、主成分分析、因子分析、孤立點分析、RFM、季節(jié)解構、異常值檢測、奇異值分解、分箱、局部多項式回歸等。
 
以某企業(yè)的全國銷售訂單分析為例,在構建挖掘分析模型前需要進行數(shù)據(jù)預處理。

第一步,數(shù)據(jù)連接

將銷售訂單數(shù)據(jù)表與客戶信息數(shù)據(jù)表做數(shù)據(jù)表連接,連接方式為內連接,如下圖所示,將兩表以城市、顧客姓名及訂單號相同為連接條件,組合成包含銷售訂單信息及客戶信息的數(shù)據(jù)寬表。
 
Tempo大數(shù)據(jù)分析平臺-數(shù)據(jù)連接

第二步,數(shù)據(jù)過濾
 
通過數(shù)據(jù)過濾節(jié)點,將寬表數(shù)據(jù)中符合分析條件的數(shù)據(jù)篩選出來,如下圖所示,篩選出銷售額大于50萬的客戶。
 
Tempo大數(shù)據(jù)分析平臺-數(shù)據(jù)過濾
 

第三步,屬性生成

通過屬性生成節(jié)點,構造新的屬性。如下圖所示,構建新的屬性產品評價單價和凈利潤。
 
Tempo大數(shù)據(jù)分析平臺-屬性生成
 
第四步,缺失值處理
 
將所有字段進行缺失值處理,支持對不同的字段類型采用不同的缺失值處理方式,如下圖所示,如數(shù)值型字段支持用平均值、最大值、最小值、中位數(shù)、眾數(shù)或自定義等方式進行缺失值的處理,字符型和日期型數(shù)據(jù)支持最多次數(shù)項、最少次數(shù)項或自定義方式進行缺失值處理。
 
Tempo大數(shù)據(jù)分析平臺-缺失值處理

第五步,異常值檢測

異常值檢測利用原始數(shù)據(jù)的分布的特征情況,對存在異常和噪聲的數(shù)據(jù)進行檢測和識別。如下圖所示,可基于四分位距進行異常值檢測也可根據(jù)業(yè)務情況自定義異常值條件來檢測異常值,支持直接刪除異常值、用均值替換異常值、僅輸出異常值及標記異常值并輸出整表等操作。這里我們自定義折扣點大于1或銷售額小于0或者訂單數(shù)量基于四分位距的異常值點,不作為分析數(shù)據(jù),將異常值直接刪除,從而進行下一步分析。(我們也可以將異常值數(shù)據(jù)輸出單獨分析,也許能發(fā)現(xiàn)一些業(yè)務問題)
 
 
Tempo大數(shù)據(jù)分析平臺-異常檢測
 

第六步,數(shù)值型屬性變換

根據(jù)客戶的銷售額情況,請客戶分為小客戶、大客戶、重要客戶三個等級。如下圖所示,數(shù)值型屬性變換_區(qū)間轉字符,我們定義銷售額在50-100萬的客戶為小客戶,100萬-500萬的為大客戶,500萬以上的為重要客戶。
 
Tempo大數(shù)據(jù)分析平臺-數(shù)值型屬性變換

第七步,主成分分析

為了減少變量數(shù)目并避免多重共線性,用主成分分析方法,在保留原有數(shù)據(jù)90%的信息的基礎上提取主成分,然后再用主成分參與構建模型。
 
Tempo大數(shù)據(jù)分析平臺-主成分分析

第八步,設置角色

將主成分分析的計算結果作為自變量,構建KMeans聚類模型,進行模型評估,將模型結果輸出到指定的關系庫中,如下圖所示。
 
Tempo大數(shù)據(jù)分析平臺-設置角色
 
運用Tempo大數(shù)據(jù)分析平臺通過使用靈活多樣的數(shù)據(jù)預處理手段,大大提升了數(shù)據(jù)質量,為后續(xù)構建挖掘模型提供了更精準的數(shù)據(jù),同時使構建的數(shù)據(jù)挖掘模型更貼合業(yè)務實際,為后續(xù)業(yè)務應用打下了堅實的基礎!
服務熱線
400-608-2558
咨詢熱線
15502965860
美林數(shù)據(jù)
微信掃描二維碼,立即在線咨詢