久久免费精品国产72精品九九,美女露出奶头扒开尿口免费网站

^{<blockquote id="dyo0o"></blockquote>}

產品簡介

美林新聞/NEWS

簡單八步：幫您打通數(shù)據(jù)挖掘分析的任督二脈

2018-08-13 16:56:00 次

大量的數(shù)據(jù)中隱藏著商業(yè)價值，各行各業(yè)都在做大數(shù)據(jù)挖掘分析，尋找數(shù)據(jù)價值，但是卻很少有人關注數(shù)據(jù)質量的問題，數(shù)據(jù)挖掘分析質量高不高，直接影響數(shù)據(jù)挖掘分析成果的價值，保證數(shù)據(jù)質量才是數(shù)據(jù)挖掘分析的關鍵。

數(shù)據(jù)質量體現(xiàn)為數(shù)據(jù)的正確性、準確性、不矛盾性、一致性、完整性和集成性這六大方面。數(shù)據(jù)質量在數(shù)據(jù)挖掘分析的各個環(huán)節(jié)都應用加以控制和保證，從數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)挖掘分析到最后數(shù)據(jù)挖掘分析成果展現(xiàn)及應用，其中數(shù)據(jù)處理環(huán)節(jié)是提升數(shù)據(jù)質量的重要環(huán)節(jié)?！豆鹕虡I(yè)評論》近期的一項研究表明，人們將80%的時間用于數(shù)據(jù)清理和組織，而數(shù)據(jù)挖掘分析時間僅占20%。有了Tempo大數(shù)據(jù)分析平臺，數(shù)據(jù)預處理將變得簡單高效！下面我們來看看其中一些重要的功能。

Tempo大數(shù)據(jù)分析平臺支持多種數(shù)據(jù)預處理方法，包括對行、列、表的30余種數(shù)據(jù)預處理節(jié)點，實現(xiàn)數(shù)據(jù)清理，集成，變換，歸約等數(shù)據(jù)預處理，為挖掘分析做好準備。其中行處理包括：數(shù)據(jù)過濾、排序、隨機抽樣、數(shù)據(jù)平衡等；列處理包括：重命名、屬性過濾、屬性生成、隨機數(shù)生成、缺失值處理、字符型/數(shù)值型/日期型屬性變換、設置角色等；表處理包括：數(shù)據(jù)連接、數(shù)據(jù)追加、數(shù)據(jù)拆分、數(shù)據(jù)分解、分類匯總、表轉置等；高級處理包括：數(shù)據(jù)平滑、主成分分析、因子分析、孤立點分析、RFM、季節(jié)解構、異常值檢測、奇異值分解、分箱、局部多項式回歸等。

以某企業(yè)的全國銷售訂單分析為例，在構建挖掘分析模型前需要進行數(shù)據(jù)預處理。

第一步，數(shù)據(jù)連接

將銷售訂單數(shù)據(jù)表與客戶信息數(shù)據(jù)表做數(shù)據(jù)表連接，連接方式為內連接，如下圖所示，將兩表以城市、顧客姓名及訂單號相同為連接條件，組合成包含銷售訂單信息及客戶信息的數(shù)據(jù)寬表。

第二步，數(shù)據(jù)過濾

通過數(shù)據(jù)過濾節(jié)點，將寬表數(shù)據(jù)中符合分析條件的數(shù)據(jù)篩選出來，如下圖所示，篩選出銷售額大于50萬的客戶。

第三步，屬性生成

通過屬性生成節(jié)點，構造新的屬性。如下圖所示，構建新的屬性產品評價單價和凈利潤。

第四步，缺失值處理

將所有字段進行缺失值處理，支持對不同的字段類型采用不同的缺失值處理方式，如下圖所示，如數(shù)值型字段支持用平均值、最大值、最小值、中位數(shù)、眾數(shù)或自定義等方式進行缺失值的處理，字符型和日期型數(shù)據(jù)支持最多次數(shù)項、最少次數(shù)項或自定義方式進行缺失值處理。

第五步，異常值檢測

異常值檢測利用原始數(shù)據(jù)的分布的特征情況，對存在異常和噪聲的數(shù)據(jù)進行檢測和識別。如下圖所示，可基于四分位距進行異常值檢測也可根據(jù)業(yè)務情況自定義異常值條件來檢測異常值，支持直接刪除異常值、用均值替換異常值、僅輸出異常值及標記異常值并輸出整表等操作。這里我們自定義折扣點大于1或銷售額小于0或者訂單數(shù)量基于四分位距的異常值點，不作為分析數(shù)據(jù)，將異常值直接刪除，從而進行下一步分析。（我們也可以將異常值數(shù)據(jù)輸出單獨分析，也許能發(fā)現(xiàn)一些業(yè)務問題）

第六步，數(shù)值型屬性變換

根據(jù)客戶的銷售額情況，請客戶分為小客戶、大客戶、重要客戶三個等級。如下圖所示，數(shù)值型屬性變換_區(qū)間轉字符，我們定義銷售額在50-100萬的客戶為小客戶，100萬-500萬的為大客戶，500萬以上的為重要客戶。

第七步，主成分分析

為了減少變量數(shù)目并避免多重共線性，用主成分分析方法，在保留原有數(shù)據(jù)90%的信息的基礎上提取主成分，然后再用主成分參與構建模型。

第八步，設置角色

將主成分分析的計算結果作為自變量，構建KMeans聚類模型，進行模型評估，將模型結果輸出到指定的關系庫中，如下圖所示。

運用Tempo大數(shù)據(jù)分析平臺通過使用靈活多樣的數(shù)據(jù)預處理手段，大大提升了數(shù)據(jù)質量，為后續(xù)構建挖掘模型提供了更精準的數(shù)據(jù)，同時使構建的數(shù)據(jù)挖掘模型更貼合業(yè)務實際，為后續(xù)業(yè)務應用打下了堅實的基礎！

上一篇：Tempo數(shù)據(jù)挖掘—文本挖掘之信息抽取下一篇：Tempo大數(shù)據(jù)分析平臺數(shù)據(jù)挖掘算法優(yōu)勢

欧美40老熟妇色xxxxx,免费+国产+在线观看,末成年女a∨片一区二区,久久伊人色av天堂九九,免费中文熟妇在线影片

Tempo大數(shù)據(jù)分析平臺

Tempo商業(yè)智能平臺

Tempo人工智能平臺

Tempo數(shù)據(jù)工廠平臺

Tempo數(shù)據(jù)治理平臺

Tempo主數(shù)據(jù)管理平臺

Tempo指標平臺

自助式可視化分析

算法模型管理

指標管理解決方案

數(shù)字指揮中心

湖倉一體解決方案

智能場景應用構建

主數(shù)據(jù)應用監(jiān)管

數(shù)據(jù)中臺

發(fā)電

電網

制造

油氣

煤炭

高校

政企

金融

科研院所

DCMM認證

DAMA認證

美林數(shù)據(jù)

合作生態(tài)

內容中心

幫助中心

美林新聞

行業(yè)資訊

產品簡介

Tempo商業(yè)智能平臺

Tempo人工智能平臺

Tempo數(shù)據(jù)工廠平臺

Tempo指標平臺

Tempo數(shù)據(jù)資產管理平臺

Tempo主數(shù)據(jù)管理平臺

相關推薦

美林新聞/NEWS

簡單八步：幫您打通數(shù)據(jù)挖掘分析的任督二脈

第一步，數(shù)據(jù)連接

第三步，屬性生成

第五步，異常值檢測

第六步，數(shù)值型屬性變換

第七步，主成分分析

第八步，設置角色

聯(lián)系我們

400-608-2558 029-8869-6198