巨胸喷奶水www视频网站,久人人爽人人爽人人片av,欧美成人看片一区二三区图文

產(chǎn)品簡介

美林新聞/NEWS

首頁美林數(shù)據(jù) 行業(yè)資訊

數(shù)據(jù)挖掘大揭秘：聚類分析的關鍵步驟和應用場景

2023-12-13 19:10:12 次

聚類分析是無監(jiān)督學習，即我們事先不知道正確結(jié)果，數(shù)據(jù)沒有附帶標簽，需要通過某些算法來發(fā)現(xiàn)數(shù)據(jù)內(nèi)在的本質(zhì)和規(guī)律，從而實現(xiàn)對數(shù)據(jù)內(nèi)在關聯(lián)結(jié)構(gòu)的分類。聚類分析就是根據(jù)樣本間的相似性對樣本集進行分組，使得組內(nèi)差距最小化，組間差距最大化。如：客戶細分、用戶畫像、新聞聚類、基因分類等。為數(shù)據(jù)挖掘和業(yè)務分析提供了有力支持。

聚類分析流程步驟如下：

第一步接入數(shù)據(jù)：聚類算法要求接入結(jié)構(gòu)化數(shù)據(jù)，自變量數(shù)據(jù)類型為數(shù)值型或字符型，不支持日期型和文本型。若接入的自變量數(shù)據(jù)不滿足聚類分析的數(shù)據(jù)要求，可以通過屬性變化節(jié)點進行數(shù)據(jù)類型轉(zhuǎn)換或重新接入數(shù)據(jù)。

第二步設置角色：通過設置角色節(jié)點確定聚類分析研究的屬性列，設置為自變量。聚類算法必須設置自變量，不支持設置因變量，自變量可以是連續(xù)型（數(shù)值）也可以是離散型（字符）。當然在設置角色節(jié)點之前也可以根據(jù)實際業(yè)務和數(shù)據(jù)情況進行原始數(shù)據(jù)的清洗、集成、轉(zhuǎn)換、離散、歸約、特征選擇和提取等一系列預處理工作，達到挖掘建模的數(shù)據(jù)標準。

第三步建立模型：根據(jù)分析方案和處理后的業(yè)務數(shù)據(jù)構(gòu)建聚類模型，平臺內(nèi)置9種聚類算法可以直接拖拽使用，并配置對應的模型參數(shù)，包括：KMeans、模糊C均值、EM聚類、Hierarchy、Kohonen聚類、視覺聚類、Canopy、冪迭代和兩步聚類。當我們不清楚當前數(shù)據(jù)更適合哪種聚類算法，或不清楚多個模型中哪個模型效果更好時，我們有兩種處理方案：方案一，通過多分支節(jié)點將相同的輸入數(shù)據(jù)同時傳遞給多個不同的聚類模型，由平臺推薦出多個模型中的最優(yōu)模型；第二種，通過自動聚類節(jié)點選擇多個聚類算法一次性構(gòu)建模型，該節(jié)點內(nèi)嵌自動擇參功能，將多個算法及其對應的多組參數(shù)生成的多種模型進行評估比較，最終幫助我們推薦出最佳算法及相應的最佳參數(shù)組合。

第四步模型評估：利用聚類評估節(jié)點檢驗聚類模型的可靠性，在洞察中根據(jù)一些評價的指標（如總離差平方和等）或者圖表展示，獲得質(zhì)量最佳的聚類模型。

完成上述建模之后執(zhí)行流程，流程執(zhí)行成功后自動跳轉(zhuǎn)至洞察頁面，在洞察頁面點擊可以查看模型的分析結(jié)果，我們通過示例流程來詳細介紹。點擊【KMeans】查看聚類結(jié)果，在聚類圖中以看到各類別的樣本數(shù)，聚類1樣本數(shù)39個，聚類2樣本數(shù)50個，聚類3樣本數(shù)61個，如下圖所示：

點擊【聚類評估】查看模型的評估結(jié)果，如下圖：

總離差平方和，值越小說明真實數(shù)值與期望值之間相差越小，可被用來評估模型的準確率。輪廓系數(shù)、DB系數(shù)、Dunn系數(shù)，3個系數(shù)均是值越大聚類效果越好。我們從聚類評估結(jié)果可以看出，KMeans算法的總離差平方和都比較小，輪廓系數(shù)值都在0.8以上，模型聚類效果較好。

再來看數(shù)據(jù)集的情況，可以看到最后一列屬性“prediction”為類別標簽列。

上一篇：探討分類分析和回歸分析在機器學習中的實際應用下一篇：深入數(shù)據(jù)挖掘：揭秘關聯(lián)分析的核心技術

欧美40老熟妇色xxxxx,免费+国产+在线观看,末成年女a∨片一区二区,久久伊人色av天堂九九,免费中文熟妇在线影片

Tempo大數(shù)據(jù)分析平臺

Tempo商業(yè)智能平臺

Tempo人工智能平臺

Tempo數(shù)據(jù)工廠平臺

Tempo數(shù)據(jù)治理平臺

Tempo主數(shù)據(jù)管理平臺

Tempo指標平臺

自助式可視化分析

算法模型管理

指標管理解決方案

數(shù)字指揮中心

湖倉一體解決方案

智能場景應用構(gòu)建

主數(shù)據(jù)應用監(jiān)管

數(shù)據(jù)中臺

發(fā)電

電網(wǎng)

制造

油氣

煤炭

高校

政企

金融

科研院所

DCMM認證

DAMA認證

美林數(shù)據(jù)

合作生態(tài)

內(nèi)容中心

幫助中心

美林新聞

行業(yè)資訊

產(chǎn)品簡介

Tempo商業(yè)智能平臺

Tempo人工智能平臺

Tempo數(shù)據(jù)工廠平臺

Tempo指標平臺

Tempo數(shù)據(jù)治理平臺

Tempo主數(shù)據(jù)管理平臺

相關推薦

美林新聞/NEWS

數(shù)據(jù)挖掘大揭秘：聚類分析的關鍵步驟和應用場景

聯(lián)系我們

400-608-2558 029-8869-6198

掃碼關注我們

掃碼立即咨詢