欧美40老熟妇色xxxxx,免费+国产+在线观看,末成年女a∨片一区二区,久久伊人色av天堂九九,免费中文熟妇在线影片

美林數(shù)據(jù)
ABOUT US
美林數(shù)據(jù)技術股份有限公司(簡稱:美林數(shù)據(jù),NEEQ:831546)是國內(nèi)知名的數(shù)據(jù)治理和數(shù)據(jù)分析服務提供商。

數(shù)據(jù)挖掘大揭秘:聚類分析的關鍵步驟和應用場景

2023-12-13 19:10:12
聚類分析是無監(jiān)督學習,即我們事先不知道正確結(jié)果,數(shù)據(jù)沒有附帶標簽,需要通過某些算法來發(fā)現(xiàn)數(shù)據(jù)內(nèi)在的本質(zhì)和規(guī)律,從而實現(xiàn)對數(shù)據(jù)內(nèi)在關聯(lián)結(jié)構(gòu)的分類。聚類分析就是根據(jù)樣本間的相似性對樣本集進行分組,使得組內(nèi)差距最小化,組間差距最大化。如:客戶細分、用戶畫像、新聞聚類、基因分類等。數(shù)據(jù)挖掘和業(yè)務分析提供了有力支持。
聚類分析流程步驟如下:
第一步接入數(shù)據(jù):聚類算法要求接入結(jié)構(gòu)化數(shù)據(jù),自變量數(shù)據(jù)類型為數(shù)值型或字符型,不支持日期型和文本型。若接入的自變量數(shù)據(jù)不滿足聚類分析的數(shù)據(jù)要求,可以通過屬性變化節(jié)點進行數(shù)據(jù)類型轉(zhuǎn)換或重新接入數(shù)據(jù)。
第二步設置角色:通過設置角色節(jié)點確定聚類分析研究的屬性列,設置為自變量。聚類算法必須設置自變量,不支持設置因變量,自變量可以是連續(xù)型(數(shù)值)也可以是離散型(字符)。當然在設置角色節(jié)點之前也可以根據(jù)實際業(yè)務和數(shù)據(jù)情況進行原始數(shù)據(jù)的清洗、集成、轉(zhuǎn)換、離散、歸約、特征選擇和提取等一系列預處理工作,達到挖掘建模的數(shù)據(jù)標準。
第三步建立模型:根據(jù)分析方案和處理后的業(yè)務數(shù)據(jù)構(gòu)建聚類模型,平臺內(nèi)置9種聚類算法可以直接拖拽使用,并配置對應的模型參數(shù),包括:KMeans、模糊C均值、EM聚類、Hierarchy、Kohonen聚類、視覺聚類、Canopy、冪迭代和兩步聚類。當我們不清楚當前數(shù)據(jù)更適合哪種聚類算法,或不清楚多個模型中哪個模型效果更好時,我們有兩種處理方案:方案一,通過多分支節(jié)點將相同的輸入數(shù)據(jù)同時傳遞給多個不同的聚類模型,由平臺推薦出多個模型中的最優(yōu)模型;第二種,通過自動聚類節(jié)點選擇多個聚類算法一次性構(gòu)建模型,該節(jié)點內(nèi)嵌自動擇參功能,將多個算法及其對應的多組參數(shù)生成的多種模型進行評估比較,最終幫助我們推薦出最佳算法及相應的最佳參數(shù)組合。
第四步模型評估:利用聚類評估節(jié)點檢驗聚類模型的可靠性,在洞察中根據(jù)一些評價的指標(如總離差平方和等)或者圖表展示,獲得質(zhì)量最佳的聚類模型。
完成上述建模之后執(zhí)行流程,流程執(zhí)行成功后自動跳轉(zhuǎn)至洞察頁面,在洞察頁面點擊可以查看模型的分析結(jié)果,我們通過示例流程來詳細介紹。點擊【KMeans】查看聚類結(jié)果,在聚類圖中以看到各類別的樣本數(shù),聚類1樣本數(shù)39個,聚類2樣本數(shù)50個,聚類3樣本數(shù)61個,如下圖所示:
數(shù)據(jù)分析大揭秘:聚類分析的關鍵步驟和應用場景
點擊【聚類評估】查看模型的評估結(jié)果,如下圖:
數(shù)據(jù)分析大揭秘:聚類分析的關鍵步驟和應用場景
總離差平方和,值越小說明真實數(shù)值與期望值之間相差越小,可被用來評估模型的準確率。輪廓系數(shù)、DB系數(shù)、Dunn系數(shù),3個系數(shù)均是值越大聚類效果越好。我們從聚類評估結(jié)果可以看出,KMeans算法的總離差平方和都比較小,輪廓系數(shù)值都在0.8以上,模型聚類效果較好。
再來看數(shù)據(jù)集的情況,可以看到最后一列屬性“prediction”為類別標簽列。
數(shù)據(jù)分析大揭秘:聚類分析的關鍵步驟和應用場景
 
服務熱線
400-608-2558
咨詢熱線
15502965860
美林數(shù)據(jù)
微信掃描二維碼,立即在線咨詢