欧美40老熟妇色xxxxx,免费+国产+在线观看,末成年女a∨片一区二区,久久伊人色av天堂九九,免费中文熟妇在线影片

美林數(shù)據(jù)
ABOUT US
美林數(shù)據(jù)技術(shù)股份有限公司(簡稱:美林數(shù)據(jù),NEEQ:831546)是國內(nèi)知名的數(shù)據(jù)治理和數(shù)據(jù)分析服務(wù)提供商。

【數(shù)據(jù)建模工具】數(shù)據(jù)處理算法分享之孤立點分析

2022-10-09 17:56:33
孤立點是指數(shù)據(jù)集中的那些小模式數(shù)據(jù),其可能是度量或執(zhí)行錯誤所導(dǎo)致的,或固有數(shù)據(jù)中的特異樣本點。是基于聚類的、分析多維數(shù)據(jù)集的孤立點檢測方法。先是將數(shù)據(jù)集中的所有樣本按照某種聚類算法做初步聚類,然后根據(jù)聚類信息(包括類內(nèi)距、類間距、類中心等),計算每一樣本點屬于孤立點的程度,最終根據(jù)所屬程度的排序確定指定數(shù)量的孤立點。
一、算法思想
孤立點分析,又稱離群點檢測,多維空間中基于聚類的離群點診斷方法從綜合分析的角度,通過聚類和計算樣本點與數(shù)據(jù)組群之間的距離,以及距離遠近的判斷,實現(xiàn)里全店的診斷以及離群點成因的分析。
離群點分析包括三個階段:第一階段是聚類,即根據(jù)“親疏程度”將樣本聚成若干類;第二階段是計算離群度,即在第一階段聚類結(jié)果的基礎(chǔ)上,依據(jù)距離度量(這里是對數(shù)似然距離),計算所有樣本點的異常性測度指標(biāo)值(這里是離群度);第三階段是診斷,即在第二階段異常性度量值的基礎(chǔ)上,確定最終的離群點,并分析導(dǎo)致這些樣本點異常的原因,也就是分析離群點主要在哪些變量方向上呈現(xiàn)異常。以下就這三個階段分別討論。
?第一階段
計算距離閾值與樣本聚類,主要如下:
首先是計算距離閾值,其值在CF樹生長的過程中會被用到。距離閾值的計算公式為:
數(shù)據(jù)建模工具
其中,數(shù)據(jù)建模工具為每個數(shù)值型列的取值范圍(即max-min );數(shù)據(jù)建模工具為各名詞列屬性的取值個數(shù)。
然后將所有輸入變量視為聚類變量,進行CF樹聚類,生成一棵完整的聚類樹,其每個葉子結(jié)點表示一個聚類。這里的CF樹是個二叉樹,其每個結(jié)點存儲了所含樣本的統(tǒng)計信息,具體包括:結(jié)點內(nèi)所有樣本點的數(shù)值屬性向量和V,所有樣本點的數(shù)值屬性向量平方和SV,所含樣本點數(shù)及各樣本ID,以及所含樣本點名詞列的各取值個數(shù)統(tǒng)計。
?第二階段
第二階段的任務(wù)是在第一階段聚類結(jié)果及其統(tǒng)計信息的基礎(chǔ)上,計算各樣本點的離群測度指標(biāo)值,包括組差異指標(biāo)GDI、變量差異指標(biāo)VDI、異常指標(biāo)值A(chǔ)I及變量貢獻指標(biāo)VCM。
?第三階段
第二階段計算得到了所有樣本點的GDI、VDI、AI和VCM,本階段將依據(jù)這些指標(biāo)的排序結(jié)果,確定離群點并分析離群點異常的原因。
① 將AI按照降序排序,排在前m位的樣本點可能是離群點。同時,m位置的AI值就是離群點的判斷標(biāo)準。大于該值的為離群點,小于為非離群點。
② 對于離群點,將VDI按照降序排序,排在前L位的變量是導(dǎo)致該點可能異常的主要原因。
二、數(shù)據(jù)格式

  • 數(shù)值型和字符型字段;
三、參數(shù)說明
數(shù)據(jù)挖掘分析

參數(shù) 類型 描述
選擇變量 列表框 用戶指定需要進行孤立點分析的屬性列,屬性列的數(shù)據(jù)類型為數(shù)值型
選擇方法 下拉框 提供按照數(shù)量和按照比例等方式進行孤立點樣本個數(shù)篩選。當(dāng)按比例指定孤立點個數(shù)時,需設(shè)置比例大小數(shù)值。當(dāng)按數(shù)量指定孤立點個數(shù)時,需設(shè)置數(shù)量的具體數(shù)值,默認選擇按照數(shù)量
數(shù)量 文本框 設(shè)置按照數(shù)量方式進行孤立點樣本篩選的個數(shù),正整數(shù),默認值為5
比例大小 文本框 設(shè)置按照比例方式進行孤立點樣本篩選的比例,正數(shù),取值范圍:(0,1],默認值為0.01
導(dǎo)致孤立點異常的最主要列個數(shù) 文本框 對于多維數(shù)據(jù)集,算法除了識別出孤立點外,還能夠分析每個孤立點異常的列原因。該參數(shù)用于指定要分析前多少個導(dǎo)致孤立點異常的主要因素列,正整型,默認值為1。
四、結(jié)果說明
數(shù)據(jù)建模
屬性列“isExceptional”表明樣本是否為異常孤立點樣本;
屬性列“exceptionCol_1”表明導(dǎo)致異常孤立點的第1個主要因素列;
屬性列“exceptionCol1_degree”表明導(dǎo)致異常孤立點的第1個主要因素列的度;
五、演示實例
通過Tempo機器學(xué)習(xí)平臺構(gòu)建如下流程:
Tempo機器學(xué)習(xí)平臺
【文件輸入】節(jié)點配置如下:
Tempo機器學(xué)習(xí)平臺
【孤立點分析】節(jié)點配置如下:
Tempo機器學(xué)習(xí)平臺
流程運行結(jié)果如下:
數(shù)據(jù)挖掘建模


服務(wù)熱線
400-608-2558
咨詢熱線
15502965860
美林數(shù)據(jù)
微信掃描二維碼,立即在線咨詢