數(shù)據(jù)建模分析中數(shù)據(jù)統(tǒng)計關系常見類型與示例
2023-12-06 19:09:44
次
本文介紹4種數(shù)據(jù)統(tǒng)計關系常見類型:
1、單變量數(shù)據(jù)探索
可以使用描述數(shù)據(jù)特征節(jié)點對連續(xù)型或離散型數(shù)據(jù)的中心分布趨勢和變量的分布進行探索。對于連續(xù)型數(shù)據(jù),在洞察-模型【數(shù)值型變量統(tǒng)計信息】表格中進行各指標的查看;對于離散型數(shù)據(jù),在洞察-模型【字符或日期型變量統(tǒng)計信息】表格中進行各變量計數(shù)和占比統(tǒng)計信息的查看。
2、兩變量之間關系
可以使用散點圖、圓餅圖、分組折線圖、相關系數(shù)和方差分析節(jié)點進行分析。
散點圖用于描述兩個數(shù)值型變量之間關系。
圓餅圖用于描述一個字符型變量和一個數(shù)值型變量之間關系,按照某個分類變量顯示某分析變量的每一個數(shù)值相對于總數(shù)值的大小,其大小通過圓中的扇面來衡量。
分組折線圖是折線圖衍生圖。當不選擇分組變量時,可以用來顯示隨著時間(如日、月、年度)而變化的連續(xù)型數(shù)據(jù)。
相關系數(shù)節(jié)點支持相關系數(shù)選擇和方差膨脹因子的計算方法。相關系數(shù)的取值一般介于-1和1之間。當相關系數(shù)為正時,意味著變量之間是正相關;當相關系數(shù)為負時,意味著變量之間是負相關。方差膨脹因子表示變量之間復共性程度的數(shù)值。
方差分析節(jié)點僅針對單因素方差分析,用于判斷一個因素對另一個因素是否存在顯著性影響,因變量為分析因素,類型為數(shù)值型,因子為影響因素,可為數(shù)值型或字符型,最終可通過洞察中圖表或結果數(shù)據(jù)集中的P值進行判斷,P<0.05,表示因子的取值對因變量影響顯著。方差分析節(jié)點需要注意的是需要因子各類別樣本數(shù)不小于2,否則會運行失敗。
3、多變量之間關系
可以使用條線圖、散點圖矩陣、平行坐標圖、分組折線圖、分組散點圖、分組柱狀圖、相關系數(shù)、偏相關分析和概率單位回歸節(jié)點進行分析。
條線圖將柱形圖圖表與線型圖圖表組合起來繪制在一個圖表中。描述一個字符型與兩個數(shù)值型變量之間關系。
散點圖矩陣是散點圖的高維擴展,它從一定程度上克服了在平面上展示高維數(shù)據(jù)的困難。散點圖矩陣支持同時看到多個單獨變量的分布和它們兩兩之間的關系。
平行坐標圖用于描述一個字符型變量和兩個及兩個以上數(shù)值型變量之間關系,將高維數(shù)據(jù)的各個變量用一系列相互平行的坐標軸表示,以樣例數(shù)據(jù)中的Iris_Cluster為例,分組變量選擇label,分析變量選擇sepallength、sepalwidth、petallength和petalwidth,結果如下圖:
分組折線圖當對分組變量進行選擇后,可以用來描述不同分類變量下,數(shù)值型變量隨時間變化趨勢。
分組散點圖是散點圖的一種擴充展示圖,反映在分組變量下兩個變量之間的數(shù)據(jù)值關系和變化趨勢。分組散點圖在散點圖的基礎上增加了分組變量,比散點圖表達的信息更多。分組散點圖有兩種使用場景,一種是選擇多個Y軸字段,分組字段不可選的情況,那么就會將Y軸的每個字段的數(shù)據(jù)當作一個分組進行散點圖展示,以樣例數(shù)據(jù)中的Iris_Cluster為例X軸字段選擇sepallength,Y軸字段選擇sepalwidth和petalwidth進行畫圖,結果如下圖:
另一種場景是只選擇了一個Y軸字段,并且選擇了一個字符類型的字段作為分組字段,那么將會按照分組字段去進行散點圖分組展示,以樣例數(shù)據(jù)中的Iris_Cluster為例X軸字段選擇sepallength,Y軸字段選擇sepalwidth,分組字段選擇label,結果如下圖:
分組柱狀圖通過在圖變量的不同值之間比較數(shù)值或統(tǒng)計量來創(chuàng)建垂直、水平的分組柱狀圖。分組柱狀圖通過將條顯示為不同高度來展示數(shù)據(jù)的相對量值。每個條代表一類數(shù)據(jù)。分組柱狀圖也有兩種使用場景,一種是選擇多個Y軸字段,分組字段不可選的情況,那么就會將Y軸的每個字段當作一個分組進行柱狀圖展示(不同顏色表示不同分組),以樣例數(shù)據(jù)中的Iris_Cluster為例X軸字段選擇label,Y軸字段選擇sepallength、sepalwidth、petallength和petalwidth進行畫圖,結果如下圖:
另一種場景是只選擇了一個Y軸字段,并且選擇了一個字符類型的字段作為分組字段,那么將會按照分組字段去進行柱狀圖分組展示(不同顏色表示不同分組),以樣例數(shù)據(jù)中的Baskets_Association為例X軸字段選擇sex,Y軸字段選擇age,分組字段選擇homeown,結果如下圖:
偏相關分析用于當兩個變量同時與第三個變量相關時,將第三個變量的影響剔除,只分析另外兩個變量之間相關程度的情況。其中待分析的相關變量可以選擇多個,控制變量可以選擇一個或兩個。
概率單位回歸是將概率轉換為與自變量所對應的標準正態(tài)離差,將因變量反應率P轉換為單位概率,然后和協(xié)變量建立回歸關系,即完成了概率單位回歸方程構建。其中,協(xié)變量、觀測值匯總及響應頻率均為數(shù)值型變量,協(xié)變量變換方式包括“無”、“ln”、“log10”。
4、兩組變量/數(shù)據(jù)之間關系
可以使用典型相關分析和相似度節(jié)點進行分析。
典型相關分析節(jié)點針對一個數(shù)據(jù)集中的兩組變量進行分析,借用主成分分析降維的思想,分別對兩組變量提取主成分,且使兩組變量提取的主成分之間的相關程度達到最大,而從同一組內(nèi)部提取的各主成分之間互不相關,用從兩組之間分別提取的主成分的相關性來描述兩組變量整體的線性相關關系。
相似度節(jié)點針對兩組數(shù)據(jù)公共字段進行每行數(shù)據(jù)之間的距離計算從而衡量對象之間的相似程度。支持歐式距離、曼哈頓距離、余弦距離和Tanimoto距離進行對象的相似度計算,并且可指定輸出的相似文檔個數(shù)。