【數(shù)據(jù)挖掘算法分享】機器學(xué)習(xí)平臺——回歸算法之支持向量機
2022-08-19 13:51:00
次
在機器學(xué)習(xí)中,支持向量機是具有相關(guān)學(xué)習(xí)算法的監(jiān)督學(xué)習(xí)模型,用于分析用于分類和回歸分析的數(shù)據(jù)。在支持向量回歸中,擬合數(shù)據(jù)所需的直線稱為超平面。
支持向量機回歸(Support Vector Regression, SVR) 方法是支持向量機(Support Vector Machines, SVMs) 處理回歸問題的算法。它通過定義 epsilon 帶,將回歸問題轉(zhuǎn)換為分類問題,以極大化類間間隔為目標,并以之作為最佳回歸超平面。
算法思想:
支撐向量機回歸(Support Vector Regression, SVR) 方法是支撐向量機(Support Vector Machines, SVMs) 處理回歸問題的算法。它通過定義 epsilon 帶,將回歸問題轉(zhuǎn)換為分類問題,以極大化類間間隔為目標,并以之作為最佳回歸超平面。其中定義的類間間隔為兩類樣本到分類超平面的最小距離。通過引入松弛變量,使支撐向量機能夠解決類間重疊問題,并提高泛化能力;另一方面引入核函數(shù)能夠使算法處理非線性分類問題。
支持向量機回歸算法,假設(shè)能容忍f(x)與y之間最多有 ε 的偏差,即當f(x)與y之間的差別絕對值大于ε 時才計算損失。于是,SVR問題可形式化為:
其中C為正則化參數(shù),
是 ε-不敏感損失函數(shù):
可采用序列優(yōu)化算法進行求解,算法整體步驟如下:
1、給定訓(xùn)練數(shù)據(jù)樣本集
,選取適當?shù)暮撕瘮?shù)
核適當?shù)膮?shù)C和適當?shù)木葏?shù)ε,并構(gòu)造求解最優(yōu)化問題.
求解最優(yōu)解
2、選擇
的一個正分量0<
3、構(gòu)造決策函數(shù)
是正定核函數(shù)。
支撐向量機回歸在解決小樣本、非線性及高維模式識別問題中表現(xiàn)出許多特有的優(yōu)勢,并能夠推廣應(yīng)用到函數(shù)擬合等其他機器學(xué)習(xí)問題中,且其最終的決策函數(shù)只由少數(shù)支持向量所確定,計算復(fù)雜性取決與支持向量的數(shù)目,而不是樣本數(shù)量,在某種意義是上避免了維數(shù)災(zāi)難。
數(shù)據(jù)格式
- 必須設(shè)置類屬性(輸出),且類屬性(輸出)必須是連續(xù)型(數(shù)值);
- 非類屬性(輸入)可以是連續(xù)型(數(shù)值)也可以是離散型(名詞);
參數(shù)說明
參數(shù) |
類型 |
描述 |
數(shù)據(jù)標準化 |
下拉框 |
設(shè)置數(shù)據(jù)標準化的方法,字符型,取值范圍:無處理,歸一化,標準化,默認值為無處理 |
取值區(qū)間下限 |
文本框 |
設(shè)置歸一化取值區(qū)間下限,浮點型,取值范圍:[0,∞),默認值為0 |
取值區(qū)間上限 |
文本框 |
設(shè)置歸一化取值區(qū)間上限,浮點型,取值范圍:[0,∞),默認值為1 |
正則化參數(shù) |
文本框 |
正則化參數(shù)控制機器的復(fù)雜度,浮點型,取值范圍:[0,∞),默認值為0.01 |
迭代步長 |
文本框 |
設(shè)置每次迭代的步長,浮點型,取值范圍:(0,∞),默認值為0.01 |
最大迭代次數(shù) |
文本框 |
設(shè)置最大迭代次數(shù),整型,取值范圍:[1,∞),默認值為100 |
最小批樣本比例 |
文本框 |
設(shè)置每次迭代的樣本比例,浮點型,取值范圍:(0,1],默認值為1 |
是否顯示變量重要性 |
復(fù)選框 |
用戶選擇是否分析每個變量對于回歸結(jié)果的影響程度,如果選擇是,則在洞察中顯示參與建模的每個變量對于模型的貢獻程度情況 |
結(jié)果說明
未設(shè)置核函數(shù),所以是線性SVM,因此模型為線性方程及其系數(shù)。
最后一列屬性“prediction”為預(yù)測列。
演示實例
在Tempo機器學(xué)習(xí)平臺中構(gòu)建如下流程:
【文件輸入】節(jié)點配置如下:
【設(shè)置角色】節(jié)點配置如下:
【SVM回歸】節(jié)點配置如下:
流程運行結(jié)果如下: