欧美40老熟妇色xxxxx,免费+国产+在线观看,末成年女a∨片一区二区,久久伊人色av天堂九九,免费中文熟妇在线影片

美林?jǐn)?shù)據(jù)
ABOUT US
美林?jǐn)?shù)據(jù)技術(shù)股份有限公司(簡稱:美林?jǐn)?shù)據(jù),NEEQ:831546)是國內(nèi)知名的數(shù)據(jù)治理和數(shù)據(jù)分析服務(wù)提供商。

數(shù)據(jù)分析中的特征構(gòu)建方法:屬性生成、隨機(jī)數(shù)/ID生成、特征交叉等

2023-12-11 16:52:02
數(shù)據(jù)分析中,特征工程是一項(xiàng)至關(guān)重要的任務(wù)。特征工程指的是對原始數(shù)據(jù)進(jìn)行處理,以提取出對數(shù)據(jù)模型建立有價值的特征,同時也幫助減少數(shù)據(jù)集上預(yù)測模型的誤差。下文將介紹幾種常見的特征工程方法,包括特征構(gòu)建、特征變換和特征降維,以及一些常用的特征處理工具和方法。
特征構(gòu)建
對于特征構(gòu)建產(chǎn)生新變量,可以使用屬性生成、隨機(jī)數(shù)/ID生成、特征交叉、高級特征交叉、WOE編碼、特征編碼和過程查詢分析器節(jié)點(diǎn)來實(shí)現(xiàn)。
屬性生成節(jié)點(diǎn)包括字符函數(shù)、數(shù)值函數(shù)、日期函數(shù)、邏輯函數(shù)、業(yè)務(wù)函數(shù)、正則函數(shù)和其它函數(shù),除了直接使用現(xiàn)有的一些函數(shù)外,還可以實(shí)現(xiàn)一些指標(biāo)之間的加減乘除等基本運(yùn)算。
隨機(jī)數(shù)/ID生成節(jié)點(diǎn)可以在原數(shù)據(jù)集上新增一列隨機(jī)數(shù)或ID列,生成的ID列可用于之后對數(shù)據(jù)進(jìn)行排序、兩張表通過ID列進(jìn)行連接等情況。
特征交叉節(jié)點(diǎn)對于數(shù)值屬性可以進(jìn)行加減乘除生成新變量,對于字符型屬性,可以進(jìn)行兩兩拼接產(chǎn)生新變量。還可以在設(shè)置因變量后,通過設(shè)置最小標(biāo)準(zhǔn)差的方式保留大于指定的標(biāo)準(zhǔn)差的特征或設(shè)置最大相關(guān)系數(shù)的方式保留小于指定的相關(guān)系數(shù)的特征。
高級特征交叉節(jié)點(diǎn)通過按照給定的條件篩選字段、自動生成特征、輸出模型需要的特征向量。對于數(shù)值型因變量支持FM算法,對于字符型因變量支持GBDT_Feature算法。
WOE編碼節(jié)點(diǎn)是對原始自變量的一種編碼形式,表示自變量取某個值的時候?qū)憫?yīng)比例的一種影響。該節(jié)點(diǎn)執(zhí)行后輸出每個屬性每個區(qū)間的woe編碼值和屬性的IV值,可根據(jù)IV值進(jìn)行變量篩選。
特征編碼節(jié)點(diǎn)是將字段按照給的方法完成由原始數(shù)據(jù)到新數(shù)據(jù)的映射,生成新的特征,方便數(shù)據(jù)進(jìn)行建模。對字符型屬性支持OneHotEncoder、LabelEncoder編碼,對數(shù)值型屬性支持Binarizer編碼。
過程查詢分析器節(jié)點(diǎn)打開節(jié)點(diǎn)配置界面后首先點(diǎn)擊數(shù)據(jù)表,之后再點(diǎn)擊計算列可以對現(xiàn)有的表中變量進(jìn)行函數(shù)計算生成新變量,支持?jǐn)?shù)值函數(shù)、字符函數(shù)、日期函數(shù)、類型轉(zhuǎn)換和邏輯運(yùn)算。
特征變換
對于特征變換可以使用屬性變換類節(jié)點(diǎn)、數(shù)據(jù)分組、分箱和數(shù)據(jù)標(biāo)準(zhǔn)化節(jié)點(diǎn)。
屬性變換類節(jié)點(diǎn)包括數(shù)值型屬性變換、字符型屬性變換和日期型屬性變換節(jié)點(diǎn),通過這些節(jié)點(diǎn)可以將指標(biāo)類型進(jìn)行變換。
數(shù)據(jù)分組節(jié)點(diǎn)支持將數(shù)值型數(shù)據(jù)按用戶指定的范圍進(jìn)行分組,將字符型數(shù)據(jù)按照指定的類別進(jìn)行分組。分箱節(jié)點(diǎn)用于將連續(xù)型數(shù)據(jù)離散化的情況。
數(shù)據(jù)標(biāo)準(zhǔn)化節(jié)點(diǎn)支持最大最小歸一化、最大歸一化和Z標(biāo)準(zhǔn)化。
特征降維
特征降維可以使用主成分分析、因子分析、奇異值分析和變量選擇節(jié)點(diǎn)對數(shù)據(jù)進(jìn)行降維。
主成分分析的目的是為了使用最少數(shù)量的主成分來解釋最大量的方差??梢允褂弥鞒煞址治鰷p少變量數(shù)目并避免多重共線性,也可以在相對于觀測值數(shù)目而言有太多預(yù)測變量時使用主成分分析。提取方法可選擇因子數(shù)或累計貢獻(xiàn)度。
因子分析是一種非常有用的多變量分析技術(shù),通常用來研究沒有因變量和自變量之分的一組變量之間的關(guān)系。該節(jié)點(diǎn)可以對輸入的多元數(shù)據(jù)分析,判斷這些相互依賴的變量是否指示了潛在的結(jié)構(gòu),可以對多變量實(shí)現(xiàn)消減,用新的、更小的由原始變量組合而成的新變量進(jìn)一步分析。該節(jié)點(diǎn)的因子提取方法可以選擇MINRES、最大似然估計、主成分,對于最終提取的因子個數(shù)可以選擇直接設(shè)置因子數(shù)或挑選特征值大于1的因子數(shù)。
當(dāng)數(shù)據(jù)存在噪聲時,大的奇異值對應(yīng)了矩陣中的主要信息,利用其來逼近矩陣并保留80%至90%的能量就能夠提取出數(shù)據(jù)中的重要特征并去掉噪聲。奇異值分解通過將一個復(fù)雜的任意矩陣用更小更簡單的幾個矩陣相乘來表示,這些小矩陣就是矩陣的重要特征,可以有效地對數(shù)據(jù)進(jìn)行泛化的同時又可以降維減少運(yùn)算量。該節(jié)點(diǎn)可通過最大因子數(shù)來指定需要分解的因子數(shù)。
變量選擇節(jié)點(diǎn)可以根據(jù)特征變量和響應(yīng)變量之間關(guān)系輸出特征變量重要性,根據(jù)變量重要性用戶可以選擇有效變量以降低數(shù)據(jù)集維度,用于提高學(xué)習(xí)算法性能。當(dāng)特征向量為數(shù)值型,響應(yīng)變量為字符型時,變量選擇方法為“卡方檢驗(yàn)”;當(dāng)特征向量為數(shù)值型,響應(yīng)變量為數(shù)值型時,變量選擇方法為“lasso”;當(dāng)特征向量為字符型,響應(yīng)變量為數(shù)值型時,變量選擇方法為“F檢驗(yàn)”。
使用Tempo人工智能平臺構(gòu)建的案例
根據(jù)業(yè)務(wù)知識,使用屬性生成節(jié)點(diǎn)構(gòu)造正常運(yùn)行次數(shù)和正常運(yùn)行點(diǎn)數(shù)指標(biāo),如下圖:
數(shù)據(jù)分析中的特征構(gòu)建方法
之后對各指標(biāo)進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化,為后續(xù)數(shù)據(jù)模型建立做準(zhǔn)備,數(shù)據(jù)標(biāo)準(zhǔn)化節(jié)點(diǎn)參數(shù)配置界面如下:
數(shù)據(jù)分析中的特征構(gòu)建方法
因自變量個數(shù)太多,直接參與數(shù)據(jù)建模效果不佳,故可以先進(jìn)行降維,這里選擇主成分分析節(jié)點(diǎn),最終選擇3個主成分參與模型建立,主成分分析節(jié)點(diǎn)輸出模型和結(jié)果如下圖:
數(shù)據(jù)分析中的特征構(gòu)建方法
特征工程是對數(shù)據(jù)進(jìn)行特征構(gòu)建、轉(zhuǎn)換、降維等處理,目標(biāo)是為后續(xù)建模過程提供數(shù)據(jù)。
總之,特征工程是數(shù)據(jù)分析中不可或缺的一環(huán)。數(shù)據(jù)分析師必須有過硬的技術(shù)背景和領(lǐng)域知識,才能通過一些數(shù)學(xué)和工程的手段,將原始數(shù)據(jù)生成更有用和有效的數(shù)據(jù)特征,以達(dá)到更好更準(zhǔn)確的數(shù)據(jù)建模目的。


服務(wù)熱線
400-608-2558
咨詢熱線
15502965860
美林?jǐn)?shù)據(jù)
微信掃描二維碼,立即在線咨詢