數(shù)據(jù)分析常見問題的解決思路
2023-12-07 19:13:20
次
在數(shù)據(jù)分析項目中明確問題類型后,即可根據(jù)不同的問題初步設計解決思路,確定大致的解決問題框架,公司參與了很多項目,積累了大量的業(yè)務知識和業(yè)務成果,我們面對的項目有很大可能存在可供參考的先例,借鑒歷史相似案例的模型設計思路可以提升項目交付效率,本文總結了幾個經典具體問題的解決思路。
1、尋找關鍵因素
關鍵因素是通過對大量的歷史數(shù)據(jù)分析,尋找影響結果的關鍵因素。在尋找關鍵因素時,我們可以使用多種方法去提取影響目標變量的關鍵因素。可以將關鍵因素的尋找問題轉換為回歸問題,在對于目標變量為數(shù)值型時,去構建回歸模型,從而在模型中尋找出關鍵的因素和影響程度。又可以使用統(tǒng)計分析方法去尋找關鍵因素,比如主成分分析、因子分析、卡方檢驗、lasso、F檢驗等。
例如某地PM2.5影響因素分析項目中,PM2.5是空氣中直徑小于2.5微米的顆粒物,能夠長時間懸浮在空中,其能夠長時間懸浮在空中,因其粒徑較小,表面積大,易于集聚有毒物質,是霾的成因之一。它隨著呼吸進入到人體肺部,危害人體的呼吸系統(tǒng)和心血管系統(tǒng),導致咳嗽、心率失常等疾病的發(fā)生,對心肺病患危害尤為重要??蛻舻哪繕耸悄男┮蛩貙Ξa生PM2.5息息相關,根據(jù)已有PM2.5的歷史樣本信息判斷PM2.5含量,從而尋找出關鍵因素。使用回歸算法建議PM2.5預測模型,從而得到影響PM2.5的因素為一氧化氮、觀測數(shù)據(jù)發(fā)生的時間點、臭氧等。
2、預測分析
一般對于預測分析問題,根據(jù)業(yè)務目標和數(shù)據(jù)類型可以判斷屬于回歸問題還是分類問題,確定問題類型之后,可以將其進行轉換處理。當目標變量為字符型時,判斷屬于分類問題,可以使用分類算法去解決,當目標變量為數(shù)值型時,判斷屬于回歸問題,可以使用回歸算法去解決,但有時候可以將分類問題轉換成回歸問題進行處理。
例如在石油壓裂井預測項目中,原來的目標是預測是否對油井壓裂,但是實際模型實施過程中,需要知道油井壓裂后具體的產量,從而根據(jù)產品去判斷是否給井上壓。這時就可以將油井是否壓裂預測轉變?yōu)橛途畨毫阎螽a油量情況,就需要使用回歸方法進行產油量的預測,得到產油量預測結果,結合現(xiàn)有的業(yè)務規(guī)則進行結果的區(qū)間劃分,從而去挑選出需要壓裂的井信息,為業(yè)務人員做參考。
3、評價類問題的定性和定量解法
定性評價和定量評價是什么。簡單來說,定量評價是將評價指標量化,并采用模型和數(shù)學統(tǒng)計方法對評價對象做出判斷。定性評價是帶有主觀性的評價做出判斷。
在實際的分析項目中經常會遇到“設備運行狀態(tài)評價”等這種評價類的問題,首先去判斷給出的指標類型,從而判斷是使用定性評價還是定量評價,有時候為了更精準的把每一類設備或者用戶進行描述,需要將定性和定量的方法結合起來進行綜合的描繪。
例如在泵站機組運行狀態(tài)評價中,利用泵站機組的擺度方數(shù)據(jù)、振動數(shù)據(jù)、瓦溫、油溫數(shù)據(jù)、電機數(shù)據(jù)等,基于AHP層次分析法綜合評價算法,構建泵組機組運行狀態(tài)評價模型,從而實現(xiàn)水泵機組實時運行狀態(tài)的綜合評價。
例如設備運行狀態(tài)的重過載精準預測,基于設備的基本信息數(shù)據(jù)、資產信息數(shù)據(jù)、投入信息數(shù)據(jù)、運行數(shù)據(jù)等,利用綜合評價算法完成設備運行狀態(tài)智能感知,并將其結果劃分為優(yōu)、良、劣、差四級?;谠u價結果,再結合設備投運年限、設備半年內重過載情況、設備上一年同期運行情況等數(shù)據(jù),利用分類算法可以預測出哪些配變下個月的哪一天會發(fā)生重過載,為檢修部門提供精準維護配變名單。
4、信號分析
信號是工業(yè)領域中多種時變要素的表示方式,它不同于關系型業(yè)務數(shù)據(jù)的特殊性,屬于單一數(shù)據(jù)類型,次序與間隔包含時間信息,使其難以直接使用現(xiàn)有數(shù)據(jù)分析工具,并且大量的機器學習、深度學習方法難以直接應用于原生信號數(shù)據(jù)形式。因此平臺針對信號數(shù)據(jù)擁有特有的信號接入,信號處理,信號特征提取等算法去對信號數(shù)據(jù)進行分析。主要的分析思路可根據(jù)下方進行構建。