欧美40老熟妇色xxxxx,免费+国产+在线观看,末成年女a∨片一区二区,久久伊人色av天堂九九,免费中文熟妇在线影片

美林?jǐn)?shù)據(jù)
ABOUT US
美林?jǐn)?shù)據(jù)技術(shù)股份有限公司(簡(jiǎn)稱:美林?jǐn)?shù)據(jù),NEEQ:831546)是國(guó)內(nèi)知名的數(shù)據(jù)治理和數(shù)據(jù)分析服務(wù)提供商。

數(shù)據(jù)挖掘方法論—企業(yè)數(shù)據(jù)挖掘成功之道(方法篇)

2019-05-24 16:34:29
在過(guò)去幾年,隨著信息化技術(shù)的高速發(fā)展,數(shù)據(jù)逐漸變?yōu)槠髽I(yè)最有價(jià)值的戰(zhàn)略資產(chǎn),人們迫切希望能夠從數(shù)據(jù)中發(fā)掘價(jià)值和探索規(guī)律,以便為企業(yè)在研發(fā)、生產(chǎn)、營(yíng)銷、管理、運(yùn)維等各個(gè)環(huán)節(jié)遇到的問(wèn)題提供新的解決思路,用數(shù)字化戰(zhàn)略為企業(yè)賦能。

為什么需要一個(gè)數(shù)據(jù)挖掘方法論?
要實(shí)現(xiàn)對(duì)數(shù)據(jù)價(jià)值的深度發(fā)掘,數(shù)據(jù)挖掘技術(shù)無(wú)疑是最有效的手段之一。對(duì)于企業(yè)來(lái)說(shuō),要開(kāi)展數(shù)據(jù)挖掘項(xiàng)目,就必須要了解數(shù)據(jù)挖掘項(xiàng)目是區(qū)別于傳統(tǒng)的軟件開(kāi)發(fā)類項(xiàng)目,其呈現(xiàn)出復(fù)雜性高、周期長(zhǎng)、不確定高等特點(diǎn),特別是不確定性高,是其最典型的特點(diǎn),主要體現(xiàn)在數(shù)據(jù)的不確定性、結(jié)果的不確定性和方案的不確性等方面,這樣就導(dǎo)致整個(gè)數(shù)據(jù)挖掘項(xiàng)目管控難度高,因此一個(gè)行之有效的數(shù)據(jù)挖掘方法論(明確的流程模型)是非常有必要的。
數(shù)據(jù)挖掘方法論

行業(yè)數(shù)據(jù)挖掘方法論都有哪些?
長(zhǎng)期以來(lái),隨著數(shù)據(jù)挖掘市場(chǎng)的發(fā)展和成熟,由不同的組織機(jī)構(gòu)提出過(guò)很多的方法論,如CRISP-DM、SEMMA、5A等,其中CRISP-DM、SEMMA是應(yīng)用最為廣泛。CRISP-DM (cross-industry standard process for data mining),即為“跨行業(yè)數(shù)據(jù)挖掘過(guò)程標(biāo)準(zhǔn)"。此KDD過(guò)程模型于1999年歐盟機(jī)構(gòu)聯(lián)合起草. 通過(guò)近幾年的發(fā)展,CRISP-DM 模型在各種KDD過(guò)程模型中占據(jù)領(lǐng)先位置,采用量達(dá)到近60%。排在其后的是由SAS公司提出的SEMMA。SEMMA更偏重于數(shù)據(jù)挖掘的建模過(guò)程,與SAS的EM工具進(jìn)行整合,其模型管理部署部分則體現(xiàn)在另外的工具套件中。CRISP-DM是從一個(gè)數(shù)據(jù)挖掘項(xiàng)目執(zhí)行的角度談方法論,CRISP- DM的考慮的范圍比SEMMA 要大。CRISP-DM強(qiáng)調(diào),數(shù)據(jù)挖掘不單是數(shù)據(jù)的組織或者呈現(xiàn),也不僅是數(shù)據(jù)分析和統(tǒng)計(jì)建模,而是一個(gè)從理解業(yè)務(wù)需求、尋求解決方案到接受實(shí)踐檢驗(yàn)的完整過(guò)程。因此,從一個(gè)項(xiàng)目的管理實(shí)施完整流程來(lái)說(shuō),CRISP-DM更適用一些,本文后續(xù)主要以CRISP-DM為主進(jìn)行詳細(xì)介紹。


行業(yè)數(shù)據(jù)挖掘

CRISP- DM方法論
CRISP-DM方法論將一個(gè)數(shù)據(jù)挖掘項(xiàng)目的生命周期分為六個(gè)階段,其中包括業(yè)務(wù)理解(business understanding),數(shù)據(jù)理解 (data understanding),數(shù)據(jù)準(zhǔn)備(data preparation),建立模型(modeling),評(píng)估模型(evaluation)和結(jié)果部署(deployment)。這六個(gè)階段的順序是不固定的,我們經(jīng)常需要前后調(diào)整這些階段。這依賴每個(gè)階段或是階段中特定任務(wù)的產(chǎn)出物是否是下一個(gè)階段必須的輸入。圖中箭頭指出了最重要的和依賴度高的階段關(guān)系。
CRISP- DM方法論
階段一:業(yè)務(wù)理解(business understanding)
業(yè)務(wù)理解,指從業(yè)務(wù)角度來(lái)理解項(xiàng)目目標(biāo)和要求,接著把這些理解知識(shí)轉(zhuǎn)換成數(shù)據(jù)挖掘問(wèn)題的定義和實(shí)現(xiàn)目標(biāo)的最初規(guī)劃。
數(shù)據(jù)挖掘-業(yè)務(wù)理解

在這個(gè)階段,主要通過(guò)業(yè)務(wù)需求調(diào)研,明確要解決的業(yè)務(wù)問(wèn)題,如果業(yè)務(wù)問(wèn)題一開(kāi)始不明確,就需要從整個(gè)企業(yè)的內(nèi)部不同業(yè)務(wù)板塊(如營(yíng)銷、生產(chǎn)、管理等)或從企業(yè)與上下游產(chǎn)業(yè)鏈之間的關(guān)系來(lái)切入與業(yè)務(wù)專家進(jìn)行研討,形成分析主題庫(kù),同時(shí)需要對(duì)每個(gè)業(yè)務(wù)問(wèn)題的產(chǎn)生背景、業(yè)務(wù)流程、業(yè)務(wù)價(jià)值、傳統(tǒng)解決方法及效果、相關(guān)數(shù)據(jù)資源、涉及哪些部門及領(lǐng)導(dǎo)等內(nèi)容,調(diào)研一定要充分,基于這些調(diào)研內(nèi)容可以對(duì)于主題庫(kù)中的分析主題從可行性、價(jià)值性、難易度等多方面進(jìn)行衡量,為分析主題開(kāi)展的優(yōu)先級(jí)提供指導(dǎo)。業(yè)務(wù)目標(biāo)確定后,一方面需要從業(yè)務(wù)角度確定成功的標(biāo)準(zhǔn),這個(gè)有利于最后判定結(jié)果的有效性和價(jià)值性,另一方面也需要確定數(shù)據(jù)挖掘目標(biāo)、初步方案和成功標(biāo)準(zhǔn),在成功標(biāo)準(zhǔn)度量指標(biāo)這里需要結(jié)合當(dāng)前傳統(tǒng)方式的效果和歷史建模經(jīng)驗(yàn)綜合來(lái)確定,同時(shí)也必須要保障該標(biāo)準(zhǔn)具備可驗(yàn)證性,這也是最后保障項(xiàng)目驗(yàn)收成功的重要依據(jù),很多項(xiàng)目最終失敗,都是忽略了這個(gè)環(huán)節(jié),一定要慎重。

階段二:數(shù)據(jù)理解 (data understanding)
數(shù)據(jù)理解,指從數(shù)據(jù)收集開(kāi)始,然后接著是一系列活動(dòng),這些活動(dòng)的目的是:熟悉數(shù)據(jù),甄別數(shù)據(jù)質(zhì)量問(wèn)題、發(fā)現(xiàn)對(duì)數(shù)據(jù)的真知灼見(jiàn)、或者探索出令人感興趣的數(shù)據(jù)子集并形成對(duì)隱藏信息的假設(shè)。
數(shù)據(jù)挖掘-數(shù)據(jù)理解

在這個(gè)階段,主要的工作就是基于業(yè)務(wù)理解階段梳理的數(shù)據(jù)需求,收集原始數(shù)據(jù),同時(shí)對(duì)于數(shù)據(jù)的數(shù)據(jù)量(維度和樣本大小)、數(shù)據(jù)的質(zhì)量(缺失值、異常值、不一致性等),數(shù)據(jù)的分布規(guī)律(各種統(tǒng)計(jì)指標(biāo))等進(jìn)行初步探索,初步判斷該數(shù)據(jù)是否具備初步分析的可行性,形成一份數(shù)據(jù)質(zhì)量分析報(bào)告。同時(shí)對(duì)于預(yù)測(cè)性問(wèn)題,如分類、回歸等問(wèn)題,需要明確目標(biāo)變量,很多目標(biāo)變量可以不是通過(guò)單一變量直接獲取,需要通過(guò)多個(gè)變量結(jié)合業(yè)務(wù)進(jìn)行確定,如確定一個(gè)用戶是否是欠費(fèi)用戶,則需要從欠費(fèi)次數(shù)和欠費(fèi)金額兩個(gè)維度確定欠費(fèi)用戶的判定規(guī)則,規(guī)則定義的嚴(yán)苛程度,需要與建模的正負(fù)樣本分布、業(yè)務(wù)的認(rèn)可度、數(shù)據(jù)的分布等多個(gè)方面綜合制定。

階段三:數(shù)據(jù)準(zhǔn)備(data preparation)
數(shù)據(jù)準(zhǔn)備,指從最初原始數(shù)據(jù)構(gòu)建最終建模數(shù)據(jù)的全部活動(dòng)。數(shù)據(jù)準(zhǔn)備很可能被執(zhí)行多次并且不以任何既定的秩序進(jìn)行。包括為建模工作準(zhǔn)備數(shù)據(jù)的選擇、轉(zhuǎn)換、清洗、構(gòu)造、整合及格式化等多種數(shù)據(jù)預(yù)處理工作。
數(shù)據(jù)挖掘-數(shù)據(jù)準(zhǔn)備

在這個(gè)階段,最終目標(biāo)是要基于業(yè)務(wù)理解階段的建模方案構(gòu)建建模所需的寬表,即將多個(gè)表信息進(jìn)行整合,包括表之間的聯(lián)接,明細(xì)數(shù)據(jù)的匯總加工等,同時(shí)在過(guò)程中需要對(duì)于數(shù)據(jù)的質(zhì)量問(wèn)題(包括缺失值、異常值等)進(jìn)行處理;對(duì)數(shù)據(jù)的字段進(jìn)行變換,如規(guī)范化和標(biāo)準(zhǔn)化,或都將數(shù)據(jù)進(jìn)行映射變換,如Log變化,數(shù)值型按區(qū)間轉(zhuǎn)換成名詞型字段等多種加工策略;在特征工程這里,一方面需要從業(yè)務(wù)角度加工新的計(jì)算指標(biāo),另一方面需要進(jìn)行自動(dòng)特征構(gòu)建、特征選擇、特征降維等方面的工作,來(lái)提升模型的性能。數(shù)據(jù)準(zhǔn)備階段的工作,經(jīng)常會(huì)隨著模型性能的評(píng)估結(jié)果進(jìn)行反復(fù)調(diào)整和優(yōu)化,以便為建模提供更高質(zhì)量的數(shù)據(jù)。

階段四:建立模型(modeling)
建立模型,指選擇和使用各種建模技術(shù),并對(duì)其參數(shù)進(jìn)行調(diào)優(yōu)。一般地,相同數(shù)據(jù)挖掘問(wèn)題類型會(huì)有幾種技術(shù)手段。某些技術(shù)對(duì)于數(shù)據(jù)形式有特殊規(guī)定,這通常需要重新返回到數(shù)據(jù)準(zhǔn)備階段。
數(shù)據(jù)挖掘建模

在這個(gè)階段,主要基于業(yè)務(wù)理解階段確定的建模方案,選擇相應(yīng)的建模算法,開(kāi)始建模和評(píng)估模型。這個(gè)階段在建模算法的選擇方面,需要注意兩個(gè)問(wèn)題,一是算法和參數(shù)的選擇上,可以按照經(jīng)常選擇常用的方法和參數(shù)來(lái)調(diào)試,也可以使用自動(dòng)學(xué)習(xí)類的方法,如自動(dòng)擇參/分類/回歸/聚類/時(shí)序等方面,來(lái)自動(dòng)選擇算法和參數(shù),降低在這個(gè)階段的嘗試成本,提升效率。二是需要結(jié)合建模的精度,對(duì)于建模方案進(jìn)行優(yōu)化,最為典型的就是開(kāi)始定位為某一類數(shù)據(jù)挖掘問(wèn)題,可以轉(zhuǎn)換成另一類數(shù)據(jù)挖掘問(wèn)題的方式來(lái)解決,如回歸問(wèn)題,可以轉(zhuǎn)換成分類問(wèn)題來(lái)解決,當(dāng)然前提是對(duì)于數(shù)值預(yù)測(cè)的單值準(zhǔn)確性要求不高。時(shí)序問(wèn)題,可以轉(zhuǎn)換成回歸問(wèn)題來(lái)解決等方面,這個(gè)更依賴于個(gè)人的建模經(jīng)驗(yàn)。

階段五:評(píng)估模型(evaluation)
評(píng)估模型,指在此階段,需要從技術(shù)層面判斷模型效果以及從業(yè)務(wù)層面判斷模型在實(shí)際商業(yè)環(huán)境當(dāng)中的實(shí)用性。
數(shù)據(jù)挖掘模型評(píng)估

在這個(gè)階段,已經(jīng)從建立模型階段獲取了從理論上性能表現(xiàn)更好的模型,需要結(jié)合業(yè)務(wù)階段確定的數(shù)據(jù)挖掘模型的成功標(biāo)準(zhǔn),回歸到實(shí)際業(yè)務(wù)中進(jìn)行模型性能的實(shí)測(cè),可以采用A/B測(cè)試的方案進(jìn)行評(píng)測(cè)。這個(gè)階段的工作,是需要有相關(guān)的業(yè)務(wù)部讓或營(yíng)銷部來(lái)來(lái)配合的,所以需要提前在項(xiàng)目計(jì)劃中確定需要協(xié)調(diào)的資源和評(píng)測(cè)的方案,評(píng)測(cè)的對(duì)比方案一定要得到客戶方認(rèn)可才行,以便降低反復(fù)評(píng)測(cè)的風(fēng)險(xiǎn)。

階段六:結(jié)果部署(deployment)
結(jié)果部署,指將其發(fā)現(xiàn)的結(jié)果以及過(guò)程組織成為可讀文本形式或?qū)⒛P瓦M(jìn)行工程化封裝滿足業(yè)務(wù)系統(tǒng)使用需求。
數(shù)據(jù)挖掘結(jié)果部署

在這個(gè)階段,已經(jīng)得到的理論和實(shí)際驗(yàn)證后的模型,需要將模型的成果書面化,從六個(gè)階段進(jìn)行總結(jié),形成數(shù)據(jù)分析報(bào)告,在這個(gè)過(guò)程中,也是對(duì)整個(gè)分析流程的再度審查,保障模型成果的真實(shí)性和準(zhǔn)確性。如果涉及到工程化應(yīng)用,還需要將模型發(fā)布成不同方式(調(diào)度、同步/異步服務(wù)API、實(shí)時(shí)服務(wù)等),供其它業(yè)務(wù)系統(tǒng)進(jìn)行整合,形成最終的決策應(yīng)用系統(tǒng),指導(dǎo)實(shí)際業(yè)務(wù)的開(kāi)展。最后,對(duì)于模型上線后的性能需要定期進(jìn)行監(jiān)測(cè),以便后期對(duì)于模型性能進(jìn)行持續(xù)性的優(yōu)化工作。

以上,是我結(jié)合個(gè)人實(shí)際項(xiàng)目經(jīng)驗(yàn)對(duì)于數(shù)據(jù)挖掘項(xiàng)目實(shí)施方法論的理解與總結(jié),希望能給企業(yè)決策者、數(shù)據(jù)分析師和項(xiàng)目管理人員有一定的啟發(fā)和收獲,最后,我想強(qiáng)調(diào)的一點(diǎn)是,數(shù)據(jù)挖掘項(xiàng)目的特點(diǎn)決定了它是有失敗的風(fēng)險(xiǎn)的,方法論可以降低的項(xiàng)目失敗的風(fēng)險(xiǎn),但我們必須要正確看待失敗,因?yàn)轫?xiàng)目的探索過(guò)程中沉淀的知識(shí)和成果是對(duì)于企業(yè)來(lái)說(shuō)是也非常寶貴的,因此從企業(yè)的管理層來(lái)說(shuō),必須要有足夠的耐心和信心對(duì)于這類項(xiàng)目以足夠支持。
 

服務(wù)熱線
400-608-2558
咨詢熱線
15502965860
美林?jǐn)?shù)據(jù)
微信掃描二維碼,立即在線咨詢