欧美40老熟妇色xxxxx,免费+国产+在线观看,末成年女a∨片一区二区,久久伊人色av天堂九九,免费中文熟妇在线影片

美林?jǐn)?shù)據(jù)
ABOUT US
美林?jǐn)?shù)據(jù)技術(shù)股份有限公司(簡稱:美林?jǐn)?shù)據(jù),NEEQ:831546)是國內(nèi)知名的數(shù)據(jù)治理和數(shù)據(jù)分析服務(wù)提供商。

AI時(shí)代,數(shù)據(jù)挖掘過時(shí)了嗎?—企業(yè)數(shù)據(jù)挖掘成功之道(理論篇)

2019-06-06 15:21:05
大數(shù)據(jù)時(shí)代、人工智能時(shí)代,機(jī)器學(xué)習(xí)、人工智能、深度學(xué)習(xí)、集成學(xué)習(xí)……概念漫天飛,數(shù)據(jù)挖掘似乎成為一個(gè)過時(shí)技術(shù)和概念。今天小編結(jié)合多年專業(yè)學(xué)習(xí)與研究經(jīng)驗(yàn),從實(shí)踐應(yīng)用的角度重新梳理一下“數(shù)據(jù)挖掘”,讓您能夠拋開概念了解本質(zhì)!
數(shù)據(jù)挖掘(Data Mining)隸屬于知識發(fā)現(xiàn)(KDD)的范疇,是(劃重點(diǎn))基于人工智能、機(jī)器學(xué)習(xí)、模式識別、統(tǒng)計(jì)學(xué)和數(shù)據(jù)庫等交叉方法,在數(shù)據(jù)中特別是大數(shù)據(jù)及海量數(shù)據(jù)中發(fā)現(xiàn)規(guī)律的過程,是從一個(gè)數(shù)據(jù)中提取、融合、處理信息,并將其轉(zhuǎn)換成可理解的結(jié)構(gòu)數(shù)據(jù)、可視化的分析圖表、可解釋的規(guī)律結(jié)論,以進(jìn)一步響應(yīng)業(yè)務(wù)分析的需求。它不是一個(gè)簡單的概念或者技術(shù),而是一種解決問題的思路和方法,是一個(gè)知識綜合應(yīng)用的技術(shù)集合。
 數(shù)據(jù)挖掘

數(shù)據(jù)挖掘涉及知識面廣,技術(shù)點(diǎn)多。在面對復(fù)雜多樣的業(yè)務(wù)分析場景時(shí),如何做出有效的數(shù)據(jù)挖掘分析方案其實(shí)是有一套可遵循的方法體系。針對不同的分析數(shù)據(jù)和業(yè)務(wù)場景,數(shù)據(jù)挖掘的方法可以分為監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、增強(qiáng)學(xué)習(xí),每種方法都有其適應(yīng)的分析場景和數(shù)據(jù)基礎(chǔ)。
 監(jiān)督式學(xué)習(xí)
監(jiān)督式學(xué)習(xí)是基于標(biāo)簽化的訓(xùn)練資料學(xué)習(xí)或建立一個(gè)映射模式, 依此模式推測新的實(shí)例;它包括:分類、回歸、估計(jì)等。 注意,定義強(qiáng)調(diào)‘標(biāo)簽化的訓(xùn)練資料’,這就要求分析的樣本數(shù)據(jù)是有標(biāo)注的。
半監(jiān)督學(xué)習(xí)是指訓(xùn)練集同時(shí)包含有標(biāo)記樣本數(shù)據(jù)和未標(biāo)記樣本數(shù)據(jù),并且不需要人工干預(yù),讓學(xué)習(xí)器不依賴外界交互、自動利用少量的標(biāo)注樣本和大量的未標(biāo)注樣本進(jìn)行訓(xùn)練和分類。半監(jiān)督學(xué)習(xí)對于減少標(biāo)注代價(jià),提高學(xué)習(xí)器性能具有非常重大的實(shí)際意義。
無監(jiān)督學(xué)習(xí)是指沒有給定事先標(biāo)記過的訓(xùn)練示例,自動對輸入的數(shù)據(jù)進(jìn)行分類或分群,包括:聚類、關(guān)聯(lián)規(guī)則分析、部分統(tǒng)計(jì)分析等。
增強(qiáng)學(xué)習(xí)(Reinforcement learning)即強(qiáng)化學(xué)習(xí),強(qiáng)調(diào)基于環(huán)境而行動,以取得最大化的預(yù)期利益。它采用的是邊獲得樣例邊學(xué)習(xí)的方式,在獲得樣例之后更新自己的模型,利用當(dāng)前模型來指導(dǎo)下一步行動,例如博弈論、控制論、仿真優(yōu)化、群體智能。
明確了業(yè)務(wù)分析場景和數(shù)據(jù)挖掘的方法,接下來就要思考如何完成數(shù)據(jù)挖掘分析的目標(biāo)。一般情況下,基于一定的業(yè)務(wù)場景和挖掘分析目標(biāo),數(shù)據(jù)挖掘的基本流程可以總結(jié)為以下幾個(gè)階段:數(shù)據(jù)探索、數(shù)據(jù)預(yù)處理、數(shù)據(jù)建模、模型評估和模型部署應(yīng)用。
 數(shù)據(jù)挖掘流程

數(shù)據(jù)探索
數(shù)據(jù)探索是對建模分析數(shù)據(jù)進(jìn)行先導(dǎo)性的洞察分析,利用繪制圖表、計(jì)算某些特征量等手段,對樣本數(shù)據(jù)集的結(jié)構(gòu)特征和分布特性進(jìn)行分析的過程。 該步驟有助于選擇合適的數(shù)據(jù)預(yù)處理和數(shù)據(jù)分析技術(shù),它是數(shù)據(jù)建模的依據(jù),比如:數(shù)據(jù)探索發(fā)現(xiàn)數(shù)據(jù)稀疏,建模時(shí)則選擇對稀疏數(shù)據(jù)支持相對較好的分析方案;如果數(shù)據(jù)包含文本數(shù)據(jù),建模時(shí)則需要考慮基于自然語言處理相關(guān)技術(shù)等。
 數(shù)據(jù)挖掘數(shù)據(jù)探索
數(shù)據(jù)預(yù)處理
數(shù)據(jù)預(yù)處理是將不規(guī)整的業(yè)務(wù)數(shù)據(jù)整理為相對規(guī)整的建模數(shù)據(jù)(比如,數(shù)據(jù)缺失處理、異常值檢測處理等操作)。數(shù)據(jù)的質(zhì)量決定了模型輸出的結(jié)果,即數(shù)據(jù)決定了模型的上限,所以我們需要花大量的時(shí)間來對數(shù)據(jù)進(jìn)行處理。在數(shù)據(jù)預(yù)處理階段,如果數(shù)據(jù)存在缺失值情況而導(dǎo)致建模過程混亂甚至無法進(jìn)行建模,則需要做缺失值處理,缺失值處理分為刪除存在缺失值的記錄、對可能值進(jìn)行插補(bǔ)及不處理3種情況;如果建模數(shù)據(jù)存在數(shù)據(jù)不均衡情況,則需要考慮數(shù)據(jù)平衡處理,解決這一問題的基本思路是讓正負(fù)樣本在訓(xùn)練過程中擁有相同的話語權(quán),比如利用采樣和加權(quán)等方法;如果分析數(shù)據(jù)量較大,而建模分析又不強(qiáng)制全部數(shù)據(jù)參與建模分析(比如統(tǒng)計(jì)分析隨機(jī)選取部分?jǐn)?shù)據(jù)作為分析對象),或者建模過程需要全量樣本的部分?jǐn)?shù)據(jù),則需要做數(shù)據(jù)抽樣,包括隨機(jī)抽樣、等距抽樣、分層抽樣等方法;如果建模分析數(shù)據(jù)存在量綱、數(shù)量級上的差別,則需要做數(shù)據(jù)規(guī)約處理消除量綱數(shù)量級的影響;如果異常數(shù)據(jù)會對分析結(jié)果影響巨大,則需要做異常值檢測處理排除影響。
 
特征工程
特征工程
理論上,數(shù)據(jù)和特征決定了模型的上限,而算法只是逼近這個(gè)上限而已,這里的數(shù)據(jù)指的是經(jīng)過特征工程得到的數(shù)據(jù),因此特征工程是我們進(jìn)行機(jī)器學(xué)習(xí)必須重視的過程。特征工程的目的是最大限度地從原始數(shù)據(jù)中提取特征以供算法和模型使用。一般認(rèn)為特征工程包括特征選擇、特征規(guī)約、特征生成三個(gè)部分。其中,特征選擇在降低模型復(fù)雜度、提高模型訓(xùn)練效率、增強(qiáng)模型的準(zhǔn)確度方面影響較大;在建模字段繁多的情形下,通過特征規(guī)約降低建模數(shù)據(jù)維度,降低特征共線特性對模型準(zhǔn)確度的不利影響,從而提升模型的訓(xùn)練效率;特征生成是在特征維度信息相對單一情況下為了提升模型準(zhǔn)確性能而采取的維度信息擴(kuò)充的方法體系。
數(shù)據(jù)建模
數(shù)據(jù)建模
數(shù)據(jù)挖掘的核心階段是基于既定的數(shù)據(jù)和分析目標(biāo)選擇適宜的算法模型進(jìn)行建模訓(xùn)練和迭代優(yōu)化。數(shù)據(jù)建模涉及的技術(shù)包括:機(jī)器學(xué)習(xí)、統(tǒng)計(jì)分析、深度學(xué)習(xí),相關(guān)技術(shù)之間沒有一個(gè)明顯的區(qū)分界限,且功能互補(bǔ)。如果建模業(yè)務(wù)數(shù)據(jù)涉及到文本非結(jié)構(gòu)化數(shù)據(jù),則需要借助自然語言處理實(shí)現(xiàn)業(yè)務(wù)分析場景;面對一些調(diào)查數(shù)據(jù)分析統(tǒng)計(jì)意義給出決策結(jié)論時(shí),則需要基于統(tǒng)計(jì)分析的相關(guān)技術(shù);在機(jī)器學(xué)習(xí)領(lǐng)域,分類技術(shù)主要解決影響因素X和決策變量Y的問題,基于此目的我們所要做的就是尋找X和Y之間的函數(shù)關(guān)系。其中分類場景的實(shí)際應(yīng)用Y是名詞型屬性,如用于故障預(yù)測、精準(zhǔn)營銷等;回歸場景和分類場景類似,只是回歸場景中的決策變量Y是連續(xù)性的數(shù)值型數(shù)據(jù),如用于設(shè)備壽命預(yù)測、收視率預(yù)測等;聚類分析是在沒有決策變量Y的情況下,基于一定的規(guī)則(比如基于距離相近、基于曲線相似等)將樣本數(shù)據(jù)進(jìn)行分群進(jìn)而找出共性群體,如客戶細(xì)分,市場細(xì)分等;時(shí)間序列數(shù)據(jù)是基于歷史數(shù)據(jù)挖掘內(nèi)在的趨勢規(guī)律,進(jìn)而實(shí)現(xiàn)對未來數(shù)據(jù)的預(yù)測分析,如銷量預(yù)測、產(chǎn)量預(yù)測等;關(guān)聯(lián)分析適用于挖掘多個(gè)事務(wù)項(xiàng)之間共現(xiàn)關(guān)聯(lián)關(guān)系,從而描述事物項(xiàng)中某些屬性同時(shí)出現(xiàn)的規(guī)律和模式,如產(chǎn)品關(guān)聯(lián)推薦、交叉故障等,關(guān)聯(lián)分析的一個(gè)典型例子是購物籃分析;綜合評價(jià)適用于在多因素、多層次復(fù)雜決策情況下對多個(gè)備選方案打分以輔助決策,如店鋪選址、客戶信用評分等;
深度學(xué)習(xí)領(lǐng)域涉及多種模型框架和操作使用技巧,其本身可以作為機(jī)器學(xué)習(xí)的特例, 同樣適用于機(jī)器學(xué)習(xí)多個(gè)應(yīng)用場景。深度學(xué)習(xí)作為一種實(shí)現(xiàn)機(jī)器學(xué)習(xí)的技術(shù),往往在數(shù)據(jù)量大、業(yè)務(wù)數(shù)據(jù)指標(biāo)難以人工提取的情形下發(fā)揮著舉足輕重的作用, 它在圖像處理、語音識別、自然語言處理等領(lǐng)域具有其它機(jī)器學(xué)習(xí)算法無法企及的準(zhǔn)確性能。
數(shù)據(jù)建模 
模型評估
模型評估是評估所構(gòu)建的模型是否符合既定的業(yè)務(wù)目標(biāo),它有助于發(fā)現(xiàn)表達(dá)數(shù)據(jù)的最佳模型和所選模式將來工作的性能如何。模型評估秉承的準(zhǔn)則是在滿足業(yè)務(wù)分析目標(biāo)的前提下優(yōu)先選擇簡單化的模型。每個(gè)分析場景可以基于多種算法構(gòu)建多個(gè)模型,也可以依據(jù)模型優(yōu)化的方法體系做模型訓(xùn)練優(yōu)化,而如何在訓(xùn)練得到的多個(gè)模型中選擇最優(yōu)模型,可以選擇性能度量作為指標(biāo)體系,進(jìn)而基于一定的評估方法進(jìn)行擇優(yōu)選擇。


模型評估

模型部署及應(yīng)用
模型部署及應(yīng)用是將數(shù)據(jù)挖掘結(jié)果作用于業(yè)務(wù)過程,即將訓(xùn)練得到的最優(yōu)模型部署到實(shí)際應(yīng)用中;模型部署后,可使用調(diào)度腳本控制數(shù)據(jù)挖掘模型實(shí)現(xiàn)流程化運(yùn)行。在模型日常運(yùn)行過程中,可根據(jù)實(shí)際需求檢查模型運(yùn)行結(jié)果是否滿足前端業(yè)務(wù)的實(shí)際應(yīng)用,跟蹤模型運(yùn)行情況,定期進(jìn)行模型結(jié)果分析,并適時(shí)進(jìn)行模型優(yōu)化。

以上內(nèi)容對數(shù)據(jù)挖掘涉及的知識體系做了簡要介紹,上述的知識體系涵蓋了實(shí)際挖掘分析所用方法體系的絕大部分內(nèi)容,希望讀者能夠通過本文對數(shù)據(jù)挖掘有個(gè)全局認(rèn)識。在面對復(fù)雜的業(yè)務(wù)分析場景時(shí),能夠有一個(gè)清晰嚴(yán)謹(jǐn)?shù)耐诰蚍治鏊悸?,進(jìn)步明確可以對樣本數(shù)據(jù)做哪些分析以及如何科學(xué)地做挖掘分析。另一方面來說,在實(shí)際挖掘分析過程中,一個(gè)特定的挖掘分析場景只是涉及上述知識體系的一部分,每個(gè)分析場景涉及的知識點(diǎn)也不盡相同,全面掌握和深入理解挖掘知識體系是一個(gè)逐漸學(xué)習(xí)與積累的過程;這就需要我們在每一個(gè)挖掘場景下對涉及的知識點(diǎn)進(jìn)行深入理解和知識擴(kuò)充,并且對多個(gè)實(shí)踐過程進(jìn)行循環(huán)往復(fù)的知識總結(jié)和經(jīng)驗(yàn)積累。


服務(wù)熱線
400-608-2558
咨詢熱線
15502965860
美林?jǐn)?shù)據(jù)
微信掃描二維碼,立即在線咨詢