欧美40老熟妇色xxxxx,免费+国产+在线观看,末成年女a∨片一区二区,久久伊人色av天堂九九,免费中文熟妇在线影片

美林數據
ABOUT US
美林數據技術股份有限公司(簡稱:美林數據,NEEQ:831546)是國內知名的數據治理和數據分析服務提供商。

大話數據挖掘之數據挖掘簡介

2020-12-21 17:46:13
人物介紹
許教授:國內數據挖掘專家、某985高校智能信息處理學術帶頭人
萬總:某超市集團營銷副總
李部長:某鋼鐵集團生產部部長
 
某985高校管理學院第五屆EMBA班的《數據挖掘及其應用》課程上。
國內數據挖掘專家、智能信息處理學術帶頭人徐教授站在講臺上打開PPT說:“同學們,大家好!將由我向大家介紹數據挖掘及其應用。這門課我們將通過典型的應用實例深入淺出地介紹數據挖掘的概念、功能、流程和算法。”
“隨著計算機技術、數據庫技術、傳感器技術和自動化技術的飛速發(fā)展,人們獲取數據、存儲數據變得越來越容易。這些數據不是人為產生的,是對我們所研究對象隱含的一定的規(guī)律的反映。數據挖掘的目的就是要從所獲取的數據中發(fā)現這種規(guī)律性的知識,從而幫助企業(yè)在他們的數據倉庫中找到最重要的信息,預測未來趨勢和行為,使得商務和生產活動具有前瞻性,并作出具有知識驅動的決策。那么到底什么是數據挖掘呢?同學們可以說一下自己的認識。”
學員們你一言,我一語,爭先恐后。
“數據挖掘就是從數據中發(fā)現有價值的信息的技術。”
“數據挖掘是對數據建立模型,通過算法求解而發(fā)現隱藏在數據中的知識的一種手段。”
“……”
徐教授總結道:“大家對數據挖掘的認識都值得表揚,不過各人表述的都不夠全面。”說著,徐教授敲了一下鍵盤,說:“請看大屏幕,這才是最權威的數據挖掘的定義。”
數據挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。
大家認真地看著屏幕的內容。
片刻之后,有學員問道:“數據量小是不是就不能進行數據挖掘了?”
徐教授答道:“實際上數據挖掘的算法大都是建立在統(tǒng)計學大數定律基礎上的。數據量太小,常常無法反映出真實世界中的普遍特性,這樣挖掘算法得出的結論自然不可靠。但并非小數據量就不可以進行挖掘,近年來研究者也提出了一些對小樣本進行挖掘的方法,如支撐向量機方法就是基于小樣本學習理論的非常實用的方法。數據量雖小,但數據總是事物特性一定程度的反映,只要建立的模型和算法得當,當然也可以從這些數據中獲取一定的知識。”
“那么是不是數據量越大越好?”有學員問。
“從理論上說,應該是這樣。但隨著數據量的增大,算法執(zhí)行效率會越來越低,甚至無法計算。”徐教授回答說。
剛才提問的學員點了點頭,接著問:“徐老師,數據挖掘的定義中,數據前面還有那么多的修飾,您還是給我們解釋解釋吧。”
“大家淡定點,‘不完全的、有噪聲的、模糊的、隨機的’確實有點繞口,現實中經常會碰到這種數據。例如,問卷調查時發(fā)現不少人不填婚姻狀況和年齡,這些不完全的或缺失的數據會給數據挖掘帶來一定的難度,我們要么干脆刪除這些樣本或記錄,要么選擇使用一定的方法將這些缺失數據補上,或者選擇使用可以自動處理缺失數據的算法。”說道這兒,徐教授端起了茶杯,說自己也要補充一下水分了。
“那噪聲是什么意思?”一學員問。
徐教授合上茶杯蓋子,一邊狠狠地用杯子連續(xù)敲擊著桌子,一邊說:“對于我講課的聲音來說,敲桌子的聲音就是噪音,我們的錄音機錄到的是我的講話聲和敲桌子聲混雜在一起的混合聲波數據。”
“我明白了,由于異常情況的干擾,使我們獲得的數據偏離了真實值,這樣的數據就是噪音數據。”剛才提問的學員說。
“不光是外界的干擾,測量儀器的故障、人工輸入或抄寫時的失誤等都可能形成噪音數據,可見實際問題中噪音數據往往難以避免的。”徐教授進一步解釋說。
“徐老師,什么是模糊的、隨機的數據?”又有一學員問。
“在數據挖掘過程中,我們不可避免地要涉及事物的不確定性。不確定性包括模糊性和隨機性。模糊性則指事物本身從屬概念的不確定性,隨機性是指事件發(fā)生與否的不確定性。”
“太抽象了,徐老師,您給我們舉個例子吧!”李部長建議說。
“好吧。其實模糊的數據大家平時都經常見到,比如說張三個子很高,李四個子較矮,個子的高矮就是典型的模糊性概念,到底多高才算高,李部長1米80,對一般人來說算高個子,但跟姚明比,就太矮了。隨機數據也極為多見,比如說華潤萬家啤酒每天的銷量顯然是不確定的,大部分人買啤酒是在超市轉悠時臨時決定的。”徐教授回答道。
李部長扶了扶眼鏡,支支吾吾地說:“我似乎明白了……”
萬總快人快語:“徐老師,數據挖掘的目的是從數據中發(fā)現新的信息和知識,那挖掘出來的知識是什么?”
徐教授回答道:“挖掘出來的知識就是‘散落的珍珠’,亦或是‘發(fā)光的金子’,它對人們的實際決策價值非凡。知識是通過對數據進行深入地歸納、分析而獲得的,是對所研究對象更深層次的認識。知識是隱藏在數據中的關于所研究對象的規(guī)律性,比如說可以用來預測的數學模型、‘如果…那么…’這樣的規(guī)則、描述事物的類別、有價值的模式、所研究對象的結構、研究對象與對象之間的關系等等。”

關于數據挖掘介紹的內容就介紹到這里。

服務熱線
400-608-2558
咨詢熱線
15502965860
美林數據
微信掃描二維碼,立即在線咨詢