行業(yè)數(shù)據(jù)挖掘方法論都有哪些?
長(zhǎng)期以來(lái),隨著數(shù)據(jù)挖掘市場(chǎng)的發(fā)展和成熟,由不同的組織機(jī)構(gòu)提出過(guò)很多的方法論,如CRISP-DM、SEMMA、5A等,其中CRISP-DM、SEMMA是應(yīng)用最為廣泛。CRISP-DM (cross-industry standard process for data mining),即為“跨行業(yè)數(shù)據(jù)挖掘過(guò)程標(biāo)準(zhǔn)"。此KDD過(guò)程模型于1999年歐盟機(jī)構(gòu)聯(lián)合起草. 通過(guò)近幾年的發(fā)展,CRISP-DM 模型在各種KDD過(guò)程模型中占據(jù)領(lǐng)先位置,采用量達(dá)到近60%。排在其后的是由SAS公司提出的SEMMA。SEMMA更偏重于數(shù)據(jù)挖掘的建模過(guò)程,與SAS的EM工具進(jìn)行整合,其模型管理部署部分則體現(xiàn)在另外的工具套件中。CRISP-DM是從一個(gè)數(shù)據(jù)挖掘項(xiàng)目執(zhí)行的角度談方法論,CRISP- DM的考慮的范圍比SEMMA 要大。CRISP-DM強(qiáng)調(diào),數(shù)據(jù)挖掘不單是數(shù)據(jù)的組織或者呈現(xiàn),也不僅是數(shù)據(jù)分析和統(tǒng)計(jì)建模,而是一個(gè)從理解業(yè)務(wù)需求、尋求解決方案到接受實(shí)踐檢驗(yàn)的完整過(guò)程。因此,從一個(gè)項(xiàng)目的管理實(shí)施完整流程來(lái)說(shuō),CRISP-DM更適用一些,本文后續(xù)主要以CRISP-DM為主進(jìn)行詳細(xì)介紹。