在日常工作中,產(chǎn)品、運營、研發(fā)及數(shù)據(jù)分析師常常會發(fā)現(xiàn):處理、加工和識別數(shù)據(jù)等數(shù)據(jù)處理工作往往會占用整個工作流程80%的時間。造成這種困境的原因,大致有三點:
1)數(shù)據(jù)量大且混亂、數(shù)據(jù)質(zhì)量參差不齊;
2)整體概括信息缺乏,度量信息如最大值、最小值、平均值、匯總值、方差、中位數(shù)等,維度信息如枚舉值分布等,均不能直接對用戶可見;
3)元數(shù)據(jù)管理不完善,如表名稱備注、字段類型、描述不準確、口徑未統(tǒng)一等存在元數(shù)據(jù)管理混亂或缺失的情況。
而以上問題,通過數(shù)據(jù)探查就能得到有效解決。
01、數(shù)據(jù)探查是什么?
數(shù)據(jù)探查是數(shù)據(jù)開發(fā)的基礎(chǔ),是保障數(shù)據(jù)質(zhì)量非常重要的一步。如果沒有數(shù)據(jù)探查,數(shù)據(jù)分析師就會在數(shù)據(jù)管理類項目頻繁反復(fù)地進行重復(fù)的工作,對項目開發(fā)、運維來講都是低質(zhì)量低效率的行為,同時也在拖延項目周期。
數(shù)據(jù)探查可通過自動化的手段分析數(shù)據(jù)內(nèi)容、背景、結(jié)構(gòu)、路徑等信息,檢查數(shù)據(jù)成分、數(shù)據(jù)關(guān)系及數(shù)據(jù)格式等是否存在問題。通過精準識別數(shù)據(jù)轉(zhuǎn)化機制、建立數(shù)據(jù)有效性及準確性規(guī)則、校驗數(shù)據(jù)間依賴性的過程,幫助企業(yè)全面剖析數(shù)據(jù),并確定這些數(shù)據(jù)可用性。
數(shù)據(jù)探查可以幫助企業(yè)完善對數(shù)據(jù)的認識,避免由于不夠了解數(shù)據(jù)而遺漏場景,做好提前預(yù)防,從而提高數(shù)據(jù)質(zhì)量,把控數(shù)據(jù)來源,減少返工,常見的場景有:
1)字段標簽分析:在沒有字段注釋的情況下,通過對字段值進行剖析,識別出該字段所描述的內(nèi)容,提高數(shù)據(jù)的可讀性和解釋性,為后續(xù)的數(shù)據(jù)分析和決策提供有力支持。
2)數(shù)據(jù)間關(guān)系剖析:發(fā)現(xiàn)主、外鍵字段,揭示數(shù)據(jù)之間的相互關(guān)系和依賴性,分析字段中有多少重復(fù)值,重復(fù)值影響的行數(shù)等。幫助我們發(fā)現(xiàn)數(shù)據(jù)中的隱藏模式、群體結(jié)構(gòu)和網(wǎng)絡(luò)連接,從而更好地理解數(shù)據(jù)的復(fù)雜性和互動性,協(xié)助業(yè)務(wù)人員在決策制定和業(yè)務(wù)優(yōu)化中做出更準確的判斷。
3)字段值深度洞察:通過分析計算字段的數(shù)據(jù)類型、空值、唯一值、平均值、標準差、方差等數(shù)據(jù)分布情況,對數(shù)據(jù)進行更深入的洞察,提升數(shù)據(jù)質(zhì)量,為數(shù)據(jù)清洗和預(yù)處理提供指導(dǎo),幫助業(yè)務(wù)人員提高數(shù)據(jù)清洗和加工效率,讓數(shù)據(jù)分析做到開箱即可拿到高質(zhì)量數(shù)據(jù)。
03、如何進行高效的數(shù)據(jù)探查?
傳統(tǒng)方法下,數(shù)據(jù)探查過程的過濾、替換、合并等操作都是獨立的單一模型,步驟之間沒有進行融合,需要分別對數(shù)據(jù)進行處理,且各模型和方法具有不同的使用模式和接口,難以結(jié)合使用。另外,傳統(tǒng)方法對于文本類字段較少涉及,導(dǎo)致在對數(shù)據(jù)描述內(nèi)容不了解的情況下難以進行更深入的數(shù)據(jù)分析。
因此,我們需要一種更加綜合和靈活的數(shù)據(jù)探查方法,能夠同時針對不同類型的數(shù)據(jù)進行處理分析,Tempo數(shù)據(jù)治理平臺的數(shù)據(jù)探查功能可以滿足這個需求,只需要簡單3步,就能幫助數(shù)據(jù)團隊了解數(shù)據(jù)特征和規(guī)律,為后續(xù)的數(shù)據(jù)處理和分析工作提供依據(jù)和支持。
△數(shù)據(jù)探查算法邏輯框架圖
第一步:從表、字段以及字段值三個維度多數(shù)據(jù)源進行統(tǒng)計分析,包括:總量、空值唯一值、重復(fù)值、時間、增量等;
第二步:通過正則表達式、機器學習算法等方法對數(shù)據(jù)內(nèi)容進行洞察分析,包括實體、事件等屬性的識別;
第三步:綜合前兩步所得屬性,采用大數(shù)據(jù)挖掘及人工智能算法進行業(yè)務(wù)建模,快速實現(xiàn)從人工經(jīng)驗向自動化、智能化的跳變,加速企業(yè)數(shù)據(jù)質(zhì)量核查與管理。
04、數(shù)據(jù)探查有什么價值?
Tempo數(shù)據(jù)治理平臺的數(shù)據(jù)探查功能在某煤炭企業(yè)中得到了應(yīng)用,通過數(shù)據(jù)治理和數(shù)據(jù)中臺項目中的mt_csms(煤炭銷售管理系統(tǒng))、mt_erp(電子采購平臺系統(tǒng))、mt_hrs(人力資源系統(tǒng))三個業(yè)務(wù)系統(tǒng)中的驗證,得到的驗證結(jié)果如下:
準確率:81.76%
查全率:100%
Tempo數(shù)據(jù)治理平臺還能進行數(shù)據(jù)結(jié)構(gòu)探查,數(shù)據(jù)內(nèi)容探查及數(shù)據(jù)關(guān)系探查,可以幫助數(shù)據(jù)分析團隊更深入理解數(shù)據(jù)集,揭示數(shù)據(jù)的內(nèi)在特征和規(guī)律,并提供數(shù)據(jù)驅(qū)動的決策支持。
? 數(shù)據(jù)結(jié)構(gòu)探查:可以了解數(shù)據(jù)在內(nèi)存中的組織方式,從而更好地設(shè)計算法和優(yōu)化數(shù)據(jù)處理流程。
? 數(shù)據(jù)內(nèi)容探查:使數(shù)據(jù)分析團隊能夠發(fā)現(xiàn)數(shù)據(jù)的分布、異常和趨勢,幫助識別數(shù)據(jù)質(zhì)量問題、處理缺失值和異常值以及改進數(shù)據(jù)預(yù)處理過程。
? 數(shù)據(jù)關(guān)系探查:揭示了特征之間的關(guān)系和相互作用,幫助企業(yè)挖掘出隱藏的模式、找到關(guān)鍵特征和構(gòu)建更準確的預(yù)測模型。
小T總結(jié)
通過數(shù)據(jù)探查,可以為企業(yè)提供了對數(shù)據(jù)的直觀認識,減少對主觀假設(shè)的依賴,使數(shù)據(jù)分析和決策更加可靠和可信,及早防控風險,并有效利用數(shù)據(jù)資源,為業(yè)務(wù)決策、產(chǎn)品優(yōu)化和創(chuàng)新提供有力的支持。