在企業(yè)數(shù)倉(cāng)建設(shè)初期,為了保障數(shù)字化轉(zhuǎn)型的落地效果,需要提供充足的數(shù)據(jù)資源,除了基礎(chǔ)的數(shù)據(jù)抽取、轉(zhuǎn)換和加載等過(guò)程,數(shù)據(jù)的同步也是重要環(huán)節(jié)之一。數(shù)據(jù)同步常用于數(shù)倉(cāng)ODS、ADS層的建設(shè),通過(guò)不同數(shù)據(jù)源的同步,保障數(shù)據(jù)的及時(shí)性和準(zhǔn)確性,從而滿足不同業(yè)務(wù)部門和用戶的需求。
在過(guò)去,企業(yè)在處理數(shù)據(jù)同步時(shí),常常需要SQL編碼輔助完成,隨著業(yè)務(wù)發(fā)展,企業(yè)的數(shù)據(jù)量飛速增長(zhǎng),傳統(tǒng)的編碼方式也逐漸顯露弊端:
? 無(wú)法精準(zhǔn)匹配:通過(guò)編寫SQL進(jìn)行同步策略,難以與場(chǎng)景實(shí)現(xiàn)精準(zhǔn)匹配;
? 操作門檻高:涉及到前置SQL、后置SQL等代碼過(guò)程,需要配備專業(yè)的技術(shù)開(kāi)發(fā)人員;
? 開(kāi)發(fā)周期長(zhǎng):如有多個(gè)任務(wù),需一個(gè)個(gè)單獨(dú)配置,耗時(shí)較長(zhǎng),效率低。
針對(duì)以上痛點(diǎn),Tempo 數(shù)據(jù)工廠新推出【場(chǎng)景化數(shù)據(jù)同步】功能,根據(jù)業(yè)務(wù)需求及數(shù)據(jù)特征,提取關(guān)鍵場(chǎng)景,通過(guò)點(diǎn)選方式,快速匹配不同的集成場(chǎng)景。
該功能將常用數(shù)據(jù)集成業(yè)務(wù)場(chǎng)景進(jìn)行抽取,包含周期增量、一次全量周期增量、周期全量三種同步策略,可快速完成數(shù)據(jù)集成任務(wù)配置。
01、周期增量
周期增量通常指的是在數(shù)據(jù)集成過(guò)程中,從源系統(tǒng)中提取數(shù)據(jù)到目標(biāo)系統(tǒng)中的增量數(shù)據(jù)量。數(shù)據(jù)集成是將來(lái)自不同數(shù)據(jù)源的數(shù)據(jù)整合到一個(gè)統(tǒng)一的目標(biāo)系統(tǒng)中的過(guò)程,以實(shí)現(xiàn)數(shù)據(jù)的統(tǒng)一管理和共享。
以T企業(yè)為例,由于企業(yè)內(nèi)部數(shù)據(jù)存量較大,每次全量讀取數(shù)據(jù)都需要很長(zhǎng)時(shí)間才能完成遷移工作,于是T企業(yè)采用增量的方式,按照一定的調(diào)度頻率讀取周期內(nèi)的新增數(shù)據(jù),遷移到數(shù)據(jù)倉(cāng)庫(kù)中。
讀取到來(lái)源端的增量數(shù)據(jù)后,可以采用不同的策略,寫入到目標(biāo)庫(kù)中。根據(jù)不同的業(yè)務(wù)需求,Tempo數(shù)據(jù)工廠可提供以下兩種策略:
?先刪后增:清理當(dāng)期數(shù)據(jù),插入增量數(shù)據(jù)
?更新:唯一鍵相同更新,新增插入
02、一次全量周期增量
一次全量周期增量是指在數(shù)據(jù)集成過(guò)程中,進(jìn)行一次全量數(shù)據(jù)抽取后的下一個(gè)周期內(nèi)的增量數(shù)據(jù)量。全量數(shù)據(jù)抽取是指將源系統(tǒng)中的所有數(shù)據(jù)都抽取到目標(biāo)系統(tǒng)中,以確保目標(biāo)系統(tǒng)中的數(shù)據(jù)與源系統(tǒng)中的數(shù)據(jù)完全一致。
T企業(yè)內(nèi)部有一定的歷史存量數(shù)據(jù),每天也會(huì)產(chǎn)生新的數(shù)據(jù),建設(shè)數(shù)倉(cāng)時(shí)采用一次全量周期增量的模式,先把歷史存量數(shù)據(jù)全部抽取到目標(biāo)端,之后每次都只取增量數(shù)據(jù)。
讀取到來(lái)源端的數(shù)據(jù)后,可以采用不同的策略,寫入到目標(biāo)庫(kù)中。根據(jù)不同的業(yè)務(wù)需求,Tempo 數(shù)據(jù)工廠平臺(tái)提供以下兩種策略:
?先刪后增:清理當(dāng)期數(shù)據(jù),插入增量數(shù)據(jù)
?更新:唯一鍵相同更新,新增插入
03、周期全量
周期全量是指在一定的時(shí)間周期內(nèi),將所有的數(shù)據(jù)源進(jìn)行全量的數(shù)據(jù)抽取和集成。這意味著每個(gè)周期都會(huì)將所有的數(shù)據(jù)源中的數(shù)據(jù)全部抽取出來(lái),并進(jìn)行整合和合并,以保證數(shù)據(jù)的完整性和一致性。
T企業(yè)的歷史數(shù)據(jù)存量小,數(shù)據(jù)中沒(méi)有日期時(shí)間字段幫助獲取增量數(shù)據(jù),因此采用全量方式進(jìn)行數(shù)據(jù)抽取。
讀取到來(lái)源端的增量數(shù)據(jù)后,可以采用不同的策略,寫入到目標(biāo)庫(kù)中。根據(jù)不同的業(yè)務(wù)需求,Tempo 數(shù)據(jù)工廠提供以下三種策略:
?先刪后增:清理當(dāng)期數(shù)據(jù),插入增量數(shù)據(jù)
?緩存表:緩存輸出數(shù)據(jù),交換加載目標(biāo)數(shù)據(jù)
?備份表:目標(biāo)表數(shù)據(jù),對(duì)歷史數(shù)據(jù)進(jìn)行備份
*緩存表:當(dāng)目標(biāo)端數(shù)據(jù)一直被應(yīng)用時(shí)(如被BI看板引用時(shí)),目標(biāo)表不能為空,則需要將包含新增或修改的全量數(shù)進(jìn)行緩存,再將緩存表和目標(biāo)表重命名替換。
*備份表:當(dāng)歷史數(shù)據(jù)需要備份時(shí),先按照版本寫入目標(biāo)數(shù)據(jù),再次進(jìn)行寫入時(shí)將清理數(shù)據(jù)過(guò)期版本數(shù)據(jù)。
另外,在實(shí)際數(shù)倉(cāng)建設(shè)過(guò)程中,會(huì)面臨多系統(tǒng)多表的集成工作,為了提高集成效率,TempoDF新增支持【批量數(shù)據(jù)同步】任務(wù)配置,可快速將來(lái)源端的多張表批量遷移至目標(biāo)數(shù)據(jù)源。
功能亮點(diǎn)
? 更匹配業(yè)務(wù)場(chǎng)景
對(duì)同步場(chǎng)景進(jìn)行細(xì)化,便于運(yùn)維人員、實(shí)施人員、客戶方更好理解,更好進(jìn)行業(yè)務(wù)匹配。
? 降低操作門檻
將編寫SQL方式修改為點(diǎn)選方式,無(wú)需技術(shù)人員上手,業(yè)務(wù)人員也能快速完成數(shù)據(jù)集成任務(wù)配置。
? 大幅提升效率
將編碼方式改為點(diǎn)選方式,預(yù)計(jì)提高效率60%,大幅縮減了配置時(shí)間。
? 支持批量操作
可批量進(jìn)行任務(wù)配置,提高集成效率。
數(shù)字化轉(zhuǎn)型過(guò)程中,數(shù)據(jù)是核心。作為支撐數(shù)據(jù)分析的強(qiáng)大底座,Tempo DF的每一次的功能上新,都以給用戶提供更加敏捷、高效、智能的解決方案為目標(biāo),為企業(yè)的數(shù)字化轉(zhuǎn)型提供更多助力。