元數(shù)據(jù)管理涉及到數(shù)據(jù)倉(cāng)庫(kù)構(gòu)造、運(yùn)行、維護(hù)的整個(gè)生命周期,是企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)構(gòu)建過(guò)程中十分重要的一環(huán)。
元數(shù)據(jù)就是關(guān)于數(shù)據(jù)的數(shù)據(jù),是企業(yè)數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)地圖,記錄數(shù)據(jù)從業(yè)務(wù)系統(tǒng)到數(shù)據(jù)倉(cāng)庫(kù)的整個(gè)過(guò)程,并記錄數(shù)據(jù)倉(cāng)庫(kù)使用過(guò)程的信息。
元數(shù)據(jù)在數(shù)據(jù)倉(cāng)庫(kù)的創(chuàng)建和維護(hù)時(shí),都可以發(fā)揮作用。在定義元數(shù)據(jù)時(shí),應(yīng)該先完成最了解的部分,最后才為數(shù)據(jù)倉(cāng)庫(kù)里的每一對(duì)象類型定義元數(shù)據(jù)。元數(shù)據(jù)細(xì)化了數(shù)據(jù)結(jié)構(gòu)及數(shù)據(jù)間的關(guān)系(從數(shù)據(jù)庫(kù)視圖,或是事務(wù)規(guī)則和數(shù)據(jù)流描述的結(jié)果)。還應(yīng)該記載別名、代碼表、缺省值、完成途徑、數(shù)值單位(美元或英鎊)、算法和及它相關(guān)信息,形成元數(shù)據(jù)知識(shí)庫(kù)
由于元數(shù)據(jù)涉及到數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目建設(shè)全過(guò)程以及使用過(guò)程,如果將所有元數(shù)據(jù)都納入元數(shù)據(jù)管理,將會(huì)造成數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目的建設(shè)周期過(guò)長(zhǎng)。根據(jù)我們建設(shè)數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目經(jīng)驗(yàn),認(rèn)為數(shù)據(jù)倉(cāng)庫(kù)建設(shè)應(yīng)該遵循“統(tǒng)一規(guī)劃,分步開(kāi)展”的原則,建議經(jīng)營(yíng)分析系統(tǒng)的元數(shù)據(jù)管理應(yīng)該先構(gòu)造一個(gè)最小最實(shí)用集合的元數(shù)據(jù)。我們建議在以下過(guò)程中進(jìn)行元數(shù)據(jù)管理:
1、業(yè)務(wù)數(shù)據(jù)源分析
分析業(yè)務(wù)系統(tǒng)數(shù)據(jù)來(lái)源、數(shù)據(jù)表、數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)類型;
制定數(shù)據(jù)接口策略;
制定數(shù)據(jù)接口格式。
2、目標(biāo)數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)(概念模型、邏輯模型、物理模型設(shè)計(jì))
概念模型主題域及主題域之間的聯(lián)系,包括主題域?qū)傩、?shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)類型;
邏輯模型主題域及主題域之間的聯(lián)系,包括主題域?qū)傩、?shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)類型,以及數(shù)據(jù)表的劃分、數(shù)據(jù)粒度層次劃分并確定數(shù)據(jù)源;
物理模型表及關(guān)系、存儲(chǔ)結(jié)構(gòu)、索引策略、數(shù)據(jù)存放位置以及存儲(chǔ)分配、與數(shù)據(jù)來(lái)源對(duì)應(yīng)關(guān)系。
3、數(shù)據(jù)獲取調(diào)度及監(jiān)控設(shè)計(jì)
數(shù)據(jù)接口調(diào)度及執(zhí)行策略;
ETL調(diào)度及執(zhí)行策略。其中包括ETL執(zhí)行程序運(yùn)行時(shí)間、周期、順序以及相互依賴關(guān)系;
ETL過(guò)程從數(shù)據(jù)源到目標(biāo)數(shù)據(jù)的轉(zhuǎn)換關(guān)系;
ETL信息傳遞機(jī)制。
4、數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)集市存儲(chǔ)
數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)內(nèi)容、結(jié)構(gòu)、類型以及數(shù)據(jù)之間的關(guān)系;
數(shù)據(jù)倉(cāng)庫(kù)中各數(shù)據(jù)指標(biāo)的當(dāng)前有效期限,即數(shù)據(jù)的最新更新或裝載日期、時(shí)間,以及數(shù)據(jù)倉(cāng)庫(kù)中現(xiàn)存最早記錄的時(shí)間;
數(shù)據(jù)倉(cāng)庫(kù)中各層次匯總的情況,數(shù)據(jù)量縮減比例,更新或同步的時(shí)間;
數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)質(zhì)量監(jiān)控體系,哪些數(shù)據(jù)內(nèi)容不詳?shù)谋壤撸男⿺?shù)據(jù)缺失等。
5、展示設(shè)計(jì)
多維模型的描述信息,其中包括:多維立方體的數(shù)目、每個(gè)立方體的維、維的各個(gè)層次、數(shù)據(jù)項(xiàng)的類型以及計(jì)算統(tǒng)計(jì)特征;
多維立方體與關(guān)系型數(shù)據(jù)倉(cāng)庫(kù)的對(duì)應(yīng)關(guān)系;
多維數(shù)據(jù)庫(kù)從關(guān)系數(shù)據(jù)倉(cāng)庫(kù)的裝載調(diào)度、控制;
預(yù)定義的各種多維查詢模式、固定使用的條件對(duì)象;
6、記錄數(shù)據(jù)倉(cāng)庫(kù)的使用情況
各個(gè)分析主題的訪問(wèn)控制,分組授權(quán)管理;
對(duì)數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)集市的各個(gè)部分的訪問(wèn)統(tǒng)計(jì)訪問(wèn)的頻率;
用戶方的統(tǒng)計(jì)情況,作為數(shù)據(jù)倉(cāng)庫(kù)性能優(yōu)化的主要依據(jù)。
對(duì)于元數(shù)據(jù)管理,當(dāng)前市場(chǎng)上有許多這方面的工具;谝陨系脑獢(shù)據(jù)設(shè)計(jì)評(píng)估元數(shù)據(jù)管理工具,和以下元數(shù)據(jù)管理工具必須滿足的基本要求,我們建議選用IBM DB2 Warehouse Manager的元數(shù)據(jù)管理功能:
1、支持?jǐn)?shù)據(jù)庫(kù)設(shè)計(jì)工具的邏輯數(shù)據(jù)模型加載
2、支持對(duì)應(yīng)數(shù)據(jù)庫(kù)引擎的物理數(shù)據(jù)模型的加載
3、可以提供有效的方法加載ETL腳本及其商業(yè)規(guī)則
4、支持開(kāi)放的標(biāo)準(zhǔn):COM、XML、C++
5、為用戶提供了方便、易用、功能完備的瀏覽、查詢功能 6、不依賴于其他關(guān)系數(shù)據(jù)庫(kù)
7、提供了安全控制