商業智能的基礎知識
一、 商業智能的基礎概念
1. 名詞解釋
1.1. OLTP(聯機事務處理)--OLTP(on-line transaction processing)也稱為面向交易的處理系統,其基本特征是顧客的原始數據可以立即傳送到計算中心進行處理,并在很短的時間內給出處理結果。這樣做的最大優點是可以即時地處理輸入的數據,及時地回答。也稱為實時系統(Real time System)。衡量聯機事務處理系統的一個重要性能指標是系統性能,具體體現為實時響應時間(Response Time),即用戶在終端上送入數據之后,到計算機對這個請求給出答復所需要的時間。 如醫院HIS系統、辦公自動化系統、CRM系統等。
1.2. OLAP(聯機分析處理)——OLAP(On-Line Analytical Processing)OLAP是使分析人員、管理人員或執行人員能夠從多角度對信息進行快速、一致、交互地存取,從而獲得對數據的更深入了解的一類軟件技術。OLAP一般是數據倉庫應用的前端工具。OLAP的目標是滿足決策支持或者滿足在多維環境下特定的查詢和報表需求,它的技術核心是“維”這個概念。“維”是人們觀察客觀世界的角度,是一種高層次的類型劃分。“維”一般包含著層次關系,這種層次關系有時會相當復雜。通過把一個實體的多項重要的屬性定義為多個維(dimension),使用戶能對不同維上的數據進行比較。因此OLAP也可以說是多維數據分析工具的集合。OALP的多維數據分析操作包括:
切片和切塊——是在一部分維上選定值后,關心度量數據在剩余維上的分布。如果剩余的維只有兩個,則是切片;如果有三個,則是切塊。
鉆取——是改變維的層次,變換分析的粒度。它包括向上鉆取(roll up)和向下鉆取(drill down)。roll up是在某一維上將低層次的細節數據概括到高層次的匯總數據,或者減少維數;而drill down則相反,它從匯總數據深入到細節數據進行觀察或增加新維。
旋轉——變換維的方向,即在表格中重新安排維的放置(例如行列互換)。
1.3. ETL數據轉換工具:數據抽取(Extract)、轉換(Transform)、清洗(Cleansing)、裝載(Load)的過程。構建數據倉庫的重要一環,用戶從數據源抽取出所需的數據,經過數據清洗,最終按照預先定義好的數據倉庫模型,將數據加載到數據倉庫中去。 ETL的過程就是數據流動的過程,從不同異構數據源流向統一的目標數據。其間,數據的抽取、清洗、轉換和裝載形成串行或并行的過程。ETL的核心還是在于T這個過程,也就是轉換,而抽取和裝載一般可以作為轉換的輸入和輸出,或者,它們作為一個單獨的部件,其復雜度沒有轉換部件高。
1.4. EIS前端展現工具——EIS(Executive Information System,領導信息系統):指為了滿足無法專注于計算機技術的領導人員的信息查詢需求,而特意制定的以簡單的圖形界面訪問數據倉庫的一種應用。
1.5. 數據倉庫(Data Warehouse)――是將從多個數據源收集的信息,按照單一的模式進行存儲,并通常將這些信息駐留在單個站點。數據倉庫通過數據清理、數據變換、數據集成、數據裝入和定期數據刷新來構造其內容。數據倉庫收集了整個組織的主題信息,因此,它是企業范圍的數據存儲。寬松地講,數據倉庫是一個數據庫,組織可以將它與組織機構的操作數據庫分別進行維護。數據倉庫系統允許將各種應用系統集成在一起,為統一的歷史數據分析提供堅實的平臺,對信息處理提供支持。按照W.H.Inmon這位數據倉庫系統構造方面的權威設計師的說法,“數據倉庫是一個面向主題的、集成的、時變的、非易失的數據集合,支持管理部門的決策過程。”
1.6. 數據集市(Data Mart)――它是數據倉庫的一個部門子集。它聚焦在選定的主題上,是部門范圍的。為匯總而優先的專用數據存儲,用于特定的場合,其存儲的內容作為數據倉庫的子集。數據集市通常使用OLAP技術進行處理。它通常為一個公司的特定需求,或一個機構的特定業務而建立的,一般有兩種特殊的數據庫結構:星型模式和雪花模式。
1.7. 數據挖掘:數據挖掘是從特定形式的數據集中提煉知識的過程。數據挖掘往往針對特定的數據、特定的問題,選擇一種或者多種挖掘算法,找到數據下面隱藏的規律,這些規律往往被用來預測、支持決策。
在了解了以上概念后,我們再來看商業智能的概念:
商業智能(Business Intelligence): 商業智能是用來實現數據向信息轉變,信息向知識轉變,知識向價值轉變的這么一個過程(如下圖所示),以及這個過程中所使用到的各種技術和工具。商業智能并不是一項新技術,它只是數據倉庫、OLAP和數據挖掘等技術的綜合應用。
2. 幾個概念的對比
2.1. OLTP vs OLAP的對比分析
對比項目 OLTP OLAP
用戶 操作人員,低層管理人員 決策人員,高級管理人員
功能 日常操作處理 分析決策
DB 設計 面向應用 面向主題
數據 當前的,最新的細節的,二維的分立的 歷史的,聚集的,多維的集成的,統一的
存取 讀/寫數十條記錄 讀上百萬條記錄
工作單位 簡單的事務 復雜的查詢
用戶數 上千個 上百個
DB 大小 100MB-GB 100GB-TB
2.2. 數據挖掘(DM)vs數據分析 OLAP
OLAP側重于與用戶的交互、快速的響應速度及提供數據的多維視圖,而數據挖掘則注重自動發現隱藏在數據中的模式和有用信息,盡管允許用戶指導這一過程。OLAP的分析結果可以給數據挖掘提供分析信息作為挖掘的依據,數據挖掘可以拓展OLAP分析的深度,可以發現OLAP所不能發現的更為復雜、細致的信息。OLAP側重于分析數據之間的關系,而數據挖掘則側重于通過對數據分析結果的挖掘進行預警與預測。
2.3. 數據倉庫系統(DW) vs 商業智能系統(BI)
數據倉庫從概念上更多地側重在對各類企業信息的整合工作,包括了數據的遷移,數據的組織和存儲,數據的管理與維護這些我們平常稱之為后臺的基礎性的數據準備工作,它是BI的核心;
商業智能概念則側重在對數據的查詢,報表、多維/聯機數據分析、數據分析和數據可視化工具這些平常稱之為所謂前臺的數據應用方面。
2.4. 商業智能(BI) vs 決策支持系統(DSS)
早期BI的雛形就是決策支持系統DSS,只是當時還沒有采用數據倉庫、多維分析以及數據挖掘等技術,而且其面向的服務人群主要是管理人員。當今的BI在應用范圍上已經更加廣泛,已經可以拓展到整個企業的所有員工,通過對各個層面信息的獲取、分析以及利用來滿足各個部門及員工的需求。從這個角度而言,決策支持是BI中的一種應用。而數據挖掘只是BI涉及到的技術手段中的一種。(目前的BI從某種程度上還只限于DSS的應用)
3. 商業智能的技術架構
從技術架構來講,商業智能系統主要由數據源、數據倉庫系統、商業智能應用幾個部分組成:
3.1. 數據源包括了現有企業中所有的信息系統,以及根據決策分析需求可能涉及的其他外部數據資源。它主要包括業務數據和外部數據。
3.2. ETL——數據抽取、轉換和裝載(Extract, Transform, Load) 負責將數據從業務系統或外部系統中獲得,轉換和處理成數據倉庫需要的格式和形態,并在規定的時間裝入到數據倉庫中去。在系統實現時一般采用數據抽取工具和應用編程實現,并擁有調度管理和控制功能。
3.3. 數據倉庫(Data Warehouse)是數據存儲核心,目前,大多數數據倉庫采用關系型數據庫管理。由于數據量的龐大和查詢復雜的特點,在系統配置上強調大規模并行處理和針對決策支持訪問的專項優化。
3.4. 操作數據(Operational Data Store) 近年來,隨著商業智能應用的需求,如數據挖掘和實時業務分析,在數據倉庫中需要有部分數據擁有當前數據的特征,根據業務系統的變化而變化,不必關心歷史信息,同時又擁有數據倉庫數據面向主題的特點。這部分數據叫作操作數據,一般采用關系數據庫存儲,規模適中,強調快速查詢響應能力。
3.5. 數據集市(Data Mart)存儲了由數據倉庫來的,經過裁剪和歸整的數據,這些數據針對某個業務部門或某種業務分析應用而建立。數據集市一般都對數據進行了各種層次的匯總,并建立多維分析的模型,同時也包括了數據采樣。數據集市的存儲主要有關系數據庫和多維數據庫。其中,多維數據庫存放多維分析數據,而關系數據庫則存儲星型模式。
3.6. 數據歸整(Refinement) 數據歸整指數據從數據倉庫到數據集市的過程,它是數據倉庫系統內部的數據處理和轉換的過程,主要的任務是多維模型的轉換、數據的匯總和采樣等。有時,它由ETL系統統一調度完成。
3.7. 商業智能應用——涉及數據和信息的展現部分,它是用戶使用商業智能系統的界面。目前的商業智能系統一般提供以下兩類功能:1、客觀呈現用戶想要信息,如查詢和報表、聯機分析處理(OLAP)。2、對數據進行進一步的分析,發現新知識,如數據挖掘和數理統計等。
3.8. 元數據是管理商業智能系統的數據,其主要部分類似于數據字典,其內容貫穿了商業智能應用的各階段,記錄著從ETL到分析展現各個階段和各組成部分的管理信息。在系統管理上,試圖提供統一的平臺對元數據進行管理和維護,并通過元數據的狀態驅動系統各部分的運轉。不過,就目前而言,元數據的概念在數據倉庫業界尚未擁有一個統一的標準,各個數據倉庫廠商的產品間元數據也是不能夠互通的。
二、 商務智能的發展階段及趨勢
隨著近年來信息化建設的不斷完善,從全球范圍來看,商業智能(BI)系統已經成為繼企業資源計劃(ERP)之后最重要的信息系統。在中國,商業智能也已經被越來越多的企業管理者所認識,而在電信、金融、零售、流通等行業,商業智能已經成為信息化建設的重點。
1. 企業信息化的三個階段
1.1. 企業信息化發展的第一個階段:
基礎信息化階段,主要是解決原始手工處理的數據電子化的問題;
信息的關聯面是非常有限的;
信息專業性很強,離開了系統的主要用戶,別人是看不懂這些數據;
用戶在企業中往往是占很少數。
1.2. 企業信息化發展的第二個階段:
總體角度建設高度集中的、或互相聯接的綜合業務管理系統,例如銀行的核心業務系統;
實現業務的協同運作。
1.3. 企業信息化發展的第三個階段:
企業是個嚴密運作的復雜系統,每個細小環節的活動是彼此互相關聯的;
基于具體業務所開發的應用系統信息面只能覆蓋企業的一個局部范圍;
從零碎的,片段的企業局部化信息難以看清企業整體的變化;
企業需要一種協同思考的能力;
信息系統將更多定位在對企業整體戰略發展層面的支撐;
商業智能浮出水平并且逐漸成為主角。
|
|