數據挖掘技術
(Data Mining Techniques)
林源洪
集美大學理學院
(School of Sciences,Jimei University)
1
第一章引言
1什么激發了數據挖掘,為什么它是重要的
需要是發明之母。數據挖掘之所以引起信息產業界的極大關注,其主要原因是存在大量數據,可以廣泛使用,并且迫切需要將這些數據轉換成有用的信息和知識。獲取的信息和知識可以廣泛地用于各種應用,包括商務管理、生產控制、市場分析、工程設計和科學探索。所以,數據挖掘是信息技術自然演化的結果,因而是重要的。
2什么是數據挖掘
簡單地說,數據挖掘是從大量數據中提取或“挖掘”知識。從廣義上來說,數據挖掘是從存放在數據庫、數據倉庫或其他信息庫中的大量數據中挖掘有趣知識的過程。基于這種觀點,典型的數據挖掘系統具有以下主要成分:
1)數據庫、數據倉庫或其他信息庫
2)數據庫或數據倉庫服務器
3)知識庫
4)數據挖掘引擎(用于特征化、關聯、分類、聚類分析以及演變與偏差分析)
5)模式評估模塊
6)圖形用戶界面
2
3在何種數據上進行數據挖掘
原則上講,數據挖掘可以在任何類型的信息存儲上進行。它包括以下幾個方面:
1)關系數據庫
2)數據倉庫
3)事務數據庫
4)高級數據庫系統
5)展開文件和WWW
4數據挖掘功能---可以挖掘什么類型的模式
數據挖掘功能用于指定數據挖掘任務中要找的模式類型。數據挖掘任務一般可以分為兩類:描述和預測。描述性挖掘任務刻劃數據庫中數據的一般特性。預測性挖掘任務在當前數據上進行推斷,并加以預測。通常我們把它們分為以下幾個類型:
1)概念/類描述:特征化和區分(Characterization and Discrimination)
2)關聯分析(Association Analysis)
3)分類和預測(Classification and Predict)
4)聚類分析(Clustering Analysis)
5)孤立點分析(Outlier Analysis)
6)演變分析(Evolution Analysis)
5所有模式都是有趣的嗎
答案顯然是否定的。實際上,對于給定的用戶,在可能產生的模式中,只有一小部分是他感興趣的。這就對數據挖掘系統提出了一系
3
列的問題。你可能會想:“什么樣的模式是有趣的?數據挖掘系統能夠產生所有有趣的模式嗎?數據挖掘系統能夠僅產生有趣的模式嗎?”
模式是有趣的,通常它含以下幾點:(1)它易于被人理解;(2)在某種程度上,對于新的或測試數據是有效的;(3)是潛在有用的;(4)是新穎的。這樣就存在一些模式興趣度的客 |
|