數據挖掘技術在醫學中的應用探討
張曉東 宋生勤
中山大學附屬第三醫院信息科(廣州 510630)
摘要:本文介紹了數據挖掘的概念,任務和效果的評估方法,初步探討了數據挖掘的各
種方法以及它在醫學領域中的應用。
關鍵詞:數據挖掘;決策樹;神經網絡;支持向量機
The Discussion of Application with Data Mining Technology
in Medicine
ZhangXiaodong Dep. of Info. Service The Third Affiliated Hospital of Sun Yat-sen University
zhangxiaodong@163.net (GuangZhou 510630)
Abstract: In this paper we introduce the concept, task of data mining, including the
performance evaluation methods. And we discuss the application with the technology in
medicine.
Keywords: data mining; decision tree; neural network; support vector machine
1. 引言
近年來,數據挖掘技術引起了信息產業界的極大關注,其主要原因是先進的科學手
段為我們產生了大量的數據,并且迫切需要將這些數據轉換成有用的信息和知識。獲取
的信息和知識可以廣泛用于各種應用,包括商務生產、生產控制、市場分析、工程設計
和科學探索等。數據的豐富帶來了對強有力的數據分析工具的需求,大量的數據被描述
為“數據豐富,但信息貧乏”。快速增長的海量數據收集、存放在大型和大量數據庫中,
需要強大的工具進行分析。
目前的數據庫系統可以高效地實現數據的錄入、查詢、統計等較低層次的功能, 但
無法發現數據中存在的關系和規則, 無法根據現有的數據預測未來的發展趨勢,無法發
現海量數據背后隱藏的重要的知識, 出現了“我們被數據所淹沒,但卻缺乏知識”的現
象。
隨著醫院信息系統(hospital information system, HIS)的普及以及人類基因組計劃和
分子生物醫學信息科學的飛速發展,醫學數據空前增長,像功能基因組和蛋白質組的數
據已成指數級增長。如何對大量的數據進行存儲、管理、對比、檢索,尋找其相關性,
挖掘數據中所隱藏的規律,以及對海量的數據進行自動獲取,需要新的技術。
2
2 數據挖掘的概念
2.1 數據挖掘與知識發現
簡單地說,數據挖掘(data mining ,DM),是從大量數據中提取或“挖掘”出有用的知
識[1]。數據挖掘技術進行數據分析,可以發現重要的數據模式,對商務決策、知識庫、
科學和醫學研究做出了巨大貢獻[2]。另外還有一個概念是知識發現(knowledge discovery
in database,KDD),它被Fayyad 定義為:KDD 是從數據集中識別出有效的、新穎的、
潛在有用的,以及最終可理解的模式的非平凡過程[3]。
知識發現過程一般由以下一些步驟組成:1.數據清理;2.數據集成;3.數據選擇;
4.數據變換;5.數據挖掘;6.模式評估;7.知識表示[1]。從中可以看出,數據挖掘是知
識發現中一個步驟,數據挖掘的廣義觀點是從存放在數據庫、數據倉庫或其它信息庫中
的大量數據中挖掘有趣的知識的過程。相對來講,數據挖掘主要流行于統計界、數據分
析、數據庫和管理信息系統界;而知識發現則主要流行于人工智能和機器學習領域。
2.2 數據挖掘的任務
數據挖掘的任務常見有以下幾種。
1.數據總結:其目的是對數據進行濃縮,給出它的緊湊描述。它主要關心從數據泛
化的角度來討論數據總結。數據泛化目前主要采用多維數據分析方法和面向屬性
的歸納方法。
2.相關性分析:也稱作關聯發現。其目的是發現特征之間的相互依賴關系,常用的
技術有回歸分析、關聯規則、信念網絡等。
3.聚類分析:它是根據數據的不同特征,將其劃分為不同的 |
|