數(shù)據(jù)挖掘技術在醫(yī)學中的應用探討
張曉東 宋生勤
中山大學附屬第三醫(yī)院信息科(廣州 510630)
摘要:本文介紹了數(shù)據(jù)挖掘的概念,任務和效果的評估方法,初步探討了數(shù)據(jù)挖掘的各
種方法以及它在醫(yī)學領域中的應用。
關鍵詞:數(shù)據(jù)挖掘;決策樹;神經(jīng)網(wǎng)絡;支持向量機
The Discussion of Application with Data Mining Technology
in Medicine
ZhangXiaodong Dep. of Info. Service The Third Affiliated Hospital of Sun Yat-sen University
zhangxiaodong@163.net (GuangZhou 510630)
Abstract: In this paper we introduce the concept, task of data mining, including the
performance evaluation methods. And we discuss the application with the technology in
medicine.
Keywords: data mining; decision tree; neural network; support vector machine
1. 引言
近年來,數(shù)據(jù)挖掘技術引起了信息產(chǎn)業(yè)界的極大關注,其主要原因是先進的科學手
段為我們產(chǎn)生了大量的數(shù)據(jù),并且迫切需要將這些數(shù)據(jù)轉換成有用的信息和知識。獲取
的信息和知識可以廣泛用于各種應用,包括商務生產(chǎn)、生產(chǎn)控制、市場分析、工程設計
和科學探索等。數(shù)據(jù)的豐富帶來了對強有力的數(shù)據(jù)分析工具的需求,大量的數(shù)據(jù)被描述
為“數(shù)據(jù)豐富,但信息貧乏”。快速增長的海量數(shù)據(jù)收集、存放在大型和大量數(shù)據(jù)庫中,
需要強大的工具進行分析。
目前的數(shù)據(jù)庫系統(tǒng)可以高效地實現(xiàn)數(shù)據(jù)的錄入、查詢、統(tǒng)計等較低層次的功能, 但
無法發(fā)現(xiàn)數(shù)據(jù)中存在的關系和規(guī)則, 無法根據(jù)現(xiàn)有的數(shù)據(jù)預測未來的發(fā)展趨勢,無法發(fā)
現(xiàn)海量數(shù)據(jù)背后隱藏的重要的知識, 出現(xiàn)了“我們被數(shù)據(jù)所淹沒,但卻缺乏知識”的現(xiàn)
象。
隨著醫(yī)院信息系統(tǒng)(hospital information system, HIS)的普及以及人類基因組計劃和
分子生物醫(yī)學信息科學的飛速發(fā)展,醫(yī)學數(shù)據(jù)空前增長,像功能基因組和蛋白質組的數(shù)
據(jù)已成指數(shù)級增長。如何對大量的數(shù)據(jù)進行存儲、管理、對比、檢索,尋找其相關性,
挖掘數(shù)據(jù)中所隱藏的規(guī)律,以及對海量的數(shù)據(jù)進行自動獲取,需要新的技術。
2
2 數(shù)據(jù)挖掘的概念
2.1 數(shù)據(jù)挖掘與知識發(fā)現(xiàn)
簡單地說,數(shù)據(jù)挖掘(data mining ,DM),是從大量數(shù)據(jù)中提取或“挖掘”出有用的知
識[1]。數(shù)據(jù)挖掘技術進行數(shù)據(jù)分析,可以發(fā)現(xiàn)重要的數(shù)據(jù)模式,對商務決策、知識庫、
科學和醫(yī)學研究做出了巨大貢獻[2]。另外還有一個概念是知識發(fā)現(xiàn)(knowledge discovery
in database,KDD),它被Fayyad 定義為:KDD 是從數(shù)據(jù)集中識別出有效的、新穎的、
潛在有用的,以及最終可理解的模式的非平凡過程[3]。
知識發(fā)現(xiàn)過程一般由以下一些步驟組成:1.數(shù)據(jù)清理;2.數(shù)據(jù)集成;3.數(shù)據(jù)選擇;
4.數(shù)據(jù)變換;5.數(shù)據(jù)挖掘;6.模式評估;7.知識表示[1]。從中可以看出,數(shù)據(jù)挖掘是知
識發(fā)現(xiàn)中一個步驟,數(shù)據(jù)挖掘的廣義觀點是從存放在數(shù)據(jù)庫、數(shù)據(jù)倉庫或其它信息庫中
的大量數(shù)據(jù)中挖掘有趣的知識的過程。相對來講,數(shù)據(jù)挖掘主要流行于統(tǒng)計界、數(shù)據(jù)分
析、數(shù)據(jù)庫和管理信息系統(tǒng)界;而知識發(fā)現(xiàn)則主要流行于人工智能和機器學習領域。
2.2 數(shù)據(jù)挖掘的任務
數(shù)據(jù)挖掘的任務常見有以下幾種。
1.數(shù)據(jù)總結:其目的是對數(shù)據(jù)進行濃縮,給出它的緊湊描述。它主要關心從數(shù)據(jù)泛
化的角度來討論數(shù)據(jù)總結。數(shù)據(jù)泛化目前主要采用多維數(shù)據(jù)分析方法和面向屬性
的歸納方法。
2.相關性分析:也稱作關聯(lián)發(fā)現(xiàn)。其目的是發(fā)現(xiàn)特征之間的相互依賴關系,常用的
技術有回歸分析、關聯(lián)規(guī)則、信念網(wǎng)絡等。
3.聚類分析:它是根據(jù)數(shù)據(jù)的不同特征,將其劃分為不同的數(shù)據(jù)類別。它使得屬于
同一類別的個體之間的距離盡可能的小,而不同類別上的個體間的距離盡可能的
大。在機器學習中聚類屬于無監(jiān)督學習。
4.分類與回歸:它是數(shù)據(jù)挖掘中非常重要的任務,應用最為廣泛。分類和回歸都可
用于預測,其目的是從已知的歷史數(shù)據(jù)記錄中自動推導出對給定的數(shù)據(jù)的推廣描
述,從而能對未來數(shù)據(jù)進行預測。分類的輸出是離散的類別值,而回歸的輸出則
是連續(xù)數(shù)值,它們都屬于有監(jiān)督學習。
5.偏差檢驗:偏差分析包括分類中的反常實例、例外模式、觀測結果對期望值的偏
離以及量值隨時間的變化等,基本思想是尋找觀察結果與參照量之間的有意義的
差別。通過發(fā)現(xiàn)并分析異常,引起人們對特殊情況的注意。
數(shù)據(jù)挖掘技術作為一門具有廣泛應用的新興學科,已經(jīng)在文本分類、Web 知識發(fā)現(xiàn)、
手寫 |
|