對電子病歷應用數據挖掘的輔助醫療診斷研究
吳煒① 楊梅瑰② 唐飛岳③
①中國電信湖南省分公司政企客戶部,410011,長沙市五一大道359號
②中南大學湘雅三醫院醫務科,410013,長沙市桐梓坡路138號
③湖南交通職業技術學院信息管理系,410004,長沙市韶山南路635
1 引言
醫療質量管理是醫院管理工作的核心和實質所在,推進與落實醫療質量管理是減少醫療安全隱患、遏制醫患糾紛發生的重要舉措。醫學科學的特性決定醫療風險必然存在,醫療服務不可能象其他商品生產行業實現零缺陷[1],但其中的人為因素是可控和可避免的。以2008年山東省3個地級市的醫療事故鑒定檔案的數據統計為例分析,其中72.66%的事故原因是可控或可避免[2]。醫方對病情未做全面考慮,過分依賴經驗或輔助檢查結果,造成漏診、誤診或診斷不及時延誤治療;或對某些潛在危險估計不足、醫療記錄不完整、不全面甚至出現錯誤,是影響醫療質量的最直接的原因。如何避免診斷上的疏失及錯誤,是醫療管理必須考慮的重要問題。
在醫務人員的診斷過程中,通常以患者的口述或癥狀表現,輔助以檢查結果做為診斷的依據,但診斷的正確程度基本上依賴于醫務人員的臨床經驗及專業素質。對已知癥狀未能做出正確的診斷,而導致病情延誤治療或惡化是常見的醫療質量缺陷。隨著信息技術的發展,記錄相關診斷信息的載體已逐漸從傳統紙本病歷轉變成電子病歷(Electronic Medical Record, EMR)。如何從電子病歷數據庫中找出診斷項目與診斷結果之間的關聯性,以最簡潔有效的幾個因素輔助醫務人員做出準確判斷,減少誤診及疏忽的可能性,已成為利用電子病歷來提高醫療質量的重要研究課題。
2 理論分析
2.1 概述 “數據挖掘”是泛指從海量的數據中分析萃取,以探索得到非顯然的、未知的、潛在的、可能有用的信息未知為主要目的復雜活動,最初在1992 年由Frawley 等人首次提出[3]。1996年Fayyad等人對流程進一步細化為五個步驟[4]。同年,Brachman 與Anand在Fayyad的研究基礎上將流程細分為九個步驟[5]。通常
來說,在確定研究方向或要解決的問題后,數據挖掘的工作流程為:原始數據資料的搜集;將數據資料分組,轉換有意義的信息;在信息中甄選出有用的知識,從而實現“數據->信息->知識”的轉變。
目前數據挖掘的各種技術已被廣泛的應用在經營輔助決策、消費行為分析等多個領域。針對特定疾病的診斷與預測也在國內外得到一定的應用,例如以線性判別分析、主成分分析,結合類神經網絡以鑒別青光眼;以及利用多群判別分析,結合血清檢驗與放射性治療的產生的線性函數,透過ROC曲線分析預測C型肝炎病變為肝硬化的概率。在此,本文提出以數據挖掘技術為基礎,結合統計分析與規則推導理論,對電子病歷應用數據挖掘以實現醫療診斷輔助的研究。
2.2 數據預處理
2.2.1 數據修剪 由于數據挖掘通常面對的是數量龐大的數據,為提高知識挖掘效率,通常會對數據進行預處理,有效地簡化或修剪數據但不失去原本數據中可能隱含的知識。數據修剪的理論依據主要是刪除與預計挖掘結果較不相關,或可能誤導挖掘結果的數據,以減少整體的數據量與計算量,并增加挖掘結果的精確度。數據修剪也是數據挖掘技術中一個重要的研究方向,本文中不做深入探討。
針對布爾型(Boolean)的數據項,通常可以直接修剪。針對數值型(Numeric)的數據項,采用相關系數法[6]來做數據修剪,通過衡量兩數值變量的線性關系強度及正負偏離的參數,來決定數據是否保留。
2.2.2 空白數據補齊 原始數據中通常會存在一部分被標示為“BLANK”、“NULL”的空白數據。為確保所分析數據的完整性,對此類數據必須予以補齊。處理空白數據的方法大致上有以下五種:直接忽略,該方法操作簡單 |
|