醫療行業數據集成中的數據質量問題研究
林靖生① 郭茜②
①上海交通大學醫學院附屬瑞金醫院計算機網絡中心,200433,上海市瑞金二路197 號
②Dimensional Insight, Inc. 美國泓維軟件有限公司,510145,廣州市荔灣區中山七路85-99號1603
之一
關鍵詞 數據集成 數據質量 數據清洗 決策支持 數據挖掘
摘 要 分析了目前醫院在建立數據分析系統和數據挖掘系統,數據集成環節中醫院當
前的現狀和存在的問題及應對辦法。在醫院信息系統逐步建成后完善后,管理和利用好各
系統收集的數據,為分析系統和決策系統服務,使數據為醫院帶來更多的價值是醫院信息
化建設的又一個高地。各系統在數據集成過程中的數據質量問題直接影響到了日后分析和
決策的正確性,在系統建設過程中扮演了重要的角色。需要利用科學的方法和有效的工具,
建立一套定義、評價、效驗、改善數據質量的方法,為醫院數據集成提供有效的保障。
1 引言
數據集成已經成為醫院數據挖掘和在線分析系統不可或缺的前提,因此,我們就不得
不正視與之密切相關的數據質量問題。決策系統和分析系統的正確結果都依賴原始數據的
質量,沒有數據質量的保證就不可能得到正確的分析結果和正確的決策判斷。中國醫院目
前在線分析系統和數據挖掘項目里,有相當部分難以達到預期目標甚至相去甚遠,造成這
種結局的一個重要原因就是中國醫院復雜的信息化背景造成的數據質量問題。在數據集成
項目中忽略數據數據質量問題,將為日后的信息化建設埋下隱患。如果發現各系統中的數
據質量問題、在數據集成中如何有效地檢測和效驗數據質量、如何在現有環境中利用有效
手段干預和改善數據質量是我們必須面對的問題。
2 醫療行業數據環境現狀
為了為醫院決策支持系統提供良好的數據分析和數據挖掘環境,在醫院數據集成項目
中會牽涉到醫院各方面的信息系統如HISRISPASCHR物流等,醫院的信息系統建設時
間闊度較長,各應用和軟件提供商業比較分散、當時也沒有可以參照的建設標準和數據標
準。有很多系統還是使用文件方式存儲數據。經過多年的數據維護、搬遷,及當時輸入時
487
缺乏效驗。系統上線時功能模塊逐步上線導致的數據缺失、數據不完整、
2.1 醫院業務系統中一些存在問題的數據的情形
2.1.1 常識形錯誤 如:病人實際出生年月為1978 年,輸入時誤將9 輸入為8,導致病人
年齡130 歲。病人住院天數5 年確診天數1027 天, 輸入年月日輸入錯誤,導致病人確診
天數大于住院天數。
2.1.2 不符合業務邏輯和規定 如:病人的病史記錄有氣管插管、氣管切開等搶救治療措
施,但在病人的費用記錄里沒有相關的收費,病史記錄里有過告病危但沒有病危記錄,病
人實際沒有進行一級護理或特級護理,但收費按特護或一護收費。
2.1.3 數據不完整 如:病人處方信息中,有處方的匯總記錄和總費用記錄,但缺少明細
記錄。有手術但沒有數據報告或手術記錄。
2.1.4 數據缺乏實效性 如:手術完成后應及時填寫數據切口等級,如果到了出院才輸那
再圍術期抗菌用藥的分析就不能做到及時提示,在可控期間進行控制。
2.1.5 數據統計口徑差異 如:病史科室、計算機中心、財務科室可能都擁有自己的信息
系統和對事物的描述方法。如門診人次、出院 |
|