結構化數據輸入的新研究
*A.M. van Ginneken, *M. de Wilde
**包含飛(摘譯)
*荷蘭,鹿特丹, Erasmus大學,醫學信息學教研室
**上海中醫藥大學,中醫學信息化-標準化研究室
摘要 本文描述了結構化數據輸入(SDE)的哲學思考,知識模型和知識編輯器、概念庫,和SDE的功能、模板、有效性檢查等有關技術及其界面,最后討論用戶個性化和介紹了當前的發展現狀。
關鍵詞 電子病歷 醫學信息學 知識工程 標準化
(一) 結構化輸入:一個悖論
傳統的結構化數據輸入(SDE)方法是紙張表格式的。人們為這種傳統方式開發了電子版,并提供輸入檢查,檢查數字數據的有效性和提高數據的完整性等先進功能。但這種固定排版表格在較小的學科領域,數據需求比較固定和簡單的部門是有效的。對較大的學科,及信息需求多變難以預測的部門,固定格式就成為累贅。內科和兒科是典型的那種學科。需要幾十個甚至幾百個表格,有的病人還需不同的一組次級表格。而且一般還缺乏通覽的功能,用戶只能看到在顯的表格。除了用戶方面的不便以外,維護和適應用戶問題也非常困難。由于格式刻板,固定不變,覆蓋面小,故一般用于數據類型較少,按常規收集數據的部門或研究項目中。需附加的數據則仍用自由文本輸入。
一些程序采取較為動態的方式并提供有限的控制詞匯庫(controlled vocabularies),以菜單或一組模板(template)的形式提供預定義的描述性選項(predefined descriptive options)。所謂動態是指所提供的描述體征和癥狀的選項對應于當前正在處理的問題。如 PEN&PAD, IMR-E, Ivory, Pure MD, Purkinje, 和A.M. van Ginneken等開發的內分泌學病歷系統的原型。這些系統所覆蓋的領域范圍和內容的詳盡程度不同:一些系統用概念-屬性-值(concept–attribute–value)模型,而補充的細節(additional detail)以自由文本的方式輸入。IMR-E提供的模板的基礎是一些經選擇的癥狀。Purkinje則用樹狀層次結構,可根據要求的詳盡程度逐級擴展。固定格式和動態程序的優缺點可歸結如下,前者方便快速數據輸入,但過分受限于內容范圍;后者可變性較大,信息量較大的數據所需瀏覽量(nevigation)太大,用戶的”選擇-決定”的工作量過大;
總之,悖論在于醫生希望在一個表中能輸入任何數據。所以問題的實質是有效性必以犧牲可變性為代價,而可變性將會犧牲有效性,二者能否統一?
(二) 哲學思考
我們的哲學是電子病歷(CPR)應有公共基本數據結構但同時其覆蓋內容可根據需要“量體裁衣”。公共結構應與專業無關,即描述數據的屬性對所有專業是統一的。如實驗室報告應包括檢驗類型、結果值、單位、正常值范圍。例如對于血糖濃度測定的報告,無論是外科醫生還是內科醫生申請均無差別。又例如,藥物處方均有藥名、劑量和每天用藥次數等項目。與臨床專業無關的數據用直接模型:屏幕上的字段與表中的屬性一一對應的直接關系。這種直接模型比較簡單但也較呆板:內容的任何改變都要求數據庫和軟件作相應的修改。因此,數據變化很少的專業可首選這種直接模型。
有些數據是專業依賴性的,也即不同的專科應用不同的數據項,如心臟科的病歷與矯形外科的病歷大相徑庭。當前癥狀記錄,物理檢查,放射科報告,內分泌科報告,病理報告等也是如此。但為了內容的可適性(flexibility),基本結構應是非內容依賴性的。我們選擇樹狀結構,不僅能表達病人數據,而且能表達任何描述性信息。每個結點表示一個概念,其子樹則表示其描述。然而,樹狀數據模型并不反映‘父子系列’的抽象內容。每個結點所指的概念必需“告以”解釋這種內容。因為附加了這一解釋步驟,所以稱其為間接模型。間接模型的可適性的關鍵是內容的可擴展性和不斷發展性且無須改變數據庫和軟件。
圖 1. 間接模型.知識庫和病人數據庫的內容更新無須更新程序
ORCA(Open Record for CAre)是兼有專業獨立性和非獨立性數據并以直接和非直接數據模型實現的通用CPR的原型。該程序的采集結構化數據的非直接部分的用戶界面是動態的,但直覺性和高效性欠缺。高效性和可適應性的結合是一個嚴峻的挑戰,因此我們把研究重點放在專業依賴性數據的SDE上。這一SDE是全新的設計模塊,在數據錄入時利用知識庫指導。以下介紹此SDE的知識模型,知識編輯器及用戶界面。
|
|