圖像數據挖掘在SARS輔助診斷中的應用
萬壽紅,李 曦,龔育昌,謝鉉洋
(中國科學技術大學計算機科學技術系,安徽省計算與通訊軟件重點實驗室,合肥 230027)
摘 要:嚴重急性呼吸道綜合癥(SARS),又稱“非典型肺炎”,是目前人類面臨的一種嚴重危害生命和健康的新發傳染病。利用PACS系統中的胸部數字X光(DX)正位圖像,采用圖像數據挖掘技術,設計并實現了SARS計算機輔助診斷系統。經過數據清理定位DX肺部圖像的感興趣區域,分割出雙肺區域,提取特征參數,構造決策樹,實現對SARS患者和一般肺炎胸部DX正位圖像的分類。實驗結果表明,檢測SARS圖像正確率達到70%以上。
關鍵詞:圖像數據挖掘;計算機輔助診斷;SARS;圖像分割;決策樹
Application of Image Data Mining to
Computer Aided Diagnosis SARS
WAN Shouhong, LI Xi, GONGYuchang, XIE Xuanyang
(Department of Computer Sci. & Tech., University of Sci. & Tech.,
Anhui Province Key Laboratory of Software in Computing and Communication, Hefei 230027)
【Abstract】Severe acute respiratory syndrome (SARS), called “typical Pneumonia”in China, is a newly occurred fast transmittable infectiousdisease which badly endangers human’s life and health. This paper designs and realizes a computer aided diagnosis SARS based on image datamining techniques for digital X-Ray images in picture archiving and communication system (PACS). First, lung region of interest is located afterdata cleaning. Then lung region segmentation and feature parameters extraction are performed. The decision tree is constructed for discrimination ofSARS and “typical Pneumonia”. The experiment result shows that more than 70% SARS cases can be detected.
【Key words】Image data mining; Computer aided diagnosis(CAD); Severe acute respiratory syndrome(SARS); Image segmentation; Decision tree
嚴重急性呼吸道綜合癥(Severe Acute Respiratory Syn-
drome, SARS),又稱“非典型肺炎”,是目前人類面臨的一種嚴重危害生命和健康的新傳染病。由于受到醫生經驗、水平和主觀因素等影響,診斷的正確性與效率仍不利于SARS的診療與疫情控制,因此迫切需要借助有效的計算機輔助診斷(computer aided diagnosis, CAD) [1]方法,以快速、準確地發現與診斷SARS疑似病例。當一個患者有胸部的疾病,如肺結核、肺癌以及SARS等疾病時,其胸部數字X光(DX)正位圖像上會產生肺部節點,紋理異常等癥狀。研究表明胸部DX正位圖像對SARS的診斷起著決定性的作用[1,2]。本文根據廣州醫學院第二附屬醫院PACS數據中的大量胸部DX圖像,結合醫學專家的經驗知識,利用圖像數據挖掘技術[3,4],設計并實現了SARS計算機輔助診斷系統,為醫生的輔助診斷提供依據,提高SARS疑似病例及時確診的準確率。
row2
row1
col1
col2
sl
該系統的圖像數據挖掘過程包括數據清理、肺部區域分割、特征提取、數據挖掘4個步驟。
1 數據清理
數據清理是從PACS數據庫中過濾出胸部DX正位圖,并定位肺部感興趣區域(ROI)的過程。PACS系統中存有多種類型圖像,包括CT、MR等非DX圖像,它們很少有大型圖像數據,在圖像的大小上與DX有很大區別。所以首先采用圖像分辨率作為衡量指標從數據庫中分離出DX圖像。
1.1 DX正位圖的選取
胸部DX圖像包括正位圖、側位圖兩種,而我們所關心的是正位圖。觀察發現,正位圖的整體亮度及左右邊界均比側位圖亮,所以對每幅圖像選取平均灰度、圖像最左和最右列的平均值及標準方差這5個特征參數形成描述向量,構造訓練集,用C4.5算法建立決策樹。對561幅胸部DX圖像進行分類,結果表明只有5幅圖像分類錯誤,正確率達到99.16%。整個的判定過程實際上只使用了平均灰度、圖像最左列的標準方差、最右列的平均值3個決策變量。
1.2 ROI 定位
圖1 DX胸片的肺部ROI邊界
由于DX肺部圖像中包含了一些與診斷無關的信息,而我們感興趣的僅僅是圖像中的肺部區域,通過對感興趣區域(ROI)自動定位,過濾掉無關信息,從而引導后續算法將“注
基金項目:廣州醫學院第二附屬醫院資助項目“醫院信息綜合管理系統”
作者簡介:萬壽紅(1971-),女,碩士、講師,主研方向:計算機視覺,圖像處理;李曦,副教授;龔育昌,教授、博導;謝鉉洋,博士生
收稿日期:2006-02-02 E-mail:wansh@ustc.edu.cn
意力”集中在ROI,進一步提高圖像分析處理速度及后繼邊緣檢測的正確率。一個肺部區域由row1,row2,col1,col2這4個參數決定,分別表示肺部區域的上邊界、下邊界、左邊界和右邊界,如圖1所示。
1.3 列邊界的提取
分析圖像的統計特性發現,肺葉處灰度值偏小,而圖像從左右列邊界處經過較亮的軟組織帶進入左右肺葉。圖像的列均值曲線(如圖2)在兩側各形成一個波峰,曲線中間突起的波峰則表示脊椎中軸線位置SL。由于噪聲的影響,往往在達到峰值前已與肋膈角相切,因此利用列均值的均值MM(Mean of Means),即圖中虛線所示,按一定比例s做水平線與列均值曲線相交,并取最左和最右交點col1’和col2’作為列邊界Col1和Col2。試驗中選取s=0.9得到了較好的結果。12 000 8 000 4 000 colSTD曲線SL col1’ MM col2’ MEAN曲線0 400 800 1 200 1 600
圖2 列均值曲線
1.4 行邊界的提取
行邊界的行均值無明顯特征。考慮到行上邊界處于雙肩部位,對稱性在圖像中沿SL位置呈對稱分布。而偏度(skewness)恰好描述了一組數據圍繞采樣平均值的不對稱程度。為此采用圖像的行偏度作為衡量標準求出行上邊界row1。設圖像某行數據為
1(,...,)nxx=x
則偏度skew定義為33()XXExskewμσ−=
其中,Xσ表示標準方差,Xμ表示平均值,E表示數學期望。偏度skew等于0的位置就是肺部行上界row1所在位置。
肺部區域行下界多位于胸腔與腹腔結合部位,影像特征復雜,偏度值無明顯特征。考慮到肺部區域滿足一定的寬高比,用下面的公式計算行下界: 2221ColColRowRowWH−=+
其中,WH表示肺部區域寬高比值。WH是經驗參數,通過多幅DX胸部正位圖象的肺部ROI區域的統計分析,結合放射科專家的先驗知識得到。
2 肺部區域分割
如何快速準確地檢測雙肺邊緣輪廓,是計算機輔助診斷的關鍵問題。DX圖象具有邊緣不清晰、噪聲大等特點,盡管常規的邊緣檢測方法(sobel、Prewitt﹑kirsch等)運算比較簡單,但抗干擾能力較差,在高分辨率情況下會放大不必要的細節,導致不合理的輪廓;在低分辨率情況下會丟失圖像的部分邊緣信息,產生失真和輪廓漏檢。而活動輪廓模型(Active Shape Model, ASM)[5,6] 算法雖然對圖像的局部模糊不敏感,但需要預先通過大批樣本進行訓練來建立肺部輪廓線的統計模型,算法過于復雜。
本文 |
|