基于SVM方法的大腸癌淋巴結轉移預測
張鈺① 劉頌① 胡珊① 丁培榮②
①中山大學中山醫學院生物醫學工程系,510080,廣州市中山二路74 號
②中山大學附屬腫瘤醫院結直腸科,510060,廣州市東山區東風東路651 號
摘 要 本文收集了1000 多例大腸癌病人的臨床數據,運用支持向量機的算法對病人淋巴
結是否轉移進行分類預測,用交叉驗證的的方法得出最佳參數,預測準確率為82.65%.
關鍵詞 支持向量機 數據挖掘 交叉驗證
1 引言
淋巴結轉移是影響大腸癌預后最重要的因素之一,因此準確地判斷淋巴結轉
移與否對于判斷預后、制定治療方案意義重大[1]。目前診斷淋巴結轉移的“金標
準”是病理組織學檢查,然而它會受到一些因素的影響,如淋巴清掃范圍、取檢
淋巴結的方法、淋巴結微轉移的客觀存在等。事實上,一些病理分期為早期的病
人出現了預后差的情況,可能與我們沒有發現存在的淋巴結轉移灶有關。
本文嘗試建立淋巴結轉移預測的計算機模型,能夠為臨床手術方案的制
定提供一定的參考依據。共收集了中山大學附屬腫瘤醫院一千多例結直腸
癌病人的數據,在對數據進行凈化、去噪聲、離散化等預處理后,利用支持向
量機軟件libsvm(臺灣大學林智仁副教授等研發)對大腸癌N 分期進行預測。
2 基本原理
支持向量機(SVM)是一種新型的機器學習方法,它是建立在統計學習理論
的vc(Vapnik Chervonenks)維理論和結構風險最小化(Structural RiskMinimi
zation,SRM)原理基礎上的,即是由有限訓練樣本得到的決策規則對獨立的測試
集仍能得到小的誤差,這使得 SVM 方法 比基于經驗風險最小化(Empirical Ri
sk Minimization,E1)的人工神經網絡ANN 等方法具有更好的泛化能力和分類精
確性。支持向量機能較好地解決小樣本、非線性、高維數和局部極小點等實際問
題,目前已成為機器學習界研究的熱點。雖然 SVM 方法在理論上具有突出的優
勢,但應用研究相對于理論研究較為滯后。SVM 的基本思想是對于非線性可分樣
本 ,將其輸入向量通過非線性變換映射到另一個高維空間,使其線性可分,在
這個新空間中尋找一個最優分類超平面,使得超平面與不同類樣本集之間的距離
最大,從而達到最大的泛化能力。SVM 的這種非線性變換是通過核函數計算高維
空間中的內積實現的,這樣就避免了維數升高而引起的計算困難[2],其基本原理
如下:考慮一個線性可分的二分類問題,設線性可分的個訓練樣本集{( , ),
i:1,2,…l,},輸入樣本空間的維數為d,每個樣本屬于標記為 ∈{-1,
1}的兩類之一。由這一組樣本可以確定一個分類超平面,使得離它
最近的每類點(稱為支持向量)與它的距離達到最大值,對于每個樣本有 :
≥ 1 (1)
樣本到超平面的距離,即分類間隔,可定義為,當最小時,分類間隔最
大,此時的分離超平面即為最優分類面。使分類間隔最大實際上就是對推廣能力
的控制,統計學理論表明[3]最優分類面具有最好的推廣能力。
考慮到訓練樣本集為線性不可分時,需引入非負松弛變量,i=1,2,…,l,
上述最優超平面的求解問題為:
(2)
其中,懲罰參數C>0,C 越大表示對錯誤分類的懲罰越大。式(2)中第一項
使分類間隔盡量大,第二項則使誤差盡量小 |
|