專利名稱:基于磁共振波譜成像的乳腺腫瘤診斷系統的制作方法
技術領域:
本發明屬于醫療技術領域,特別涉及一種基于磁共振波譜成像的乳腺腫瘤診斷系統。
背景技術:
乳腺腫瘤是婦女常見疾病和多發病之一。近年來,婦女人群中由乳腺腫瘤引發乳腺癌的發病率和死亡率呈逐年上升趨勢,已躍居我國女性惡性腫瘤發病率和死亡率的首位。早期發現、早期診斷、早期治療是減少乳腺腫瘤發病率、降低死亡率的關鍵。目前用于乳腺的影像學檢查手段主要有B超、鉬靶X線攝影和磁共振檢查,而磁共振檢查無論在顯示病變位置、形態還是病變性質方面都要明顯優于其它兩種檢查手段。
核磁共振技術是繼CT成像技術后的又一廣泛應用于臨床醫學檢查的醫學成像技術。應用于臨床醫學的核磁共振技術主要分為兩類一類是磁共振成像(Magnetic ResonanceImaging,簡稱MRI),該技術主要應用在組織器官發生解剖形態上的變化的臨床情況下,但此時疾病也已處于中晚期,失去了最好的治療時機,并不具備實質的臨床檢驗意義。另一類是磁共振波譜成像(Magnetic Resonance Spectroscopic Imaging,簡稱MRSI),MRSI技術把MRI提供的空間信息和磁共振波譜學(Magnetic Resonance Spectroscopy,MRS)提供的波譜信息有機結合起來,由于磁共振波譜的無創性和無射線損害,可以反復進行以監測放化療效果。
在乳腺腫瘤的早期診斷中,MRSI被普遍認為是最為有效的檢測診斷技術之一。而臨床上,診斷乳腺腫瘤主要靠醫師憑肉眼觀察醫學影像的特征,靠醫師觀察診斷難以避免經驗差異、疲勞疏忽等人為因素,誤診、漏診等情況時有發生,因而乳腺腫瘤計算機輔助診斷系統運遇而生。目前,基于磁共振波譜成像的乳腺腫瘤計算機輔助診斷方法可大致分為兩類①依賴模型的信號量化分析方法;②模型獨立的機器學習方法。最常用的信號量化分析方法包括VARPRO、AMARES、QUEST三種,它們以實現樣本數據和模型基函數之間的均方距離最小化作為輔助診斷依據,模型基函數則建立在典型磁共振波譜代謝特征的先驗知識上。信號量化分析方法實現簡單,但其輔助診斷的性能卻受到多種因素的影響,例如如何選擇模型成分數目、如何優化選擇先驗知識(模型函數)、如何降低非乳腺磁共振波譜導致的噪聲影響、如何解決由于多重代謝導致的峰值重疊、如何解決基準線失真和擴散等等,這些因素導致信號定量分析方法在基于磁共振波譜成像的乳腺腫瘤早期診斷中的應用受到了極大的限制。為了克服這些缺陷,研究人員開始尋求利用模型獨立的機器學習方法來輔助乳腺腫瘤早期診斷,其中具有代表性方法有Z積分法、典型相關分析(Canonical Correlation Analysis,簡稱CCA)、主成分分析(Principal Component Analysis,簡稱PCA)和線性判別分析(Linear Discriminant Analysis,簡稱LDA)。
在Z積分法中,Z積分是一個統計量,Z積分分析的目的是量化所有代謝成分在整個譜向量所占的比例,它通過計算每個單獨樣本的積分差異與樣本的總體舉均值的總體方差的比率來獲得。
CCA也是一種統計分析方法,是研究兩組變量之間相關關系的一種統計分析方法,也是一種維數約簡技術,它能夠有效地揭示兩組變量之間的相互線性依賴關系,
已成功應用于一些領域的數據分類。
PCA與支持向量機(Support Vector Machine,簡稱SVM)進行結合已應用于腦MRS數據進行腦組織分類,PCA以最大化方差為準則,能夠在均方誤差最小意義下最優表達數據,但是并不能有效保持MRS數據中的鑒別信息,因而不適合于分類。
LDA以最大化類間離散度矩陣與類內離散度矩陣之比為準則,通過求解廣義瑞利商問題獲得投影矩陣,能夠進行數據維數約簡和分類;但LDA也存在缺陷它只能提取比已標注類別數少的特征,沒有考慮類別方差的差異性,小樣本問題會導致算法失效;并且其支持向量機的性能主要取決于其選擇的參數,若參數選擇不當,支持向量機就可能出現過學習或欠學習,機器學習效果不理想。
上述幾種機器學習方法都是常用的線性特征提取方法。而近年研究發現,磁共振波譜可以由一些連續的變量進行參數化,也就是說,磁共振波譜在本質上屬于低維子流形。這意味著傳統線性特征提取方法不能有效發現磁共振波譜數據中的本征流形結構,從而不能有效的實現磁共振波譜數據的維數約簡;同時,現實中數據的有用特征往往不一定是特征的線性組合,線性方法在這樣的場合中不適用。
發明內容
針對現有技術存在的上述不足,本發明的目的在于提供一種基于磁共振波譜成像的乳腺腫瘤診斷系統,該診斷系統能有效發現磁共振波譜數據中的本征流形結構,將鑒別性流形學習方法與無監督的譜聚類方法相融合,通過計算機輔助檢測磁共振波譜成像中的異常、可疑區域,實現乳腺腫瘤的早期鑒別診斷。
本發明的目的是這樣實現的基于磁共振波譜成像的乳腺腫瘤診斷系統,包括超導MR掃描儀和計算機系統,超導MR掃描儀將乳腺磁共振波譜數據以電子圖像的計算機可識別的格式讀入計算機,計算機執行步驟如下 a)由乳腺磁共振波譜數據生成乳腺磁共振波譜矩陣對讀入的乳腺磁共振波譜數據中每一個數據點根據其磁共振波譜生成一個向量,從而所有的磁共振波譜數據構成一個矩陣;以G表示乳腺磁共振波譜數據的二維分格,則|G|表示乳腺磁共振波譜數據中數據點的個數;以n表示數據點的磁共振波譜維數;從而,由整個乳腺磁共振波譜數據生成|G|行n列的乳腺磁共振波譜矩陣X={x1,x2,…,x|G|}T,其中T為矩陣轉置符號; b)利用鑒別性流形學習方法對乳腺磁共振波譜數據進行維數約簡,獲取乳腺磁共振波譜數的低維鑒別特征; c)利用譜聚類方法對乳腺磁共振波譜數據的低維鑒別特征進行聚類,得到乳腺磁共振波譜數據中的腫瘤區域和非腫瘤區域; d)利用流形學習方法,對乳腺磁共振波譜數據中的腫瘤區域進行維數約簡,獲取腫瘤區域的低維鑒別特征;其具體包括 以r表示腫瘤區域中數據點的二維分格,|r|表示腫瘤區域中數據點的個數,腫瘤區域中各數據點磁共振波譜的維數為n,則腫瘤區域中的數據可表示為一個|r|行n列矩陣Xnew={xnew,1,xnew,2,…,xnew,|r|}T,即腫瘤區域數據矩陣,其中|r|<|G|。然后依照步驟c)中的方法對腫瘤區域數據矩陣Xnew進行維數約簡,并獲取腫瘤區域的低維鑒別特征Ynew;Ynew為腫瘤區域數據矩陣Xnew投影到低維嵌入空間的特征矩陣,其維數為|r|×tnew,tnew<n; e)根據先驗知識得到代價敏感因子矩陣; 在計算機的數據庫中標注良性腫瘤磁共振波譜特征Bx以及惡性腫瘤磁共振波譜特征Cx;對腫瘤區域的低維鑒別特征Ynew中每個數據點ynew,u賦予一個代價因子mcost,u,其中ynew,u∈Ynew,u∈{1,2,…,|r|},代價因子mcost,u由下式確定
其中取1<α<100;由元素mcost,u構成代價敏感因子矩陣Mcost。
f)利用代價敏感的聚類方法進行聚類,得到乳腺磁共振波譜數據的腫瘤區域中的良性區域和惡性區域,實現乳腺腫瘤的早期鑒別診斷;其具體包括 f1)初始化良性區域聚類中心vnew,1和惡性區域聚類中心vnew,2,由vnew,1和vnew,2構成聚類中心矩陣Vnew={vnew,1,vnew,2};其具體方式是,隨機在腫瘤區域的低維鑒別特征Ynew中選取2個數據點ynew,i和ynew,j(ynew,i,ynew,j∈Ynew,i,j∈{1,2,…,|r|}且i≠j),分別作為良性區域聚類中心vnew,1和惡性區域聚類中心vnew,2,并確定初始代價和Mnewsum,0、最大迭代次數Tnew,max和迭代截止誤差εnew;其中,200≥Tnew,max≥50,10-2≥εnew≥0; f2)分別計算腫瘤區域的低維鑒別特征Ynew中其它各數據點與兩個聚類中心vnew,1和vnew,2的歐氏距離,按就近原則將各數據點歸入聚類中心所代表的聚類中,完成一次聚類迭代運算; f3)經過該次迭代運算后,根據如下目標函數計算聚類后的代價和 然后將聚類后的代價和Mnewsum與初始代價和Mnewsum,0進行比較,計算錯分代價誤差若且ΔMnew≤εnew則停止迭代運算,執行步驟f5);否則,執行步驟f4); f4)分別計算所得兩個聚類的均值數據點
和
并以
和
作為新的良性區域聚類中心vnew,1和新的惡性區域聚類中心vnew,2,并以此次聚類后的代價和Mnewsum作為新的初始代價和Mnewsum,0,重復步驟f2)和f3),再一次進行迭代運算和良性與惡性腫瘤區域錯分代價誤差運算;當迭代運算次數超過最大迭代次數Tnew,max,停止迭代運算,執行步驟f5); f5)依據聚類結果,劃分腫瘤區域中的良性區域和惡性區域。
與現有技術相比,本發明具有以下優點 (I)本發明提供一種融合流形學習和譜聚類的乳腺磁共振波譜成像分析方法,通過計算機輔助檢測手段,實現乳腺腫瘤的早期鑒別診斷,進一步實現乳腺癌的診斷。其采用鑒別性流形學習方法對乳腺磁共振波譜數據進行學習,將其投影到低維嵌入空間,不僅可以揭示隱藏在高維磁共振波譜空間中的低維流形結構,而且有效保持乳腺磁共振波譜數據中的鑒別信息;然后利用譜聚類方法對低維鑒別特征進行優化聚類,使不具備同鑒別特征的數據點得到了最大程度的分離,實現乳腺腫瘤的早期鑒別診斷;進一步,還引入代價敏感機制,以達到錯分的總體代價最小化,實現乳腺癌的優化診斷。
(II)本發明通過融合鑒別性流形學習方法的乳腺磁共振波譜數據鑒別特征提取方法,能夠更好地揭示隱藏在乳腺磁共振波譜高維空間中的低維流形結構,消除磁共振波譜之間的相關性,降低數據冗余度。
(III)本發明融合鑒別性流形學習方法與無監督的譜聚類方法實現乳腺磁共振波譜數據的數據特征分割,分割效率高,腫瘤診斷更加準確。
(IV)本發明進一步利用鑒別性流形學習方法對腫瘤區域進行維數約簡和特征提取,進而區分良性腫瘤和惡性腫瘤,為乳腺癌的輔助診斷提供依據。
(V)在腫瘤區域的分類過程中,以實際醫療情況為依據引入代價敏感機制,區分良性誤判和惡性誤判的代價值,使得乳腺癌診斷結果更加優化。
圖1為本發明基于磁共振波譜成像的乳腺腫瘤診斷系統的計算機流程圖; 圖2為1H-MRS乳腺磁共振波譜成像示意圖; 圖3為融合鑒別性流形學習方法與無監督的譜聚類方法實現乳腺磁共振波譜數據的數據分割效果示意圖; 圖4為融合鑒別性流形學習方法與代價敏感聚類方法實現乳腺磁共振波譜數據的良惡性腫瘤分類效果示意圖;
具體實施例方式 下面結合附圖和實施例對本發明的技術方案進一步說明如下 實施例 一種基于磁共振波譜成像的乳腺腫瘤診斷系統,包括超導MR掃描儀、乳腺專用表面線圈和計算機系統。利用本發明進行乳腺癌鑒別診斷的方法如下 通過GE公司1.5T超導MR掃描儀和乳腺專用表面線圈獲得磁共振波譜數據進行乳腺癌鑒別診斷。數據采集過程中,患者取俯臥位,雙側乳腺自然下垂,用墊子適當填充固定,掃描中保持身體不動。使用單體素空間頻譜點分辨自旋回波波譜法(SS-PRESS)行1H-MRS檢查。參見圖2,在圖2.A中為一個乳腺磁共振切片場景,并進行16×16的體素分格,與網格相對應的波譜示例如圖2.B和圖2.C所示;圖2.B表示一個由乳腺正常部分體素獲得MR波譜曲線;圖2.C表示一個由乳腺的腫瘤部分體素獲得MR波譜曲線。超導MR掃描儀將乳腺磁共振波譜數據,以電子圖像等計算機可識別的格式讀入計算機,計算機執行步驟如下,參見圖1 a)由乳腺磁共振波譜數據生成乳腺磁共振波譜矩陣計算機讀入由GE公司1.5T超導MR掃描儀和乳腺專用表面線圈獲得的磁共振波譜數據,如圖2所示,在圖2.A中為一個乳腺磁共振切片場景,并進行16×16的體素分格,與網格相對應的波譜示例如圖2.B和圖2.C所示,其中譜特征向量的維數n=256;圖2.B表示一個由乳腺正常部分體素獲得MR波譜曲線;圖2.C表示一個由乳腺的腫瘤部分體素獲得MR波譜曲線;通過轉換可以將該磁共振波譜數據表示成256行256列矩陣X={x1,x2,…,xi,…,x256}T,i∈[1,256],T是矩陣轉置符號; b)利用鑒別性流形學習方法對乳腺磁共振波譜數據進行維數約簡,獲取乳腺磁共振波譜數的低維鑒別特征。
首先對每一點xi通過歐氏距離計算其近鄰點,在這里取k=8,可得到為點xi的8個近鄰點組成的子集;這樣對每一點xi,X可以分為knnL(xi)和knnN(xi)兩部分。然后根據knnL(xi)和knnN(xi),就可以構建近鄰圖PL和非近鄰圖PN,并分別計算近鄰權重矩陣WL和非近鄰權重矩陣WN,WL與WN為256×256的對稱矩陣。具體實現如下
再利用輸入樣本數據X、權重矩陣WL和WN來計算近鄰結構矩陣ML和非近鄰結構矩陣MN,ML與MN為256×256的對稱矩陣。具體實現如下 其中,DL是由元素dL,ij構成的矩陣,且dL,ji=∑jwL,ij,因此DL是一個對角矩陣,LL=DL-WL為拉普拉斯矩陣; 其中,DN是由元素dN,ij構成的矩陣,且dN,ii=∑jwN,ij,因此DN是一個對角矩陣,LN=DN-WN為拉普拉斯矩陣。
通過目標優化函數得到投影矩陣A 即投影矩陣A由以下特征方程的t個最大特征值λ1>λ2>…>λt對應的特征向量a1,a2,…,at構成 MNa=λMLa 選擇保持β能量(能量保持系數)的方法確定t, 在本實例中,β=0.9,得到256×16的投影矩陣A。
最后利用投影矩陣A將投影到低維嵌入空間,得到低維鑒別特征,具體如下 Y=ATX 得到256行16列的低維鑒別特征Y。
c)利用譜聚類方法對乳腺磁共振波譜數據的低維鑒別特征進行聚類,得到乳腺磁共振波譜數據中的腫瘤區域和非腫瘤區域。
首先通過Y來構造相似性矩陣Q與對角矩陣D;然后利用Q與D計算規范化相似性矩陣ND=D-1/2QD-1/2;再對矩陣ND進行特征值分解,獲得m個最大特征向量,在本實例中,為了更直觀的將聚類結果可視化,令m=3,構造E=[e1,…,e256];最后使用k-均值聚類算法將數據點ei劃分到相應聚類中,在本實例包括兩個聚類,分別為為乳腺組織的腫瘤區域和非腫瘤區域,完成聚類,具體如下 c21)先隨機在可視化特征E中選取2個數據點ei和ej(ei,ej∈E,i,j∈{1,2,…,|G|}且i≠j),分別作為腫瘤區聚類中心v1和非腫瘤區聚類中心v2,選取Tmax=50,ε=10-3; c22)分別計算可視化特征E中其它各數據點與兩個聚類中心v1和v2的歐氏距離,按就近原則將各數據點歸入聚類中心所代表的聚類中,完成一次聚類迭代運算; c23)經過該次迭代運算后,分別計算所得兩個聚類的均值數據點
和
計算它們與該次迭代運算的兩個聚類中心之間的距離誤差若Δv≤ε則停止迭代運算,執行步驟c25);否則,執行步驟c24); c24)分別以
和
作為新的腫瘤區聚類中心v1和新的非腫瘤區聚類中心v2,重復步驟c22)和c23),再一次進行迭代運算和距離誤差運算;當迭代運算次數超過最大迭代次數Tmax,停止迭代運算,執行步驟c25); c25)依據聚類結果,劃分乳腺磁共振波譜數據中的腫瘤區域和非腫瘤區域。
通過上述步驟,可得到乳腺磁共振波譜數據中的腫瘤區域和非腫瘤區域,如圖3所示,其中矩形代表非腫瘤數據,圓形代表腫瘤數據,從圖3可以得到,腫瘤區域與非腫瘤區域有了較好的區分; d)利用流形學習方法,對乳腺磁共振波譜數據中的腫瘤區域進行維數約簡,獲取腫瘤區域的低維鑒別特征; 在步驟c)中獲得共有28個分格為腫瘤區域,其余為非腫瘤區域,所以乳腺磁共振波譜數據ROI區域表示為28行256列矩陣Xnew={xnew,1,xnew,2,…,xnew,28}T。然后利用步驟b)中的方法對腫瘤區域數據矩陣Xnew進行維數約簡,在本實例中,為了更直觀的將聚類結果可視化,令tnew=3,得到維數為28×3的腫瘤區域的低維鑒別特征Ynew。
e)根據先驗知識進行標注,計算感興趣區域中分格的代價敏感因子矩陣Mcost,Mcost為28×28的對稱矩陣。具體如下
在本實例中,取α=20,表示將惡性樣本錯分為良性樣本的代價要遠大大于將良性樣本錯分為惡性樣本。
f)利用代價敏感的聚類方法進行聚類,得到乳腺磁共振波譜數據的腫瘤區域中的良性區域和惡性區域,實現乳腺腫瘤的早期鑒別診斷。利用代價敏感因子矩陣Mcost,將腫瘤區域的低維鑒別特征Ynew聚類為良性區域和惡性區域 為了讓腫瘤區域的低維特征數據集聚類后,良性誤判和惡性誤判的總代價值最小化,即希望如下目標優化函數達到最小 為實現上述目標,代價敏感聚類方法具體步驟如下 f1)初始化良性區域聚類中心vnew,1和惡性區域聚類中心vnew,2,由vnew,1和vnew,2構成聚類中心矩陣Vnew={vnew,1,vnew,2};其具體方式是,隨機在腫瘤區域的低維鑒別特征Ynew中選取2個數據點ynew,i和ynew,j(ynew,i,ynew,j∈Ynew,i,j∈{1,2,…,|r|}且i≠j),分別作為良性區域聚類中心vnew,1和惡性區域聚類中心vnew,2,選取Tnew,max=100,εnew=10-4,在此迭代運算的收斂條件更加嚴格,使得聚類效果更好; f2)分別計算腫瘤區域的低維鑒別特征Ynew中其它各數據點與兩個聚類中心vnew,1和vnew,2的歐氏距離,按就近原則將各數據點歸入聚類中心所代表的聚類中,完成一次聚類迭代運算; f3)經過該次迭代運算后,根據如下目標函數計算聚類后的代價和 然后將聚類后的代價和Mnewsum與初始代價和Mnewsum,0進行比較,計算錯分代價誤差若且ΔMnew≤εnew則停止迭代運算,執行步驟f5);否則,執行步驟f4); f4)分別計算所得兩個聚類的均值數據點
和
并以
和
作為新的良性區域聚類中心vnew,1和新的惡性區域聚類中心vnew,2,并以此次聚類后的代價和Mnewsum作為新的初始代價和Mnewsum,0,重復步驟f2)和f3),再一次進行迭代運算和良性與惡性腫瘤區域錯分代價誤差運算;當迭代運算次數超過最大迭代次數Tnew,max,停止迭代運算,執行步驟f5); f5)依據聚類結果,劃分腫瘤區域中的良性區域和惡性區域。
通過上述步驟,可對乳腺磁共振波譜數據的腫瘤區域中的良性區域和惡性區域進行區分,實現乳腺癌的診斷,如圖4所示,其中三角形代表良性區域的數據點,圓角四邊代表為惡性區域的數據點。
綜上,本發明提供一種融合流形學習和譜聚類的乳腺磁共振波譜成像分析方法,通過計算機輔助檢測手段,實現乳腺腫瘤的早期鑒別診斷,進一步實現乳腺癌的診斷。本發明采用鑒別性流形學習方法對乳腺磁共振波譜數據進行學習,將其投影到低維嵌入空間,不僅可以揭示隱藏在高維磁共振波譜空間中的低維流形結構,而且有效保持乳腺磁共振波譜數據中的鑒別信息;然后利用譜聚類方法對低維鑒別特征進行優化聚類,使不具備同鑒別特征的數據點得到了最大程度的分離,實現乳腺腫瘤的早期鑒別診斷;進一步,還引入代價敏感機制,以達到錯分的總體代價最小化,實現乳腺癌的優化診斷。
本發明中,超導MR掃描儀將乳腺磁共振波譜數據以電子圖像等計算機可識別的格式讀入計算機,計算機執行步驟如下,參見圖1 a)由乳腺磁共振波譜數據生成乳腺磁共振波譜矩陣即計算機對讀入的乳腺磁共振波譜數據中每一個數據點根據其磁共振波譜生成一個向量,從而所有的磁共振波譜數據構成一個矩陣。
其具體方式是以G表示乳腺磁共振波譜數據的二維分格,則|G|表示乳腺磁共振波譜數據中數據點的個數;以n表示數據點的磁共振波譜維數;從而,整個乳腺磁共振波譜數據構成一個|G|行n列矩陣X={x1,x2,…,x|G|}T(T為矩陣轉置符號),即乳腺磁共振波譜矩陣。
乳腺磁共振波譜數據反映了不同代謝物的分布情況,如肌酸、檸檬酸和膽堿等,不同代謝物分的磁共振波譜互不相同;對乳腺磁共振波譜數據進行二維分格,以每一格作為一個數據點,每個數據點對應一個多維磁共振波譜,那么乳腺磁共振波譜數據中數據點數量加之各數據點的磁共振波譜,將乳腺磁共振波譜數據構建成為一個多維空間。
b)利用鑒別性流形學習方法對乳腺磁共振波譜數據進行維數約簡,獲取乳腺磁共振波譜數的低維鑒別特征。
通常乳腺磁共振波譜數據中數據點的磁共振波譜維數較高,并且在數據點之間呈現復雜的非線性流形分布,為準確、有效的提取其中的鑒別特征,就需要根據其流形結構對乳腺磁共振波譜數據進行維數約簡;鑒別性流形學習方法可以揭示隱藏在乳腺磁共振波譜高維空間中的低維流形結構,消除磁共振波譜之間的相關性,降低數據冗余度,為乳腺磁共振波譜數據的鑒別特征提取提供了有效的保證。
利用鑒別性流形學習方法分析乳腺磁共振波譜數據中的流形結構,并通過優化目標函數對乳腺磁共振波譜數據進行維數約簡,獲取乳腺磁共振波譜數的低維鑒別特征;其具體方式是 首先對乳腺磁共振波譜矩陣X中每一個數據點xi,xi∈X,i∈{1,2,…,|G|},通過歐氏距離計算其近鄰點,這樣對每一數據點xi,乳腺磁共振波譜矩陣X可以分為knnL(xi)和knnN(xi)兩部分表示數據點xi的k個近鄰點xi1,xi2,…,xik組成的子集;knnN(xi)表示數據點xi的非近鄰點組成的子集,即X中不包括其近鄰點子集knnL(xi)的其余部分。
knnL(xi)、knnN(xi)與X之間的關系可用下式來表示 knnN(xi)=X-knnL(xi)(1) 顯然,
knnL(xi)∪knnN(xi)=X。
利用knnL(xi)和knnN(xi)就可以構建近鄰圖PL和非近鄰圖PN首先分別在近鄰圖PL和非近鄰圖PN中定義與乳腺磁共振波譜矩陣X中每一個數據點xi一一對應的節點,然后對每一個數據點xi考慮任一相異數據點xj,xj∈X,j∈{1,2,…,|G|}且j≠i,根據k-NN方法定義圖中的邊,若xj∈knnL(xi),則用一條邊連接近鄰圖PL中xi和xj兩點;若xj∈knnN(xi),則用一條邊連接非近鄰圖PN中xi和xj兩點。
根據構建的近鄰圖PL和非近鄰圖PN,分別計算近鄰權重矩陣WL和非近鄰權重矩陣WN
由元素wL,ij構成近鄰圖PL對應的近鄰權重矩陣WL,由元素wN,ij構成非近鄰圖PN對應的非近鄰權重矩陣WN,然后分別利用近鄰權重矩陣WL和非近鄰權重矩陣WN計算近鄰結構矩陣ML和非近鄰結構矩陣MN 計算近鄰結構矩陣ML的公式如下 其中,DL是由元素dL,ij構成的矩陣,且dL,ii=∑jwL,ij,因此DL是一個對角矩陣,LL=DL-WL為拉普拉斯矩陣; 計算非近鄰結構矩陣的公式如下 其中,DN是由元素dN,ij構成的矩陣,且dN,ii=∑jwN,ij,因此DN是一個對角矩陣,LN=DN-WN為拉普拉斯矩陣。
近鄰結構矩陣ML和非近鄰結構矩陣MN體現了乳腺磁共振波譜數據中的流形結構;為了讓相同磁共振波譜的數據點之間散度盡可能小、不同磁共振波譜的數據點之間散度盡可大,以便準確、有效的提取乳腺磁共振波譜數據中的鑒別特征,就需要根據乳腺磁共振波譜數據的流形結構計算得到投影矩陣A,將乳腺磁共振波譜矩陣投影到低維嵌入空間,實現乳腺磁共振波譜數據的維數約簡,獲取其低維鑒別特征。
投影矩陣A通過目標優化函數得到 即投影矩陣A由以下特征方程的t個最大特征值λ1>λ2>…>λt對應的特征向量a1,a2,…,at構成 MNa=λMLa(7), 其中,λ∈{λ1,λ2,…,λt},a∈{a1,a2,…,at},特征向量個數t的選擇可通過下式計算 其中,β為能量保持系數,即從全部特征值中選擇保持能量β的t個特征值,t<n;取0<β≤1,進而選擇特征值對應特征向量a1,a2,…,at構成投影矩陣A=(a1,a2,…,at)。
然后利用投影矩陣A將乳腺磁共振波譜矩陣X投影到低維嵌入空間,得到乳腺磁共振波譜數據的低維鑒別特征,具體如下 Y=ATX(9), 其中,Y為乳腺磁共振波譜矩陣X通過投影矩陣A投影到低維嵌入空間的特征矩陣,是一個維數為|G|×t的低維矩陣,從而實現了到從|G|×n維到|G|×t維的維數約簡(t<n);特征矩陣Y即作為乳腺磁共振波譜數據的低維鑒別特征。
c)利用譜聚類方法對乳腺磁共振波譜數據的低維鑒別特征進行聚類,得到乳腺磁共振波譜數據中的腫瘤區域和非腫瘤區域。
通過提取乳腺磁共振波譜數據的低維鑒別特征,使得乳腺磁共振波譜數據中腫瘤數據與非腫瘤數據之間得到了最大程度的分離,從而可利用無監督的譜聚類方法對低維鑒別特征進行聚類,實現腫瘤區域與非腫瘤區域的分割。
利用譜聚類方法對乳腺磁共振波譜數據的低維鑒別特征進行聚類,得到乳腺磁共振波譜數據中的腫瘤區域和非腫瘤區域;其具體方式是 c1)為了實現聚類后數據點的可視化,將乳腺磁共振波譜數據的低維鑒別特征Y再次投影到可視化維數的空間 首先,計算低維鑒別特征Y中每一數據點yi(yi∈Y,i∈{1,2,…,|G|})與Y中其余任一數據點yj(yj∈Y,j≠i})之間的相似度qij,由元素qij構成維數為|G|×|G|的相似度矩陣Q,且 式中t為常數,從式中可以得到,如果yi與yj的距離越遠,‖yi-yj‖2越大,則qij越小,相似度越低;反之,則相似度越高。
然后,對相似度矩陣Q進行規范化,通過規范化相似度矩陣ND=D-1/2QD-1/2進行特征值分解,求得規范化相似度矩陣ND的m個最大特征向量,并由上述m個特征向量構成乳腺磁共振波譜數據的可視化特征E=[e1,…,e|G|];其中,D是由元素dij構成的對角矩陣,且dii=∑jqij,m是可視化空間的維數,且m<<n。
c2)用k-均值聚類算法對乳腺磁共振波譜數據的可視化特征E進行分類,區分腫瘤區和非腫瘤區;k-均值聚類算法的具體步驟如下 c21)先隨機在可視化特征E中選取2個數據點ei和ej(ei,ej∈E,i,j∈{1,2,…,|G|}且i≠j),分別作為腫瘤區聚類中心v1和非腫瘤區聚類中心v2,并確定最大迭代次數Tmax和迭代截止誤差ε;為防止迭代計算過程不收斂,選取200≥Tmax≥50,10-1≥ε≥0; c22)分別計算可視化特征E中其它各數據點與兩個聚類中心v1和v2的歐氏距離,按就近原則將各數據點歸入聚類中心所代表的聚類中,完成一次聚類迭代運算; c23)經過該次迭代運算后,分別計算所得兩個聚類的均值數據點
和
計算它們與該次迭代運算的兩個聚類中心之間的距離誤差若Δv≤ε則停止迭代運算,執行步驟c25);否則,執行步驟c24); c24)分別以
和
作為新的腫瘤區聚類中心v1和新的非腫瘤區聚類中心v2,重復步驟c22)和c23),再一次進行迭代運算和距離誤差運算;當迭代運算次數超過最大迭代次數Tmax,停止迭代運算,執行步驟c25); c25)依據聚類結果,劃分乳腺磁共振波譜數據中的腫瘤區域和非腫瘤區域。
通過上述步驟,可得到乳腺磁共振波譜數據中的腫瘤區域和非腫瘤區域。
將乳腺磁共振波譜數據中的腫瘤區域作為感興趣區域,進一步區分良性區域和惡性區域。良性腫瘤和惡性腫瘤在臨床中的磁共振波譜也具有較明顯的差異,可利用監督鑒別性流形學習方法對腫瘤區域進行維數約簡和特征提取,進而區分腫瘤的良性區域和惡性區域,為乳腺癌的輔助診斷提供依據。因此,在上述乳腺腫瘤診斷方法的基礎上,進一步通過以下步驟進行乳腺癌的診斷 d)利用流形學習方法,對乳腺磁共振波譜數據中的腫瘤區域進行維數約簡,獲取腫瘤區域的低維鑒別特征。其具體方式是 以r表示腫瘤區域中數據點的二維分格,|r|表示腫瘤區域中數據點的個數,腫瘤區域中各數據點磁共振波譜的維數為n,則腫瘤區域中的數據可表示為一個|r|行n列矩陣Xnew={xnew,1,xnew,2,…,xnew,|r|}T,即腫瘤區域數據矩陣,其中|r|<|G|。然后依照步驟b)中的方法對腫瘤區域數據矩陣Xnew進行維數約簡,并獲取腫瘤區域的低維鑒別特征Ynew;Ynew為腫瘤區域數據矩陣Xnew投影到低維嵌入空間的特征矩陣,其維數為|r|×tnew,tnew<n。
e)根據先驗知識得到代價敏感因子矩陣。
依照傳統的腫瘤分類理論,認為良性樣本識別率與惡性樣本識別率的重要性相當,因而良性樣本誤判率與惡性樣本誤判率的臨床代價也相當,則通過與步驟c)相似的譜聚類方法對腫瘤區域的低維鑒別特征進行聚類,便能夠實現腫瘤區域的分類。
但對于實際的臨床檢測診斷來說,這樣的分類效果并不是十分理想的因為實際臨床檢測診斷中,若將良性樣本錯判為惡性樣本,病人付出的代價僅在于多余的醫療成本;而若將惡性樣本錯判為良性樣本,極易導致延誤病人的最佳治療時間,病情惡化后,病人不僅要付出成倍增加的醫療成本,還要付出健康代價,甚至導致不可挽回的后果,其代價遠遠大于良性樣本錯判為惡性樣本的代價。因此,在腫瘤區域的分類過程中,以實際醫療情況為依據引入代價敏感機制,區分良性誤判和惡性誤判的代價值,使得乳腺癌診斷結果更加優化。具體方法是 基于對實際臨床診斷的考慮,在計算機的數據庫中標注良性腫瘤磁共振波譜特征Bx以及惡性腫瘤磁共振波譜特征Cx。對腫瘤區域的低維鑒別特征Ynew中每個數據點ynew,u賦予一個代價因子mcost,u,其中ynew,u∈Ynew,u∈{1,2,…,|r|},代價因子mcost,u由下式確定
其中取1<α<100,表示將惡性數據點誤判為良性數據點的代價要大于將良性數據點誤判為惡性數據點的代價。由元素mcost,u構成代價敏感因子矩陣Mcost。
f)利用代價敏感的聚類方法進行聚類,得到乳腺磁共振波譜數據的腫瘤區域中的良性區域和惡性區域,實現乳腺腫瘤的早期鑒別診斷。其具體方式是(以下聚類步驟需重新核實) 為了讓腫瘤區域的低維特征數據集聚類后,良性誤判和惡性誤判的總代價值最小化,即希望如下目標優化函數達到最小 為實現上述目標,代價敏感聚類方法具體步驟如下 f1)初始化良性區域聚類中心vnew,1和惡性區域聚類中心vnew,2,由vnew,1和vnew,2構成聚類中心矩陣Vnew={vnew,1,vnew,2};其具體方式是,隨機在腫瘤區域的低維鑒別特征Ynew中選取2個數據點ynew,i和ynew,j(ynew,i,ynew,j∈Ynew,i,j∈{1,2,…,|r|}且i≠j),分別作為良性區域聚類中心vnew,1和惡性區域聚類中心vnew,2,并確定初始代價和Mnewsum,0、最大迭代次數Tnew,max和迭代截止誤差εnew;為使迭代運算初始化成立,選取為防止迭代計算過程不收斂,選取200≥Tnew,max≥50,10-2≥εnew≥0; f2)分別計算腫瘤區域的低維鑒別特征Ynew中其它各數據點與兩個聚類中心vnew,1和vnew,2的歐氏距離,按就近原則將各數據點歸入聚類中心所代表的聚類中,完成一次聚類迭代運算; f3)經過該次迭代運算后,根據如下目標函數計算聚類后的代價和 然后將聚類后的代價和Mnewsum與初始代價和Mnewsum,0進行比較,計算錯分代價誤差若且ΔMnew≤εnew則停止迭代運算,執行步驟f5);否則,執行步驟f4); f4)分別計算所得兩個聚類的均值數據點
和
并以
和
作為新的良性區域聚類中心vnew,1和新的惡性區域聚類中心vnew,2,并以此次聚類后的代價和Mnewsum作為新的初始代價和Mnewsum,0,重復步驟f2)和f3),再一次進行迭代運算和良性與惡性腫瘤區域錯分代價誤差運算;當迭代運算次數超過最大迭代次數Tnew,max,停止迭代運算,執行步驟f5); f5)依據聚類結果,劃分腫瘤區域中的良性區域和惡性區域。
通過上述步驟,可對乳腺磁共振波譜數據的腫瘤區域中的良性區域和惡性區域進行區分,實現乳腺癌的診斷。
最后說明的是,以上實施例僅用以說明本發明的技術方案而非限制,盡管參照較佳實施例對本發明進行了詳細說明,本領域的普通技術人員應當理解,可以對本發明的技術方案進行修改或者等同替換,而不脫離本發明技術方案的宗旨和范圍,其均應涵蓋在本發明的權利要求范圍當中。
權利要求
1.基于磁共振波譜成像的乳腺腫瘤診斷系統,包括超導MR掃描儀和計算機系統,超導MR掃描儀將乳腺磁共振波譜數據以電子圖像的計算機可識別的格式讀入計算機,其特征在于,計算機執行步驟如下
a)由乳腺磁共振波譜數據生成乳腺磁共振波譜矩陣對讀入的乳腺磁共振波譜數據中每一個數據點根據其磁共振波譜生成一個向量,從而所有的磁共振波譜數據構成一個矩陣;以G表示乳腺磁共振波譜數據的二維分格,則|G|表示乳腺磁共振波譜數據中數據點的個數;以n表示數據點的磁共振波譜維數;從而,由整個乳腺磁共振波譜數據生成|G|行n列的乳腺磁共振波譜矩陣X={x1,x2,…,x|G|}T,其中T為矩陣轉置符號;
b)利用鑒別性流形學習方法對乳腺磁共振波譜數據進行維數約簡,獲取乳腺磁共振波譜數的低維鑒別特征;
c)利用譜聚類方法對乳腺磁共振波譜數據的低維鑒別特征進行聚類,得到乳腺磁共振波譜數據中的腫瘤區域和非腫瘤區域;
d)利用流形學習方法,對乳腺磁共振波譜數據中的腫瘤區域進行維數約簡,獲取腫瘤區域的低維鑒別特征;其具體包括
以r表示腫瘤區域中數據點的二維分格,|r|表示腫瘤區域中數據點的個數,腫瘤區域中各數據點磁共振波譜的維數為n,則腫瘤區域中的數據可表示為一個|r|行n列矩陣Xnew={xnew,1,xnew,2,…,xnew,|r|}T,即腫瘤區域數據矩陣,其中|r|<|G|。然后依照步驟c)中的方法對腫瘤區域數據矩陣Xnew進行維數約簡,并獲取腫瘤區域的低維鑒別特征Ynew;Ynew為腫瘤區域數據矩陣Xnew投影到低維嵌入空間的特征矩陣,其維數為|r|×tnew,tnew<n;
e)根據先驗知識得到代價敏感因子矩陣;
在計算機的數據庫中標注良性腫瘤磁共振波譜特征Bx以及惡性腫瘤磁共振波譜特征Cx;對腫瘤區域的低維鑒別特征Ynew中每個數據點ynew,u賦予一個代價因子mcost,u,其中ynew,u∈Ynew,u∈{1,2,…,|r|},代價因子mcost,u由下式確定
其中取1<α<100;由元素mcost,u構成代價敏感因子矩陣Mcost。
f)利用代價敏感的聚類方法進行聚類,得到乳腺磁共振波譜數據的腫瘤區域中的良性區域和惡性區域,實現乳腺腫瘤的早期鑒別診斷;其具體包括
f1)初始化良性區域聚類中心vnew,1和惡性區域聚類中心vnew,2,由vnew,1和vnew,2構成聚類中心矩陣Vnew={vnew,1,vnew,2};其具體方式是,隨機在腫瘤區域的低維鑒別特征Ynew中選取2個數據點ynew,i和ynew,j,分別作為良性區域聚類中心vnew,1和惡性區域聚類中心vnew,2,并確定初始代價和Mnewsum,0、最大迭代次數Tnew,max和迭代截止誤差εnew;其中,ynew,i,ynew,j∈Ynew,i,j∈{1,2,…,|r|}且i≠j,200≥Tnew,max≥50,10-2≥εnew≥0;
f2)分別計算腫瘤區域的低維鑒別特征Ynew中其它各數據點與兩個聚類中心vnew,1和vnew,2的歐氏距離,按就近原則將各數據點歸入聚類中心所代表的聚類中,完成一次聚類迭代運算;
f3)經過該次迭代運算后,根據如下目標函數計算聚類后的代價和
然后將聚類后的代價和Mnewsum與初始代價和Mnewsum,0進行比較,計算錯分代價誤差若且ΔMnew≤εnew則停止迭代運算,執行步驟f5);否則,執行步驟f4);
f4)分別計算所得兩個聚類的均值數據點
和
并以
和
作為新的良性區域聚類中心vnew,1和新的惡性區域聚類中心vnew,2,并以此次聚類后的代價和Mnewsum作為新的初始代價和Mnewsum,0,重復步驟f2)和f3),再一次進行迭代運算和良性與惡性腫瘤區域錯分代價誤差運算;當迭代運算次數超過最大迭代次數Tnew,max,停止迭代運算,執行步驟f5);
f5)依據聚類結果,劃分腫瘤區域中的良性區域和惡性區域。
2.根據權利要求1所述的基于磁共振波譜成像的乳腺腫瘤診斷系統,其特征在于,所述計算機執行的步驟b)具體包括
對乳腺磁共振波譜矩陣X中每一個數據點xi,xi∈X,i∈{1,2,…,|G|},通過歐氏距離計算其近鄰點,將乳腺磁共振波譜矩陣X分為knnL(xi)和knnN(xi)兩部分
knnN(xi)=X-knnL(xi);
其中,knnL(xi)表示數據點xi的k個近鄰點xi1,xi2,…,xik組成的子集;knnN(xi)表示數據點xi的非近鄰點組成的子集;
然后,分別計算近鄰權重矩陣WL和非近鄰權重矩陣WN
由元素wL,ij構成近鄰權重矩陣WL,由元素wN,ij構成非近鄰權重矩陣WN,分別利用近鄰權重矩陣WL和非近鄰權重矩陣WN計算近鄰結構矩陣ML和非近鄰結構矩陣MN
其中,DL是由元素dL,ij構成的矩陣,且dL,ii=∑jwL,ij,因此DL是一個對角矩陣,LL=DL-WL為拉普拉斯矩陣;
其中,DN是由元素dN,ij構成的矩陣,且dN,ii=∑jwN,ij,因此DN是一個對角矩陣,LN=DN-WN為拉普拉斯矩陣;
再通過目標優化函數得到投影矩陣A
即,投影矩陣A由以下特征方程的t個最大特征值λ1>λ2>…>λt對應的特征向量a1,a2,…,at構成
MNa=λMLa
其中,λ∈{λ1,λ2,…,λt},a∈{a1,a2,…,at},特征向量個數t的選擇可通過下式計算
其中,β為能量保持系數,且0<β≤1,投影矩陣A=(a1,a2,…,at);
利用投影矩陣A計算腺磁共振波譜矩陣X通過投影矩陣A投影到低維嵌入空間的特征矩陣
Y=ATX,
特征矩陣Y即作為乳腺磁共振波譜數據的低維鑒別特征。
3.根據權利要求1所述的基于磁共振波譜成像的乳腺腫瘤診斷系統,其特征在于,所述計算機執行的步驟c)具體包括
c1)為了實現聚類后數據點的可視化,利用乳腺磁共振波譜數據的低維鑒別特征Y將乳腺磁共振波譜矩陣X再次投影到可視化維數的空間
首先,計算低維鑒別特征Y中每一數據點yi與Y中其余任一數據點yj之間的相似度qij,由元素qij構成維數為|G|×|G|的相似度矩陣Q,且
式中t為常數,yi∈Y,yj∈Y,i,j∈{1,2,…,|G|},j≠i;
然后,對相似度矩陣Q進行規范化,求得乳腺磁共振波譜數據的可視化特征E=[e1,…,e|G|];
c2)用k-均值聚類算法對乳腺磁共振波譜數據的可視化特征E進行分類,區分腫瘤區和非腫瘤區;k-均值聚類算法的具體步驟如下
c21)先隨機在可視化特征E中選取2個數據點ei和ej,分別作為腫瘤區聚類中心v1和非腫瘤區聚類中心v2,并確定最大迭代次數Tmax和迭代截止誤差ε;其中,ei,ej∈E,i,j∈{1,2,…,|G|}且i≠j,200≥Tmax≥50,10-1≥ε≥0;
c22)分別計算可視化特征E中其它各數據點與兩個聚類中心v1和v2的歐氏距離,按就近原則將各數據點歸入聚類中心所代表的聚類中,完成一次聚類迭代運算;
c23)經過該次迭代運算后,分別計算所得兩個聚類的均值數據點
和
計算它們與該次迭代運算的兩個聚類中心之間的距離誤差若Δv≤ε則停止迭代運算,執行步驟c25);否則,執行步驟c24);
c24)分別以
和
作為新的腫瘤區聚類中心v1和新的非腫瘤區聚類中心v2,重復步驟c22)和c23),再一次進行迭代運算和距離誤差運算;當迭代運算次數超過最大迭代次數Tmax,停止迭代運算,執行步驟c25);
c25)依據聚類結果,劃分乳腺磁共振波譜數據中的腫瘤區域和非腫瘤區域。
全文摘要
本發明提供一種基于磁共振波譜成像的乳腺腫瘤診斷系統,包括超導MR掃描儀和計算機系統,通過計算機輔助檢測手段,實現乳腺腫瘤的早期鑒別診斷,進一步實現乳腺癌的診斷。其采用鑒別性流形學習方法對乳腺磁共振波譜數據進行學習,將其投影到低維嵌入空間,不僅可以揭示隱藏在高維磁共振波譜空間中的低維流形結構,而且有效保持乳腺磁共振波譜數據中的鑒別信息;然后利用聚類方法對低維鑒別特征進行優化聚類,使不具備同類鑒別特征的數據點得到了最大程度的分離;進一步,還引入代價敏感機制,以達到錯分的總體代價最小化,實現乳腺癌的優化診斷。
文檔編號A61B5/055GK101785672SQ201010103529
公開日2010年7月28日 申請日期2010年1月29日 優先權日2010年1月29日
發明者黃鴻, 李見為, 馮海亮, 秦高峰 申請人:重慶大學