本發明涉及一種基于基因影像學的腫瘤影像標記物提取方法,屬于影像標記物領域。
背景技術:
據世界衛生組織報告,癌癥是全球發病和死亡的主要原因;在我國,惡性腫瘤已經成為我國居民頭號殺手。腫瘤領域是當下研究的一個熱點,其中一個重要的挑戰是尋找腫瘤標記物,對于腫瘤早期診斷、預后以及療效預測起至關重要作用。
現有腫瘤標記物提取方法主要基于分子技術,該方法需借助專業儀器對病人進行活檢或手術,侵入性地獲取出腫瘤局部組織,通過基因測序或蛋白質分子技術,從癌癥的分子機制去探索發生的根源,尋找致癌基因的突變位點和其分子表達通路。結合病人的臨床分期、生存周期等信息,尋找潛在的腫瘤分子標記物。但腫瘤具有很強的空間異質性,局部組織并不能代表整個腫瘤的全局特征;這可能會導致分子標記物研究的可變性和不一致性。另外,現階段分子技術的不成熟、成本高,制約著其在臨床的常規應用。因此,探索無侵入的可替代標記物是一個重要的研究目標。
影像學方法已用于臨床的常規診斷。其中,ct作為最常見的成像方式,可無侵入、重復地描述腫瘤的解剖學特征。在一些腫瘤影像學標記物提取方法中,基于ct的定量特征,如腫瘤大小、邊界等被證明與腫瘤分期,生存周期和療效相關。而新興領域——基因影像學,將影像特征和分子機制相關聯,嘗試用從基因層次去解釋宏觀的影像學特征。然而,基因影像學大部分研究集中在兩者的關聯,尚未發現其在影像標記物領域的應用。
技術實現要素:
基于分子技術的生物標記物提取方法,缺點是侵入性、局部描述、成本高。
導致原因:分子技術需侵入性地取腫瘤局部組織,因而只能分析腫瘤局部特征;整個過程需借助專門儀器和基因測序或蛋白質技術,尚未成熟,成本高。
基于影像學的生物標記物提取方法,缺點是不穩定、缺乏生物學解釋。
導致原因:提取的影像特征是定性或半定量,主觀性強,可重復性差,因而并不穩定。由于腫瘤ct的影像學特征是腫瘤宏觀上的信息,缺乏其背后的生物學解釋。
因此針對上述現有技術的缺點,本發明提出通過提取腫瘤ct的高維定量影像特征,與對應的腫瘤基因表達模式進行關聯的一種方法;并假設某些定量影像特征可以反映腫瘤的特定基因表達模式,作為腫瘤的預后標記物。解決的實際問題在于提出一種最終提取無侵入、生物學可解釋的影像學標記物的提取方法。
為了實現上述目的,本發明采用以下技術方案。
本發明提出了一種基于基因影像學的影像學標記物提取方法,包括以下步驟:
腫瘤ct影像分析、腫瘤基因表達數據分析、基因影像關聯分析、關聯影像特征的預后評估。具體過程如下:
1)腫瘤ct影像分析;根據腫瘤ct影像,放射科醫師手動或自動分割算法勾畫腫瘤區域,針對腫瘤區域,計算4組共639個特征,分別為一階統計特征,幾何形狀特征,紋理特征以及小波特征;
2)腫瘤基因表達數據分析;基因表達數據的處理分為三步,
第一步,預處理,若某個基因表達值為0的樣本個數超過第一閾值或所有樣本的平均表達值小于第二閾值,則該基因剔除,對篩選后的基因表達值進行對數和標準化處理;
第二步,基因模塊聚類,對基因表達值進行權重共表達網絡分析,將基因表達值自動聚類成若干個基因模塊,用每個基因模塊的主成分代表該基因模塊;
第三步,對基因模塊進行生存分析,按照p<0.05標準,篩選出具有顯著預后的基因模塊;
3)基因影像關聯分析;利用spearman相關法,將篩選后的影像特征和基因模塊做關聯熱圖,得到每個影像特征與基因模塊的相關系數和p值;
4)關聯影像特征的預后評估;在基因影像關聯熱圖中,按照p<0.05標準,篩選出顯著的基因-影像關聯對,對關聯對中出現的影像特征做生存分析評估,得到預后的影像特征,有潛力作為生物可解釋的影像學標記物。
進一步地,選取所述一階統計特征中的最大值,最小值,平均值,絕對誤差,中位數,區間差,均方誤差,標準差,方差,不均勻度,峰度,偏度,能量,熵特征。
進一步地,選取所述幾何形狀特征中的表面積,體積,最大直徑,壓縮比1,壓縮比2,橢球度,圓球度,表面積與體積比,渾圓度特征。
進一步地,選取所述紋理特征中的子類特征共生矩陣、灰度游程矩陣、灰度級區域矩陣和鄰域灰度差分矩陣特征。
進一步地,選取所述共生矩陣中的自相關,對比度,相關1,相關2,集群突,聚類萌,集群趨勢,不相似性,能量,熵,均勻性1,均勻性2,最大概率,平方和,平均數,和方差,和熵,差方差,方差,差熵,相關信息測度1,相關信息測度2,逆方差,逆差歸一化,逆差矩歸一化特征。
進一步地,選取所述灰度游程矩陣中的短游程增強,長游程增強,灰度級不均勻度,游程不均勻度,游程比例,低灰度級游程增強,高灰度級游程增強,短游程低灰度級增強,短游程高灰度級增強,長游程低灰度級增強,長游程高灰度級增強,灰度級方差,游程方差特征。
進一步地,選取所述灰度級區域矩陣中的小區域增強,大區域增強,灰度級不均勻度,區域大小不均勻度,區域比例,低灰度級區域增強,高灰度級區域增強,小區域低灰度級增強,小區域高灰度級增強,大區域低灰度級增強,大區域高灰度級增強,灰度級方差,區域大小方差特征。
進一步地,選取所述鄰域灰度差分矩陣中的粗糙度,對比度,繁忙度,復雜度,強度特征。
進一步地,選取所述小波特征中的一階統計特征和紋理特征;具體包括xlll*(70)、xllh*(70)、xlhl*(70)、xlhh*(70)、xhll*(70)、xhll*(70)、xhhl*(70)、xhhh*(70),其中,*號代表小波分解量在x,y,z上的高頻(h)或低頻分量(l)。
優選地,其中xhlh分量,為x,z方向上高頻,在y方向上低頻的分量,該分量小波分解公式為
附圖說明
圖1為基于基因影像學的腫瘤影像標記物提取方法的流程圖。
表1為影像特征的組合。
具體實施方式
結合說明書附圖說明本發明的具體實施方式。
如圖1所示的基于基因影像學的腫瘤影像標記物提取方法的流程圖,本發明的一種基于基因影像學的影像學標記物提取方法首先獲取腫瘤ct數據,然后進行腫瘤ct影像分析,獲取得到的影像特征與預后的基因模塊進行spearman關聯,得到基因影像關聯熱圖,根據上述過程所得關聯熱圖和選取的關聯影像特征,進行生存分析評估,得到一種生物學可解釋的影像學標記物。
上述預后的基因模塊通過以下步驟獲得,首先基因表達數據進行基因組分析和模塊聚類,進一步地,基因模塊通過生存分析得到預后的基因模塊。
如表1所示的影像特征的組合,結合圖1所示的基于基因影像學的腫瘤影像標記物提取方法,進而得到一種基于基因影像學的腫瘤影像標記物提取方法,具體實現過程如下:
1)根據腫瘤ct影像,放射科醫師手動或自動分割算法勾畫腫瘤區域。針對腫瘤區域,計算4組共639個特征,分別為一階統計特征,幾何形狀特征,紋理特征以及小波特征,如表1所示。為了去冗余,選取最有代表性的特征,根據一致性指數標準,選取每組中ci值最大的3個特征;
表1影像特征的組合
*代表小波分解量在x,y,z上的高頻(h)或低頻分量(l),例如xhlh分量,為x,z方向上高頻,在y方向上低頻的分量,該分量小波分解公式為
2)基因表達數據的處理分為三步。第一步,預處理,若某個基因表達值為0的樣本個數超過10或所有樣本的平均表達值小于8,則該基因剔除,對篩選后的基因表達值進行對數和標準化處理;第二步,基因模塊聚類,對基因表達值進行權重共表達網絡分析(weightedgeneco-expressionnetworkanalysis,wgcna),將基因表達值自動聚類成若干個基因模塊,用每個基因模塊的主成分代表該基因模塊;第三步,對基因模塊進行生存分析,按照p<0.05標準,篩選出具有顯著預后的基因模塊;
3)利用spearman相關法,將篩選后的影像特征和基因模塊做關聯熱圖,得到每個影像特征與基因模塊的相關系數和p值;
4)在基因影像關聯熱圖中,按照p<0.05標準,篩選出顯著的基因-影像關聯對,對關聯對中出現的影像特征做生存分析評估,得到預后的影像特征,有潛力作為生物可解釋的影像學標記物。