麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

基于區(qū)域尺寸和彎曲度的化學(xué)分子結(jié)構(gòu)圖分割方法

文檔序號(hào):6489328閱讀:386來源:國(guó)知局
基于區(qū)域尺寸和彎曲度的化學(xué)分子結(jié)構(gòu)圖分割方法
【專利摘要】本發(fā)明公開了一種基于區(qū)域尺寸和彎曲度的化學(xué)分子結(jié)構(gòu)圖分割方法,其步驟如下:選擇待處理的二維化學(xué)分子結(jié)構(gòu)的BMP圖;進(jìn)行圖像預(yù)處理,包括二值化、去噪等操作;采用8連通判別算法進(jìn)行邊界跟蹤,給每個(gè)連通區(qū)域進(jìn)行標(biāo)記;根據(jù)連通區(qū)域尺寸大小,將化學(xué)分子結(jié)構(gòu)圖分割成兩部分:一部分是由化學(xué)鍵組成的所有大尺寸連通區(qū)域的組合,另一部分是雜原子、基團(tuán)和單化學(xué)鍵等小尺寸區(qū)域的組合;根據(jù)彎曲度將小尺寸組合圖中的表示化學(xué)鍵的單線段和類線段提取出;最后根據(jù)位置等信息將類線段和單線段進(jìn)行區(qū)分,將單線段的化學(xué)鍵和大尺寸連通區(qū)組合,完成了化學(xué)鍵與雜原子、基團(tuán)的分離。該方法在進(jìn)行圖像分割時(shí)具有很好的分割效果。
【專利說明】基于區(qū)域尺寸和彎曲度的化學(xué)分子結(jié)構(gòu)圖分割方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于數(shù)字圖像處理領(lǐng)域,具體地說是涉及一種基于區(qū)域尺寸和彎曲度的化學(xué)分子結(jié)構(gòu)圖分割方法。
【背景技術(shù)】
[0002]化學(xué)分子結(jié)構(gòu)圖一般使用ChemDraw、ISIS/Draw、DrawIt 和 ACD/ChemSketch 軟件繪制。繪制不僅生成靜態(tài)的化學(xué)分子結(jié)構(gòu)圖片,同時(shí)繪制軟件將圖的結(jié)構(gòu)描述信息翻譯成計(jì)算機(jī)可讀的文件格式,如ISIS,MOLfile, SMILES,稱為動(dòng)態(tài)結(jié)構(gòu)式格式,以文本的形式描述原子、化學(xué)鍵以及原子之間的連接關(guān)系。目前,分子結(jié)構(gòu)檢索操作一般都是基于動(dòng)態(tài)結(jié)構(gòu)式格式,例如,《化合物結(jié)構(gòu)檢索系統(tǒng)的設(shè)計(jì)及在維吾爾藥資源庫上的實(shí)現(xiàn)》,馮紅君,新疆大學(xué),2008年碩士畢業(yè)論文;《CIS0C-ChMS:藥物化學(xué)信息管理系統(tǒng)》,沈天翔,李豐,姚建華,2007年出版的期刊《計(jì)算機(jī)與應(yīng)用化學(xué)》;《計(jì)算機(jī)存儲(chǔ)藥物化學(xué)結(jié)構(gòu)的格式及其相互轉(zhuǎn)化》,孔德信,2007年出版,期刊《計(jì)算機(jī)與應(yīng)用化學(xué)》;《化合物結(jié)構(gòu)的網(wǎng)絡(luò)檢索》,李創(chuàng)業(yè),河北工業(yè)大學(xué),2007年碩士畢業(yè)論文;《藥物化學(xué)結(jié)構(gòu)二維子結(jié)構(gòu)檢索的開發(fā)》劉冰,周家駒,2003年出版的期刊《過程工程學(xué)報(bào)》。這些方法一般通過提取生成文件的信息,獲得該化合物的結(jié)構(gòu)信息,用系統(tǒng)命名法、碎片碼、線性碼、拓?fù)渲笖?shù)碼、連接表描述。由于動(dòng)態(tài)結(jié)構(gòu)式格式?jīng)]有形成統(tǒng)一的標(biāo)準(zhǔn),不同的化學(xué)結(jié)構(gòu)文件所包含的信息項(xiàng)不同,在任兩個(gè)化學(xué)軟件之間毫無損失地傳遞化學(xué)結(jié)構(gòu)信息仍比較困難,可能會(huì)造成信息的丟失。
[0003]在化學(xué)學(xué)科、專利說明、科學(xué)雜志以及互聯(lián)網(wǎng)領(lǐng)域中分子間的交流大多數(shù)是基于化學(xué)分子結(jié)構(gòu)靜態(tài)圖像的,主要有BMP、TIFF、PNG、GIF數(shù)字圖像格式。靜態(tài)圖片表示的化學(xué)分子結(jié)構(gòu)式具有直觀、可視,不受系統(tǒng)的限制優(yōu)勢(shì)。目前,化學(xué)結(jié)構(gòu)圖形檢索技術(shù)已經(jīng)在ISI公司的Chemistry Server (該檢索的網(wǎng)站的網(wǎng)址是:http://www.1sinet.com/)、英國(guó)劍橋的 ChemFinder (該檢索的網(wǎng)站的網(wǎng)址是:http://chemfinder.cambrigesoft.com/)一些著名的化學(xué)文獻(xiàn)和結(jié)構(gòu)數(shù)據(jù)庫中得到應(yīng)用。但是這些檢索系統(tǒng)在進(jìn)行圖形檢索操作前,都需要用專業(yè)的繪圖軟件將被檢索的拓?fù)浣Y(jié)構(gòu)重新繪制,生成SDF格式的動(dòng)態(tài)結(jié)構(gòu)式文件,其檢索實(shí)質(zhì)上還是基于動(dòng)態(tài)結(jié)構(gòu)式文件。
[0004]另外,國(guó)內(nèi)外還有很多基于圖論的化學(xué)分子子結(jié)構(gòu)匹配算法和實(shí)際應(yīng)用,這種方法的理論基礎(chǔ)是將化學(xué)結(jié)構(gòu)看作一種帶有屬性(權(quán)值)的無向圖,其中結(jié)點(diǎn)代表原子,結(jié)點(diǎn)的屬性代表原子類型以及其他相關(guān)信息如原子量,邊代表化學(xué)鍵,而邊的屬性則代表鍵的類型以及其他相關(guān)信息如鍵長(zhǎng)、鍵角,其他權(quán)值可以存儲(chǔ)一些其他的結(jié)構(gòu)信息如分子量、原子總數(shù)。由此將化學(xué)結(jié)構(gòu)表示成為一個(gè)無向連通圖,利用圖論的知識(shí)來解決結(jié)構(gòu)檢索問題。主要是基于Ullmann算法,參考文獻(xiàn)的題目為:An Algorithm for Subgraph Isomorphism(該文作者是:U1 lmann J R,1976 年出版的期刊:Journal of the ACM (JACM) ), Ullmann算法的中心思想就是將分子結(jié)構(gòu)表示成無向圖,然后對(duì)此無向圖進(jìn)行遍歷。在1995年之前Ullmann算法是公認(rèn)的效率執(zhí)行最高的子結(jié)構(gòu)查詢算法,而1995年后由Cordelia L P提出的VF通用算法,參考文獻(xiàn)的題目為:An EffiTransfonnational Model (該文作者是:Cordelia L P, Foggia P, Sansone C, 1996年出版在Proc.0f the 13th InternationalConference on Pattern Recognition),參考文獻(xiàn)的題目為:Subgraph Transformationsfor the Inexact Matching of Attributed Relational Graphs (該文作者是:CordeliaL P, Foggia P, Sansone C, 1998年出版的期刊:Computing),參考文獻(xiàn)的題目為:AnImproved Algorithm for Matching Large Graphs (該文作者是:Foggia P, Sansone C,Vento M , 2001 出版在 The 3rd IAPR-TC15 Workshop on Graph based Representations),實(shí)現(xiàn)了比Ullmann算法更高的執(zhí)行效率和較低的復(fù)雜度。基于這些算法,研究人員研究了許多種實(shí)現(xiàn)方法,例如由Ewgenij Proschak提出的MQL( molecular querylanguage分子查詢語言)就是一種基于Ullmann算法的上下文無關(guān)文法,參考文獻(xiàn)的題目為:Molecularquery language (MQL)—a context-free grammar for substructure matching (該文作者是:Proschak E, Wegner JK, Schiiller A, Schneider G, Fechner U, 2007年出版在期刊J Chem Inf Model),該方法將化學(xué)分子結(jié)構(gòu)描述成圖的形式,從而運(yùn)用子圖匹配的方法進(jìn)行化學(xué)分子結(jié)構(gòu)的匹配操作。上述基于化學(xué)分子結(jié)構(gòu)無向圖的檢索方法,都涉及到如何將化學(xué)分子結(jié)構(gòu)圖像轉(zhuǎn)化成計(jì)算機(jī)可讀一個(gè)無向連通圖。一般采用的方法還是從化學(xué)分子動(dòng)態(tài)格式的文件中提取原子表示結(jié)點(diǎn),原子類型以及其它相關(guān)信息表示結(jié)點(diǎn)的屬性,原子之間的化學(xué)鍵表示邊,鍵的類型以及其它相關(guān)信息如鍵長(zhǎng)、鍵角表示邊的屬性。
[0005]通過以上闡述,可知目前國(guó)內(nèi)外的化學(xué)分子結(jié)構(gòu)圖檢索不管是基于拓?fù)渲笖?shù)碼、連接表,還是基于圖形的,在檢索前,都需專業(yè)繪制軟件進(jìn)行重繪,從繪制生成的動(dòng)態(tài)結(jié)構(gòu)式文件中提取化學(xué)分子結(jié)構(gòu)的相關(guān)信息。而從純圖像角度,研究化學(xué)分子結(jié)構(gòu)信息的提取,以及檢索很少。

【發(fā)明內(nèi)容】

[0006]本發(fā)明所要解決的技術(shù)問題是針對(duì)現(xiàn)有技術(shù)的不足,提供一種方法更為合理、可實(shí)現(xiàn)有效的的分割的基于區(qū) 域尺寸和彎曲度的化學(xué)分子結(jié)構(gòu)圖分割方法。
[0007]本發(fā)明所要解決的技術(shù)問題是通過以下的技術(shù)方案來實(shí)現(xiàn)的。本發(fā)明是一種基于區(qū)域尺寸和彎曲度的化學(xué)分子結(jié)構(gòu)圖分割方法,其特點(diǎn)是,其具體步驟如下:
(1)選擇待處理的二維化學(xué)分子結(jié)構(gòu)的圖像,化學(xué)分子結(jié)構(gòu)的圖像的格式有BMP、TIFF、PNG、GIF ;處理前將所有的非BMP格式的圖像都轉(zhuǎn)化成BMP格式;
(2)進(jìn)行化學(xué)分子結(jié)構(gòu)圖像預(yù)處理操作,所述的預(yù)處理操作為縫合、去噪、二值化、傾斜校正操作;
(3)采用8連通判別算法,進(jìn)行邊界跟蹤,給每個(gè)連通區(qū)域進(jìn)行標(biāo)記,每個(gè)連通區(qū)域被表述為平面上一列坐標(biāo)為整數(shù)的有序點(diǎn)的集合:S = Wi O(XiJi)J= 1,2,…,η};
(4)基于區(qū)域尺寸對(duì)化學(xué)分子結(jié)構(gòu)圖像進(jìn)行分割:首先設(shè)定尺寸閾值^該值是一個(gè)隨著圖的變化而變化的動(dòng)態(tài)值,接著基于該尺寸閾值,完成將化學(xué)分子結(jié)構(gòu)圖中的所有的連通區(qū)域分割成兩部分操作,一部分是由有長(zhǎng)鏈、環(huán)鏈或兩者組合的區(qū)域組成,另一部分是由表示雜原子或基團(tuán)的字母、數(shù)字,以及一些表示化學(xué)鍵的單直線段的連通區(qū)域組成;
(5)基于彎曲度對(duì)化學(xué)分子結(jié)構(gòu)圖像進(jìn)行進(jìn)一步分割:直線段和一般字母、數(shù)字的最大區(qū)別就是,直線段是直的,而一般的字母、數(shù)字具有一定的彎曲度,基于彎曲度將單線段和字母、數(shù)字分離,將分離出單線段和基于區(qū)域尺寸圖像分割中化學(xué)鍵組合,完成了化學(xué)鍵和雜原子、基團(tuán)的分離;
(6)區(qū)分與直線段:在化學(xué)分子結(jié)構(gòu)圖中化學(xué)元素碘的“I”字母、表示氯元素的“Cl”中的“1”,以及表示負(fù)電荷的顯示式樣與直線段類似;基于彎曲度的對(duì)圖像分割,“I""1"會(huì)被當(dāng)作單線段的化學(xué)鍵分割出“I""1"出現(xiàn)于雜原子或基
團(tuán)中,位于化學(xué)鍵,也就是直線段的端點(diǎn)處;表示化學(xué)鍵的單線段主要以兩種方式出現(xiàn):一種在碳鏈中充當(dāng)雙鍵或叁鍵的角色;另一種位于雜原子或雜原子與基團(tuán)之間;本發(fā)明基于傾斜角度、位置信息將“I""1"與直線段區(qū)分出,在判斷前,暫稱“I""1"、“-”和單直線段為待測(cè)直線段。
[0008]本發(fā)明所述的基于區(qū)域尺寸和彎曲度的化學(xué)分子結(jié)構(gòu)圖分割方法中,步驟⑷中所述基于區(qū)域尺寸對(duì)化學(xué)分子結(jié)構(gòu)圖像進(jìn)行分割,其具體步驟如下:
(4-1)獲得尺寸閾值K:由人工選定圖中一個(gè)大寫字母,計(jì)算該字母的寬度i和高度
【權(quán)利要求】
1.一種基于區(qū)域尺寸和彎曲度的化學(xué)分子結(jié)構(gòu)圖分割方法,其特征在于,其具體步驟如下: (1)選擇待處理的二維化學(xué)分子結(jié)構(gòu)的圖像,化學(xué)分子結(jié)構(gòu)的圖像的格式有BMP、TIFF、PNG、GIF ;處理前將所有的非BMP格式的圖像都轉(zhuǎn)化成BMP格式; (2)進(jìn)行化學(xué)分子結(jié)構(gòu)圖像預(yù)處理操作,所述的預(yù)處理操作為縫合、去噪、二值化、傾斜校正操作; (3)采用8連通判別算法,進(jìn)行邊界跟蹤,給每個(gè)連通區(qū)域進(jìn)行標(biāo)記,每個(gè)連通區(qū)域被表述為平面上一列坐標(biāo)為整數(shù)的有序點(diǎn)的集合:這={PiM ; (4)基于區(qū)域尺寸對(duì)化學(xué)分子結(jié)構(gòu)圖像進(jìn)行分割:首先設(shè)定尺寸閾值^該值是一個(gè)隨著圖的變化而變化的動(dòng)態(tài)值,接著基于該尺寸閾值,完成將化學(xué)分子結(jié)構(gòu)圖中的所有的連通區(qū)域分割成兩部分操作,一部分是由有長(zhǎng)鏈、環(huán)鏈或兩者組合的區(qū)域組成,另一部分是由表示雜原子或基團(tuán)的字母、數(shù)字,以及一些表示化學(xué)鍵的單直線段的連通區(qū)域組成; 步驟(4)中所述基于區(qū)域尺寸對(duì)化學(xué)分子結(jié)構(gòu)圖像進(jìn)行分割,其具體步驟如下: (4-1)獲得尺寸閾值^:由人工選定圖中一個(gè)大寫字母,計(jì)算該字母的寬度I和高度h -J = masCxj, x2,--%?)-1r皿(xh x2, ---,Xx),高度 A = HiaxO1,—麵(7ι) , k、I中較大的1.1倍作為y的值,即y=max(A,i)xl.l ; (4-2)計(jì)算所有連通區(qū)域的寬度^和高度I ,)= 1,2…’ m為連通區(qū)域的個(gè)數(shù);將每個(gè)連通區(qū)寬度和高度中較大的值記下,用巧表示,即Li == 1,2--? ; (4-3)如& > V,則將所對(duì)應(yīng)的連通區(qū)域分割出,將& > 的所有連通區(qū)域組成一新圖;完成了將化學(xué)分子結(jié)構(gòu)圖中所有連通區(qū)域按尺寸大小可以分割成兩部分:一部分是由有長(zhǎng)鏈、環(huán)鏈或兩者組合的區(qū)域;另一部分是由表示雜原子或基團(tuán)的字母、數(shù)字,以及一些表示化學(xué)鍵的單直線段的連通區(qū)域; (5)基于彎曲度對(duì)化學(xué)分子結(jié)構(gòu)圖像進(jìn)行進(jìn)一步分割:直線段和一般字母、數(shù)字的最大區(qū)別就是,直線段是直的,而一般的字母、數(shù)字具有一定的彎曲度,基于彎曲度將單線段和字母、數(shù)字分離,將分離出單線段和基于區(qū)域尺寸圖像分割中化學(xué)鍵組合,完成了化學(xué)鍵和雜原子、基團(tuán)的分離; 步驟(5)中所述基于彎曲度對(duì)化學(xué)分子結(jié)構(gòu)圖像進(jìn)行進(jìn)一步分割,其具體步驟如下: (5-1)取像素點(diǎn)與的一個(gè)領(lǐng)域=(/^,.",υ4+1,.?),其中r為像素點(diǎn)與的領(lǐng)域半徑,是一個(gè)常數(shù),一般取0-15 ; (5-2)以領(lǐng)域Ωρ =1,2,…3 ,為子窗口在連通區(qū)域邊界曲線上滑動(dòng),H的直線方程為(J7WJiW)Z--乃-rA+r) = O,利用計(jì)算公式 = |(yiw -y\)h +(?^ -&)乃+Ow‘ - jw x^-.)| /ο,計(jì)算巧點(diǎn)到直線 H 的距離; (5-3)如果忒=則該連通區(qū)是一條直線段,如果在計(jì)算中發(fā)現(xiàn)有兩個(gè)以上點(diǎn)到H距離大于β,就可以判定該連通區(qū)域是非直線,也就是字母或數(shù)字,不需要再計(jì)算其它點(diǎn); 通過該方法,實(shí)現(xiàn)將單線段和字母、數(shù)字分離; (6)區(qū)分與直線段:在化學(xué)分子結(jié)構(gòu)圖中化學(xué)元素碘的“I”字母、表示氯元素的“Cl”中的“1”,以及表示負(fù)電荷的顯示式樣與直線段類似;基于彎曲度的對(duì)圖像分割,“會(huì)被當(dāng)作單線段的化學(xué)鍵分割出出現(xiàn)于雜原子或基團(tuán)中,位于化學(xué)鍵,也就是直線段的端點(diǎn)處;表示化學(xué)鍵的單線段主要以兩種方式出現(xiàn):一種在碳鏈中充當(dāng)雙鍵或叁鍵的角色;另一種位于雜原子或雜原子與基團(tuán)之間;本發(fā)明基于傾斜角度、位置信息將與直線段區(qū)分出,在判斷前,暫稱和單直線段為待測(cè)直線段; 步驟(6)中所述完成與直線段的區(qū)分,具體步驟如下: (6-1)提取基于區(qū)域尺寸圖像分割獲得的大連通區(qū)域圖中的交點(diǎn)以及端點(diǎn),將其與基于彎曲度圖像分割中獲得的字母、數(shù)字圖中的每個(gè)連通區(qū)域的矩形區(qū)域組合,用★標(biāo)識(shí)交點(diǎn),▲標(biāo)識(shí)端點(diǎn), 標(biāo)識(shí)字母、數(shù)字; (6-2)首先從待測(cè)直線段的傾斜角度來進(jìn)行區(qū)分,如待測(cè)直線段和水平正方向的夾角非0°或90°,斷定其是直線段;因在預(yù)處理時(shí),對(duì)圖像進(jìn)行了傾斜校正,所有的字母、數(shù)字均端正顯示,也就是類直線的字母與水平正方向的夾角約90°,負(fù)電荷與水平正方向的夾角約0° ;而圖中的表示化學(xué)鍵的直線段與水平正方向的夾角主要有0°、30°、90° ,120° 幾種; (6-2)對(duì)于剩下的與水平正方向夾角為0°或90°左右待測(cè)線段,從其所處的位置進(jìn)行判斷;類直線的位于端點(diǎn) 處,而表示化學(xué)鍵的單線段位于兩原子字母之間,或位于碳鏈中;取待測(cè)線段的兩端點(diǎn)坐標(biāo),分別求與兩端點(diǎn)一定距離范圍內(nèi)點(diǎn)的類型,如果只有端點(diǎn),則其為非線段;如待測(cè)線段與水平正方向夾角為0°,且離其左側(cè)端點(diǎn)較近的是一矩形區(qū)域,同時(shí)該線段位于該矩形區(qū)域的1/2高度以上,則該待測(cè)線段是偽線段,應(yīng)該是負(fù)電荷如該線段與水平正方向的夾角是90°左右,同時(shí),該待測(cè)線段的左側(cè)是一矩形區(qū)域,那么它就是字母;非以上情況的,可判定為直線段。
【文檔編號(hào)】G06T7/00GK103700084SQ201210366626
【公開日】2014年4月2日 申請(qǐng)日期:2012年9月28日 優(yōu)先權(quán)日:2012年9月28日
【發(fā)明者】李存華, 管燕, 仲兆滿 申請(qǐng)人:淮海工學(xué)院
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
主站蜘蛛池模板: 桃园市| 车险| 东方市| 河源市| 桂平市| 滨海县| 藁城市| 乳山市| 长宁区| 文水县| 三门峡市| 福海县| 吴桥县| 樟树市| 汉阴县| 嘉善县| 剑河县| 河曲县| 横峰县| 开平市| 同心县| 应城市| 涞源县| 长丰县| 古丈县| 余干县| 石狮市| 北碚区| 望谟县| 久治县| 蚌埠市| 阿拉善盟| 扎兰屯市| 中超| 汉寿县| 阆中市| 保山市| 大兴区| 黔东| 额敏县| 乐陵市|