麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

天然氣與管道技術標準內容提取與展示系統的建立方法

文檔序號:6489327閱讀:221來源:國知局
天然氣與管道技術標準內容提取與展示系統的建立方法
【專利摘要】本發明是一種天然氣與管道技術標準內容提取與展示系統的建立方法,涉及數字數據處理裝置和管道系統【技術領域】。它主要包括以下步驟:(1)使用光學字符識別(OCR)工具對天然氣與管道標準文獻全文進行數字化加工,使標準文獻數字化;(2)建立天然氣與管道標準本體庫、體例庫、題錄數據庫;(3)建立天然氣與管道標準內容數據庫;(4)開發天然氣與管道標準內容提取與展示系統平臺,用于標準內容提取、展示與對比。本發明所建立的系統能夠實現從“基本字段信息”到“重要技術指標”的高效的標準信息檢索。
【專利說明】天然氣與管道技術標準內容提取與展示系統的建立方法
【技術領域】
[0001]本發明是一種天然氣與管道技術標準內容提取與展示系統的建立方法,涉及數字數據處理裝置和管道系統【技術領域】。
【背景技術】
[0002]隨著信息技術與網絡技術的發展,信息共享系統已經在各個行業廣泛應用,大大提高了各行業工作勞動效率與便捷性,天然氣與管道行業在信息化技術應用方面一直走在行業前列,隨著業務、技術的進一步發展,僅僅提供文獻級別的檢索、瀏覽等功能已經不能滿足用戶的需求,必須進行更深一步的挖掘與服務,以滿足用戶需求。目前常用的標準檢索方式為“基本字段信息”檢索,一般僅能提供對標準名稱、主題詞進行檢索,不能實現對技術指標的精確定位與檢索、不同標準中同一技術指標的對比。概括起來,傳統檢索方式對技術標準的使用效果有以下幾方面的局限性。
[0003](I)不能對技術標準內容進行精確檢索
[0004]傳統數據庫檢索方式是通過分類、標題、摘要及敘詞等手段對標準文獻進行題錄數據加工,來實現對技術標準與技術法規的檢索。但是技術指標一般會分散在不同技術標準與技術法規中,傳統的檢索方式只能通過題錄數據庫檢索到相關標準,逐一閱讀原文技術指標的內容。但是這樣的方法很浪費時間,并且難以保障查全率。
[0005](2)不能同時檢索到不同標準的技術指標,并實現不同標準的同一技術指標的對比。
[0006]在檢索過程中,經常會出現同一產品的技術指標同時存在國際標準、國家標準、行業標準、地方標準和企業標準等不同的標準中,用戶經常需要對不同標準中的相同產品的技術指標進行對比研究,這是傳統檢索方式所不能滿足的。
[0007]標準內容提取與展示系統是標準信息檢索的最新發展方向。這種新型的檢索方式通過對標準技術指標的系統提取和有效組織,能夠實現從“基本字段信息”到“重要技術指標”的高效的標準信息檢索。對于負責油氣管道工程建設的工程項目管理人員、實施人員,可以實現利用關鍵指標控制管道設計和施工建設;對于油氣管道運行操作人員、管理人員,可以實現查詢、對比操作參數、方法;對于科研人員,可以實現國內外標準關鍵指標差異分析、判斷技術差異,分析體系內各標準間的協調性。
[0008]CN102591878A公開了一種技術標準內容提取與展示系統的建立方法,《石油規劃設計》2011年第22卷第6期“天然氣與管道標準信息管理系統開發方案研究”公開了一種天然氣與管道標準信息管理系統的開發方案,但該系統僅能進行標準全文檢索,無法實現標準內容的提取與展示,也并未公開建立天然氣與管道標準本體庫、體例庫、題錄數據庫的方法,其技術并不完善。
[0009]標準內容提取與展示技術是一種新的標準檢索技術,目前國外未見以此技術開發的商業數據庫。在國內,只有中國標準化研究院將標準內容提取與展示技術初步應用在食品、農產品的國家標準、行業標準中,并建設了相應的提取與展示系統平臺,實現對標準內容指標的提取與展示。而天然氣與管道技術標準內容提取與展示系統的建立方法也不完
口 O

【發明內容】

[0010]本發明的目的是發明一種建立的系統能夠實現從“基本字段信息”到“重要技術指標”的高效的標準信息檢索的天然氣與管道技術標準內容提取與展示系統的建立方法。
[0011]本發明如圖1的技術路線所示,主要包括以下步驟:
[0012](I)使用光學字符識別(OCR)工具對天然氣與管道標準文獻全文進行數字化加工,使標準文獻數字化;
[0013](2)建立天然氣與管道標準本體庫、體例庫、題錄數據庫;
[0014](3)建立天然氣與管道標準內容數據庫;
[0015](4)開發天然氣與管道標準內容提取與展示系統平臺,用于標準內容提取、展示與對比。
[0016]具體建立步驟為:
[0017](I)按照標準文獻數字化規范,對確定的天然氣與管道標準進行全文數字化后,同時包括對文獻內容識別與質量審校,使標準可編輯,滿足提取與展示需求;
[0018](2)建立天然氣與管道標準本體庫、天然氣與管道標準題錄數據庫、天然氣與管道標準體例庫,這三個數據庫的建立為并列過程,互不干擾;
[0019]①建立天然氣與管道標準本體庫:對天然氣與管道標準主題概念進行分析歸納,針對主體類別的概念內涵,根據對專業知識的查詢結果和標準文獻中枚舉的標準化對象之間的從屬關系進行本體概念分析,明確標準中發生的概念體系及其層次關系,建立天然氣與管道標準本體庫;
[0020]②建立天然氣與管道體例庫:對天然氣與管道標準文獻進行分類,歸納標準的結構化信息;按照相同結構的標準文獻開展標準文獻體例分析,抽象出其中的核心概念及其特征描述術語,建立體例庫;
[0021]③天然氣與管道標準題錄數據庫:針對天然氣與管道技術標準進行標準技術指標分析歸納、對技術指標體系進行術語學與概念關系研究,進行技術指標概念的規范化及體系構建與標引,進行標準文獻技術指標標引,進行體例元素的分類與標示,建立標準技術指標數據庫,建立量與單位等輔助數據庫;以標準文本中的中文標準名稱、英文標準名稱、標準號、標準類型、【技術領域】技術方向、采用關系、代替關系、被代替關系、引用文獻、標準狀態、立項日期、發布日期、實施日期、確認日期、重要程度分級、歸口單位、起草單位、摘要、中文主題詞、英文主題詞、譯文、備注、正文等信息為基礎,建立標準題錄數據庫;
[0022](3)建立天然氣與管道標準內容數據庫
[0023]原有的標準體系表同步驟(2 )所建立本體庫、題錄數據庫、體例庫三個數據庫,形成天然氣與管道標準內容數據庫;
[0024](4)開發天然氣與管道標準內容提取與展示系統平臺,該系統除一般檢索系統功能外,如基本檢索功能、管理功能、在線反饋功能、幫助功能等功能,而且還應具有標準內容指標檢索功能、標準指標加工功能。
[0025]所述天然氣與管道標準本體庫構建流程如圖2所示,為:[0026](I)確定本體的領域與范圍;
[0027](2)領域信息的收集和分析;
[0028](3)概念的確定;概念的確定中,要補充同義詞;
[0029](4)建立本體框架;
[0030](5)本體自定義集成,包括現有本體的引用,以及新本體的集成;
[0031](6)確定概念邏輯關系;確定概念邏輯關系時,要結合現有本體;
[0032]( 7 )建立完整的本體表;
[0033](8)確認與評價;
[0034](9)進化;進化后參與(3)概念的確定和(6)確定概念邏輯關系;
[0035]( 10)完成本體建立。
[0036]所述天然氣與管道標準本體庫構建流程具體為:
[0037](I)確定本體庫的領域與范圍:要明確構建的本體庫將覆蓋的專業領域、本體的目的、作用以及應用對象;
[0038](2)領域信息的收集和分析:通過收集石油天然氣管道領域信息充分了解該領域知識;信息來源包括專家、書籍、標準、網絡以及其它的本體;
[0039](3)概念的確定:在充分了解天然氣與管道領域知識之后,確定該領域中概念和概念之間的關系,用精確的術語表達出來,經領域專家的確認,作為領域本體的核心概念集。基本應該滿足的要求有:
[0040]①確定的概念及關系一定是領域相關的;領域的邊界往往是模糊的,需根據實際需求確定邊界包含的概念;
[0041]②采用的術語要精確,含義應具有唯一性;
[0042]③對每個術語有相應的自然語言描述和同義詞補充;
[0043](4)建立本體庫框架;對于步驟(3)中整理的領域中大量的概念,要按照一定的邏輯規則把它們進行分組,形成不同的小專業領域,在同一小工作領域的概念,其相關性應該比較強;另外,對其中的每一個概念的重要性要進行評估,選出關鍵性術語,摒棄那些不必要或者超出領域范圍的概念,盡可能準確而精簡的表達出領域的知識;
[0044](5)本體庫自定義集成;在創建本體庫可以自定義,也可以是領域中現存的本體庫的重用;重用本體庫時,需要注意查看元本體庫,選擇和自己概念模型中的語義和實現一致的術語定義;其中涉及的關鍵技術是本體的映射;針對每個集成的本體庫,應確定其元本體庫、術語集、形式化的本體庫描述、以及集成在自己本體庫中的位置等屬性;
[0045](6)確定概念邏輯關系;主要以專業知識的與科學分類為基礎,根據分類學中的主題法和分類法,確定概念的邏輯關系;
[0046](7)建立完整的本體庫;將天然氣與管道標準本體庫與標準文獻有效檢索點結合,從而形成一個領域知識的框架體系,得到領域本體庫的框架結構;
[0047]建立天然氣與管道本體庫時,本體劃分應遵循以下基本規則:a)各子項的外延之和應等于母項的外延;b)劃分的各子項,其外延宜相互排斥;c)每次劃分應按同一原則進行;d)劃分應按層次逐級、由高到低、由簡到繁進行,宜結合天然氣與管道主營業務粗細結合;e)應持續更新補充;
[0048]類目的劃分與設置應突出主營業務,將內容相關性較大的類目,應盡量臨近設置;對于一些無專屬的類,且具有普遍指導意義的綜合性基礎標準可根據內容分別單獨設置類;上一層次類目的技術要求下層類目都要滿足;
[0049](8)確認與評價:本體庫應具有正確性、一致性、可擴展性和有效性;
[0050](9)進化:在使用過程中需要對本體庫不斷更新,本體庫進化的方式可以是集成新的本體庫或定義新的概念和關系;
[0051](10)完成本體庫建立。
[0052]所述天然氣與管道標準體例庫建立步驟如圖3所示,為:
[0053]( I)標準專業分類;
[0054](2)分析每類標準體例特征,并參與進化;
[0055](3)提煉體例元素;提煉體例元素時,補充同義詞;
[0056](4)建立體例結構表;同時補充同義詞;
[0057](5)進化,進化后重新參與分析每類標準體例特征分析;
[0058]( 6 )體例庫建立完成。
[0059]所述天然氣與管道標準體例庫建立具體方法為:
[0060]( I)對現有天然氣與管道標準按照專業主題范疇分布進行標準專業分類;
[0061](2)分析每類標準體例特征:分析同一主題范疇標準的體例特征,根據專業特點以及體例的結構相似度大小判斷是否需要將同一主題范疇的標準繼續細分為不同類;
[0062](3)提煉體例元素:分析同一類中所有標準的體例特征,提煉出每項標準的體例元素,歸并此類中不同標準的相似體例元素,每個體例元素的名稱要具有概括性和通用性;
[0063](4)建立體例結構表:對于有同義詞的體例元素,應補充每一項體例元素據的同義詞,增加用戶的檢索入口 ;對于沒有同義詞的,可直接建立體例結構表;
[0064]體例建立的原則為:每一類標準的一級體例元素要涵蓋此類標準的所有內容,要保證標準知識的完整性;二級、三級以及其他級體例元素要具有共同性,即對于含有相同一級體例元素的標準,應該均能提煉出此一級體例元素下的二級、三級以及其他級體例元素;
[0065](6)進化:對不嫩滿足要求的體力元素重新進行體例特征分析、提煉體例元素、補充同義詞、建立體例結構表;
[0066](7)完成體例庫的建立。
[0067]所述天然氣與管道內容題錄數據庫建立包含以下步驟:
[0068]( I)確定標準文獻主題;
[0069]( 2 )判別標準文獻歸屬的體例;
[0070]( 3)標準體例結構分析;
[0071](4)劃分標準內容為獨立條目;
[0072](5)條目數據的分析和加工;
[0073]( 6 )初步完成數據庫建立;
[0074](7)條目格式與內容校對修改;
[0075]( 8 )完成題錄數據庫建立。
[0076]所述天然氣與管道內容題錄數據庫建立具體過程如圖4所示,為:
[0077](I)確定標準文獻主題:有單主體和多主題之分;若是多主題標準,可以拆分成多個單主題處理;
[0078](2)判別標準文獻歸屬體例;
[0079](3)標準體例結構分析,使該體例下的所有標準均可以和該體例完全匹配;
[0080](4)劃分標準條目:將標準內容劃分成多個獨立條目,使得每一個條目成為一個檢孛占.[0081](5)條目數據的加工:對于標準中的每一個條目均要進行主體對象、技術指標、提取與展示類、計量單位、內容注釋與引用的細致分析;
[0082]主題對象:提煉條目的主題對象為一級指標;當條目無主題對象時,則以整個標準的主題對象作為一級指標;并對主題對象的同義詞以及注釋進行補充;
[0083]技術指標:將條目中所描述的主題對象屬性,作為二級指標;并對技術指標的同義詞以及注釋進行補充;
[0084]提取與展示類:當條目中技術指標是按照特定類別進行細分而形成的細化類別,將細化的類別填入提取與展示指標類項目中;
[0085]計量單位:對于數據庫不能識別的單位,用語言進行描述;
[0086]內容注釋:
[0087]引用條目:
[0088](6)條目格式的校準:完成條目加工的標準,進行格式、內容的校對;
[0089](7)完成題錄數據庫的建立。
[0090]通過以上步驟,即可完成天然氣管道標準提取與展示數據加工錄入。
[0091]本發明的有益效果:
[0092]標準內容提取與展示技術主要克服了傳統檢索方式的缺點,實現了以下三種功倉泛:
[0093](I)能夠實現對標準內容中技術指標的精確定位與檢索;
[0094]在檢索結果中直接顯示所要的標準檢索內容,而不需要用戶對文獻通篇閱讀,查找需要信息,從而提高了檢索效率;
[0095](2)技術指標相關的標準體檢索;
[0096]在檢索標準時,可以通過上位登錄,在檢索到特定標準技術指標時,也可以檢索到其他相關標準;
[0097](3)不同標準中同一技術指標的對比。
[0098]在檢索中,通過對“范疇”等的選擇,可以實現同一技術指標在不同標準的差異對比,從而了解不同標準對同一技術指標的規定。
[0099]本發明建立的系統能夠實現從“基本字段信息”到“重要技術指標”的高效的標準
信息檢索。
【專利附圖】

【附圖說明】
[0100]圖1天然氣與管道標準內容提取與展示系統建立流程圖
[0101]圖2本體庫構建流程圖
[0102]圖3體例庫構建流程圖
[0103]圖4天然氣與管道標準題錄數據庫構建流程圖【具體實施方式】
[0104]實施例.以本例來說明本發明的【具體實施方式】并對本發明作進一步的說明。本例是一實驗樣機,其構成如圖所示。
[0105]本例主要包括以下步驟:
[0106]使用OCR工具對天然氣與管道標準文獻全文進行數字化加工,使標準文獻可編輯,滿足提取與展示需求;
[0107]建立油氣管道標準本體庫;
[0108]進行標準結構分析,建立油氣管道數據體例庫;
[0109]建立天然氣與管道標準題錄數據庫;
[0110]開發天然氣與管道標準提取與展示軟件系統平臺;
[0111]完成標準內容提取與展示系統開發。
[0112]本例的體系表如下表:
[0113]表1本體表 樣例
[0114]
[0115]
【權利要求】
1.一種天然氣與管道技術標準內容提取與展示系統的建立方法,其特征是它主要包括以下步驟: (1)使用光學字符識別(OCR)工具對天然氣與管道標準文獻全文進行數字化加工,使標準文獻數字化; (2)建立天然氣與管道標準本體庫、體例庫、題錄數據庫; (3)建立天然氣與管道標準內容數據庫; (4)開發天然氣與管道標準內容提取與展示系統平臺,用于標準內容提取、展示與對比。
2.根據權利要求1所述的天然氣與管道技術標準內容提取與展示系統的建立方法,其特征是具體建立步驟為: (1)按照標準文獻數字化規范,對確定的天然氣與管道標準進行全文數字化后,同時包括對文獻內容識別與質量審校,使標準可編輯,滿足提取與展示需求; (2)建立天然氣與管道標準本體庫、天然氣與管道標準題錄數據庫、天然氣與管道標準體例庫,這三個數據庫的建立為并列過程,互不干擾; ①建立天然氣與管道標準本體庫:對天然氣與管道標準主題概念進行分析歸納,針對主體類別的概念內涵,根據對專業知識的查詢結果和標準文獻中枚舉的標準化對象之間的從屬關系進行本體概念分析,明確標準中發生的概念體系及其層次關系,建立天然氣與管道標準本體庫; ②建立天然氣與管道體例庫:對天然氣與管道標準文獻進行分類,歸納標準的結構化信息;按照相同結構的標準文獻開展標準文獻體例分析,抽象出其中的核心概念及其特征描述術語,建立體例庫; ③天然氣與管道標準題錄數據庫:針對天然氣與管道技術標準進行標準技術指標分析歸納、對技術指標體系進行術語學與概念關系研究,進行技術指標概念的規范化及體系構建與標引,進行標準文獻技術指標標弓I,進行體例元素的分類與標示,建立標準技術指標數據庫,建立量與單位等輔助數據庫;以標準文本中的中文標準名稱、英文標準名稱、標準號、標準類型、【技術領域】技術方向、采用關系、代替關系、被代替關系、引用文獻、標準狀態、立項日期、發布日期、實施日期、確認日期、重要程度分級、歸口單位、起草單位、摘要、中文主題詞、英文主題詞、譯文、備注、正文等信息為基礎,建立標準題錄數據庫; (3)建立天然氣與管道標準內容數據庫 原有的標準體系表同步驟(2)所建立本體庫、題錄數據庫、體例庫三個數據庫,形成天然氣與管道標準內容數據庫; (4)開發天然氣與管道標準內容提取與展示系統平臺,該系統除一般檢索系統功能外,如基本檢索功能、管理功能、在線反饋功能、幫助功能等功能,而且還應具有標準內容指標檢索功能、標準指標加工功能。
【文檔編號】G06F17/30GK103699540SQ201210366594
【公開日】2014年4月2日 申請日期:2012年9月28日 優先權日:2012年9月28日
【發明者】劉冰, 張欣, 姚學軍, 稅碧垣, 劉艷雙, 鄭娟, 李云杰 申請人:中國石油天然氣股份有限公司
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
主站蜘蛛池模板: 雅江县| 宁蒗| 朝阳区| 苗栗市| 镇巴县| 井陉县| 宝山区| 江油市| 孟村| 浮梁县| 文化| 昭平县| 威信县| 汝阳县| 吉林省| 台北县| 皮山县| 山阴县| 大关县| 康保县| 阳西县| 陕西省| 浦东新区| 丹江口市| 修武县| 太仆寺旗| 红桥区| 杭锦后旗| 呼玛县| 永新县| 泸溪县| 原平市| 新巴尔虎右旗| 伊川县| 灵山县| 札达县| 灵武市| 格尔木市| 安阳市| 奈曼旗| 昌都县|