天然氣與管道技術標準題錄數據庫的構建方法
【專利摘要】本發明是一種天然氣與管道技術標準題錄數據庫的建立方法,涉及數字數據處理裝置和管道系統【技術領域】。它包含以下步驟:(1)確定標準文獻主題;(2)判別標準文獻歸屬的體例;(3)標準體例結構分析;(4)劃分標準內容為獨立條目;(5)條目數據的分析和加工;(6)初步完成數據庫建立;(7)條目格式與內容校對修改;(8)完成題錄數據庫建立。本發明所建立的系統能夠實現從“基本字段信息”到“重要技術指標”的高效的標準信息檢索。
【專利說明】天然氣與管道技術標準題錄數據庫的構建方法
【技術領域】
[0001]本發明是一種天然氣與管道技術標準題錄數據庫的構建方法,涉及數字數據處理裝置和管道系統【技術領域】。
【背景技術】
[0002]隨著信息技術與網絡技術的發展,信息共享系統已經在各個行業廣泛應用,大大提高了各行業工作勞動效率與便捷性,天然氣與管道行業在信息化技術應用方面一直走在行業前列,隨著業務、技術的進一步發展,僅僅提供文獻級別的檢索、瀏覽等功能已經不能滿足用戶的需求,必須進行更深一步的挖掘與服務,以滿足用戶需求。目前常用的標準檢索方式為“基本字段信息”檢索,一般僅能提供對標準名稱、主題詞進行檢索,不能實現對技術指標的精確定位與檢索、不同標準中同一技術指標的對比。概括起來,傳統檢索方式對技術標準的使用效果有以下幾方面的局限性。
[0003](I)不能對技術標準內容進行精確檢索
[0004]傳統數據庫檢索方式是通過分類、標題、摘要及敘詞等手段對標準文獻進行題錄數據加工,來實現對技術標準與技術法規的檢索。但是技術指標一般會分散在不同技術標準與技術法規中,傳統的檢索方式只能通過題錄數據庫檢索到相關標準,逐一閱讀原文技術指標的內容。但是這樣的方法很浪費時間,并且難以保障查全率。
[0005](2)不能同時檢索到不同標準的技術指標,并實現不同標準的同一技術指標的對比。
[0006]在檢索過程中,經常會出現同一產品的技術指標同時存在國際標準、國家標準、行業標準、地方標準和企業標準等不同的標準中,用戶經常需要對不同標準中的相同產品的技術指標進行對比研究,這是傳統檢索方式所不能滿足的。
[0007]標準內容提取與展示系統是標準信息檢索的最新發展方向。這種新型的檢索方式通過對標準技術指標的系統提取和有效組織,能夠實現從“基本字段信息”到“重要技術指標”的高效的標準信息檢索。對于負責油氣管道工程建設的工程項目管理人員、實施人員,可以實現利用關鍵指標控制管道設計和施工建設;對于油氣管道運行操作人員、管理人員,可以實現查詢、對比操作參數、方法;對于科研人員,可以實現國內外標準關鍵指標差異分析、判斷技術差異,分析體系內各標準間的協調性。
[0008]CN102591878A公開了一種技術標準內容提取與展示系統的建立方法,《石油規劃設計》2011年第22卷第6期“天然氣與管道標準信息管理系統開發方案研究”公開了一種天然氣與管道標準信息管理系統的開發方案,但該系統僅能進行標準全文檢索,無法實現標準內容的提取與展示,也并未公開建立天然氣與管道標準題錄數據庫的方法,其技術并不完善。
[0009]標準內容提取與展示技術是一種新的標準檢索技術,目前國外未見以此技術開發的商業數據庫。在國內,只有中國標準化研究院將標準內容提取與展示技術初步應用在食品、農產品的國家標準、行業標準中,并建設了相應的提取與展示系統平臺,實現對標準內容指標的提取與展示。目前國內外尚沒有天然氣與管道技術標準內容提取與展示系統的建立方法。
[0010]傳統的檢索系統數據加工錄入方式一般僅僅是對標準名稱、標準號、主題詞、等基本字段信息及標準全文等進行加工錄入。這種傳統的數據加工錄入無法滿足天然氣與管道標準內容提取與展示系統數據加工錄入要求。要實現標準內容和指標等的深層次提取和展示,必須對本體、體例、指標等數據進行有效組織,形成內在有機聯系的系統和統一的檢索規則。因此必須研究新的數據組織形式和加工錄入方式。
【發明內容】
[0011]本發明的目的是發明一種能夠本體、體例、指標深層分解的檢索數據進行有效組織、形成內在有機聯系的系統和統一的檢索規則、完成標準內容提取與展示數據的錄入、實現標準內容的深層檢索的天然氣與管道技術標準題錄數據庫的構建方法。
[0012]本發明是天然氣與管道技術標準內容提取與展示系統中題錄數據庫的建立方法,天然氣與管道技術標準內容提取與展示系統的建立方法如圖1所示,主要包括以下步驟:
[0013](I)使用光學字符識別(OCR)工具對天然氣與管道標準文獻全文進行數字化加工,使標準文獻數字化;
[0014](2)建立天然氣與管道標準本體庫、體例庫、題錄數據庫;
[0015](3)建立天然氣與管道標準內容數據庫;
[0016](4)開發天然氣與管道標準內容提取與展示系統平臺,用于標準內容提取、展示與對比。
[0017]天然氣與管道標準題錄數據庫建立包含以下步驟:
[0018](I)確定標準文獻主題;
[0019](2)判別標準文獻歸屬的體例;
[0020]( 3)標準體例結構分析;
[0021](4)劃分標準內容為獨立條目;
[0022](5)條目數據的分析和加工;
[0023]( 6 )初步完成數據庫建立;
[0024](7)條目格式與內容校對修改;
[0025]( 8 )完成題錄數據庫建立。
[0026]所述天然氣與管道標準題錄數據庫建立具體過程為:
[0027](I)確定標準文獻主題:有單主體和多主題之分;若是多主題標準,可以拆分成多個單主題處理;
[0028]( 2 )判別標準文獻歸屬體例;
[0029](3)標準體例結構分析,使該體例下的所有標準均可以和該體例完全匹配;
[0030](4)劃分標準條目:將標準內容劃分成多個獨立條目,使得每一個條目成為一個檢孛占.[0031](5)條目數據的加工:對于標準中的每一個條目均要進行主體對象、技術指標、提取與展示類、計量單位、內容注釋與引用的細致分析;
[0032]主題對象:提煉條目的主題對象為一級指標;當條目無主題對象時,則以整個標準的主題對象作為一級指標;并對主題對象的同義詞以及注釋進行補充;
[0033]技術指標:將條目中所描述的王題對象屬性,作為二級指標;并對技術指標的冋義詞以及注釋進行補充;
[0034]提取與展示類:當條目中技術指標是按照特定類別進行細分而形成的細化類別,將細化的類別填入提取與展示指標類項目中;
[0035]計量單位:對于數據庫不能識別的單位,用語言進行描述;
[0036]內容注釋:
[0037]引用條目:
[0038](6)條目格式的校準:完成條目加工的標準,進行格式、內容的校對;
[0039](7)完成題錄數據庫的建立。
[0040]本發明的有益效果:
[0041]本發明為天然氣與管道標準題錄數據庫的構建方法,通過該方法能夠將本體、體例、指標等深層分解的檢索數據進行有效組織,形成內在有機聯系的系統和統一的檢索規貝U,完成標準內容提取與展示數據的錄入,最終實現標準內容的提取與展示等深層檢索功倉泛。
【專利附圖】
【附圖說明】
[0042]圖1天然氣與管道標準內容提取與展示系統建立流程圖
[0043]圖2天然氣與管道標準題錄數據庫構建流程圖
【具體實施方式】
[0044]實施例.以本例來說明本發明的【具體實施方式】并對本發明作進一步的說明。本例是一實驗方法,其構成如圖2所示。
[0045]本例主要包括以下步驟:
[0046](I)確定標準文獻主題:有單主體和多主題之分;若是多主題標準,可以拆分成多個單主題處理;
[0047]( 2 )判別標準文獻歸屬體例;
[0048](3)標準體例結構分析,使該體例下的所有標準均可以和該體例完全匹配;
[0049](4)劃分標準條目:將標準內容劃分成多個獨立條目,使得每一個條目成為一個檢孛占.[0050](5)條目數據的加工:對于標準中的每一個條目均要進行主體對象、技術指標、提取與展示類、計量單位、內容注釋與引用的細致分析;
[0051]主題對象:提煉條目的主題對象為一級指標;當條目無主題對象時,則以整個標準的主題對象作為一級指標;并對主題對象的同義詞以及注釋進行補充;
[0052]技術指標:將條目中所描述的主題對象屬性,作為二級指標;并對技術指標的同義詞以及注釋進 行補充;
[0053]提取與展示類:當條目中技術指標是按照特定類別進行細分而形成的細化類別,將細化的類別填入提取與展示指標類項目中;
[0054]計量單位:對于數據庫不能識別的單位,用語言進行描述;[0055]內容注釋:
[0056]引用條目:
[0057](6)條目格式的校準:完成條目加工的標準,進行格式、內容的校對;
[0058](7)完成題錄數據庫的建立。
[0059]本例經試用,本方法能夠將本體、體例、指標等深層分解的檢索數據進行有效組織,形成內在有機聯系的系統和統一的檢索規則,完成標準內容提取與展示數據的錄入,最終實現標準內容的提取與展示等深層檢索功能。
【權利要求】
1.一種天然氣與管道技術標準題錄數據庫的建立方法,其特征是它包含以下步驟: (1)確定標準文獻主題; (2)判別標準文獻歸屬的體例; (3)標準體例結構分析; (4)劃分標準內容為獨立條目; (5)條目數據的分析和加工; (6)初步完成數據庫建立; (7 )條目格式與內容校對修改; (8)完成題錄數據庫建立。
2.根據權利要求1所述的天然氣與管道技術標準題錄數據庫的建立方法,其特征是題錄數據庫建立具體過程為: (I)確定標準文獻主題:有單主體和多主題之分;若是多主題標準,可以拆分成多個單主題處理; (2 )判別標準文獻歸屬體例; (3)標準體例結構分析,使該體例下的所有標準均可以和該體例完全匹配; (4)劃分標準條目:將標準內容劃分成多個獨立條目,使得每一個條目成為一個檢索占.(5)條目數據的加工:對于標準中的每一個條目均要進行主體對象、技術指標、揭示類、計量單位、內容注釋與引用的細致分析; 主題對象:提煉條目的主題對象為一級指標;當條目無主題對象時,則以整個標準的主題對象作為一級指標;并對主題對象的同義詞以及注釋進行補充; 技術指標:將條目中所描述的主題對象屬性,作為二級指標;并對技術指標的同義詞以及注釋進行補充; 揭示類:當條目中技術指標是按照特定類別進行細分而形成的細化類別,將細化的類別填入揭示指標類項目中; 計量單位:對于數據庫不能識別的單位,用語言進行描述; 內容注釋: 引用條目: (6)條目格式的校準:完成條目加工的標準,進行格式、內容的校對; (7)完成題錄數據庫的建立。
【文檔編號】G06F17/30GK103699537SQ201210366325
【公開日】2014年4月2日 申請日期:2012年9月28日 優先權日:2012年9月28日
【發明者】劉冰, 吳凱旋, 趙晉云, 馬偉平, 王禹欽, 姚學軍, 稅碧垣, 劉艷雙 申請人:中國石油天然氣股份有限公司