專利名稱:知識譜系的可視化方法
技術領域:
本發明屬于信息處理技術領域,具體涉及一種利用年代和知識共現關系組織和展現專業領域知識點和發展脈絡的知識譜系的可視化方法。
背景技術:
科學研究活動立足于對已有知識的搜集、整理和積累,著眼于對未知世界的探索和鉆研。知識的創造、傳播和使用在推動科學和經濟發展方面的作用越來越突出,21世紀已經逐步跨入知識經濟階段。具體表現為一方面,科學技術知識在不斷地增加和深化,知識的廣度和深度都達到了一個前所未及的程度;另一方面,隨著社會化分工和專業化程度的提高,經驗知識,即隱性知識,也在不斷地發展,并有著借助高級知識管理工具顯性化的趨勢。知識不僅是一種資源,從更廣泛的含義上來說也是一種生產要素和資本,因此知識管理已經成為一門專門的學科加以研究。 知識創新源于知識積累,它們是創新和繼承的關系。對于一個學科、一個專業、一個崗位,都存在大量的已有知識。只有迅速掌握這些已有知識,在頭腦中建立該學科、該專業、該崗位的知識框架,才能夠在已有知識基礎上進彳丁知識檢索、知識關聯和知識創新。特別是對于初學者,是否能夠快速掌握知識框架直接關系到知識創新的效率和結果。學科知識框架是以學科知識為對象,顯示科學研究的發展進程與結構關系的一種層次化、序列化、圖形化的分類體系,反映了知識元或知識群之間網絡、結構、互動、交叉、演化或衍生等諸多復雜的關系。人們可以依靠學科知識框架,透視學科知識體系中各個領域的結構,構造復雜知識網絡,預測學科技術前沿的發展趨勢等。在傳統研究中,研究者為了了解一個學科領域發展的整體狀況,必須查閱該領域的幾乎所有文獻。這個工作既費時又困難,并且由于受到研究者自身主觀判斷影響,每個人在文獻查閱之后所獲得的結論都是不同的。此外,隨著時間的推移和信息量的增長,新的科學文獻不斷產生,學科知識框架也在不斷地動態調整,研究領域的衍生和融合持續發生,想了解學科領域發展的整體狀況這一目標變得越來越難實現。因此需要有一種客觀、科學、高效的新方法來構建學科知識框架的結構。不可否認,個人和組織是知識系統中的活動主體,但是,知識工具在知識管理中也起到了重要的輔助與支撐作用。計算機的高速處理能力加快了人們獲取和處理知識的速度和深度,大容量的存儲和方便的檢索使得人們能夠積累數量巨大、種類多樣的知識,網絡化消除了空間限制,知識來源更加豐富。共現分析是將各種信息載體中的共現信息定量化的分析方法,這種方法基于一種假設,即兩個詞之間的關聯強度可以用同時感知到兩詞的相對頻率來衡量。在這種假設下,就可以利用共現分析研究詞匯之間的關聯度,挖掘詞匯之間的語義關系。根據共現分析對象的不同,還可分為引文共現分析和關鍵詞共現分析。其中引文共現是指兩篇文獻同時被別的文獻引用,可以提供分析對象之間由引文關系形成的相對位置信息和相互關系的親疏程度;關鍵詞共現是指兩篇(或多篇)科學文獻中存在一個(或多個)相同的關鍵詞,主要用于從內容上了解文獻之間的內在聯系和相應作者及研究機構在研究方向上的類同及相關程度。在計算機技術的輔助下,共現分析以其方法的簡明性和分析結果的可靠性,成為支撐信息內容分析研究過程的重要手段和工具。然而,在當前諸多基于共現分析的應用中,均沒有考慮時間因素,即在分析過程中忽略了研究對象間的繼承和發展關系,而這種關系對于研究者了解學科領域發展整體狀況是非常有價值的。對于一個專業領域而言,學科知識框架至少應該包含該學科的研究主題關聯和發展脈絡兩個因素,其中研究主題關聯通過論文中的關鍵詞共現關系體現,而發展脈絡則可以通過年代來劃分層級,由此形成可視化的學科知識譜系,可以為使用者的知識創新提供更多的輔助參考。通常來說,專業領域的使用者在進行知識檢索時,首先需要先確定明確的檢索關鍵詞。由于現有的檢索系統尚不能支持基于語義的查詢,因此只能根據使用者輸入的檢索關鍵詞進行基于布爾邏輯的匹配查詢。如果使用者輸入的檢索關鍵詞過泛或過窄,就很可能會出現檢索結果過多或過少的情況。一旦出現這種情況,則需要使用者自行調整檢索關 鍵詞,重新檢索。很多專業領域的初學者由于不了解該專業領域的知識體系,在調整檢索關 鍵詞時缺乏參考和指導,往往會造成知識檢索的效果不佳。
發明內容
(一 )要解決的技術問題本發明要解決的技術問題是在海量文獻信息中抽取出有價值的知識點,并按照時間順序建立譜系關系進行可視化展示,從而快速、科學地協助使用者了解這些文獻中所包含的研究主題和發展脈絡關系,使背景知識前景化,解決使用者,特別是專業領域的初學者由于缺乏專業背景知識而造成的檢索效果不佳的問題。(二)技術方案本發明的提出的一種知識譜系的可視化方法,用于對目標知識點的知識譜系進行可視化顯示,具體包括如下步驟抽取文獻數據中的信息,形成至少包括文獻的來源信息、公開時間和知識點的多個第一數據表;統計多個第一數據表中每個知識點最早出現的文獻的公開時間,然后將每個知識點劃分到一個年代當中,形成至少包括知識點、知識點的首次公開時間和年代信息的第二數據表;統計多個第一數據表中每個知識點的出現次數,形成至少包括知識點和知識點的出現次數的第三數據表;統計多個第一數據表中所有知識點兩兩組合之間的共現關系,形成至少包括兩個知識點和該兩個知識點之間的共現次數的第四數據表;在第四數據表中查找與目標知識點有共現關系的所有知識點,并在第二數據表中依次查找這些知識點和目標知識點的年代,根據其與目標知識點所在年代的差異確定知識點之間的譜系關系,再在第三數據表中依次查找共現知識點的出現次數,形成至少包括目標知識點、與目標知識點有共現關系的共現知識點、共現次數、共現知識點的出現次數、目標知識點和共現知識點的年代差的第五數據表;繪制時間坐標軸,其坐標刻度按照年代順序排列,將目標知識點置于所處年代的中心位置,將共現知識點根據其與目標知識點之間的譜系關系歸入相應年代層級,再根據第五數據表中的共現知識點出現次數為其標注不同顏色,形成知識譜系圖。(三)有益效果(I)現有的檢索系統對使用者有著較高的要求,特別是在選擇搜索關鍵詞時,需要使用者具有足夠的專業知識才能夠獲得準確、全面的檢索結果。然而這對于剛剛接觸某個科研領域的科研人員和學生來說是十分困難的,他們往往由于缺乏充實的背景知識而導致檢索效果不佳。本發明所提供的知識譜系的可視化方法,通過在數據預處理階段抽取知識點的時間屬性,并按照時間順序建立譜系關系,從而為 知識檢索提供了一種新的輔助方法,有助于使用者把握技術發展趨勢,不斷完善檢索策略,獲得更加全面的檢索結果。(2)現有的文獻檢索系統通常都是以一個關鍵詞、一個作者或一個機構為入口進行檢索,這種由點及面的調研方式對于海量的文獻信息來講,難以保證文獻調研活動在有限的時間內獲得最有價值的信息。本發明所提出的知識譜系的可視化方法一方面利用知識共現關系為使用者提供更多的檢索參考,另一方面還通過對知識點的年代劃分梳理出共現知識點之間的繼承、發展和演變關系,并以知識譜系圖的形式進行可視化展示,從而提供與目標知識點相關的知識網絡的全部信息,這將為初學者提供非常有價值的檢索參考,從而啟發專業技術領域的知識發現。
圖I為本發明的知識譜系的可視化方法的一個具體實施例的流程圖;圖2為本發明的可視化的知識譜系的一個示例圖;圖3為本發明的可視化的知識譜系的另一示例圖。
具體實施例方式為使本發明的目的、技術方案和優點更加清楚明白,以下結合具體實施例,并參照附圖,對本發明進一步詳細說明。本發明的知識譜系的可視化方法,分為數據預處理和知識譜系的可視化兩個階
段。其原理是在數據預處理階段,首先抽取文獻數據中的知識點及時間屬性,然后按照時間切片方法對抽取出的知識點進行年代劃分,最后統計知識點的出現次數和知識點之間的共現次數;在知識譜系的可視化階段,首先根據與目標知識點有共現關系的所有知識點所在的年代確定其與目標知識點之間的譜系關系,然后在時間軸上按照所在年代進行排列,從而可視化展示知識點之間的發展脈絡的譜系關系。圖I為本發明提供的知識譜系的可視化方法的一個具體實施例的流程圖。如圖I所示,本發明的知識譜系的可視化方法包括以下步驟步驟101,文獻信息的抽取對文獻數據中的知識點進行抽取,同時抽取文獻數據的時間屬性。所述的文獻數據一般來自于專業領域內的文獻資料,其通常以文獻數據庫的形式存在。對于一條具體的文獻資料,通常包括文獻編號、文獻來源、標題、作者、作者機構、摘要、關鍵詞、公開時間、正文、參考文獻等信息。在抽取文獻信息時,通常可通過關系數據庫的查詢語句,對特定類型的文獻信息內容進行提取,例如首先抽取多個文獻資料的發表時間信息,然后再抽取多個文獻資料的關鍵詞信息,最后以文獻編號為索引生成一個或多個數據表。根據實際檢索需要,在本發明中,所述的知識點指的是從專業領域的文獻數據中抽取的文獻屬性信息,包括文獻的關鍵詞、標題、作者等屬性信息,此外,例如作者機構、數字對象唯一標識符(Digital Object Unique Identifier, DOI)等也可作為知識點在一些特殊應用下被抽取。對文獻信息進行抽取后可以形成多個第一數據表,在每個第一數據表中至少包括某一文獻的來源信息、公開時間和知識點。該第一數據表例如表示為〈文獻來源 >、< 文獻公開時間 >、< 知識點1>、<知識點2>、......、〈知識點N〉。步驟102,知識年代的劃分根據文獻的公開時間將多個文獻劃分為兩個或兩個以上的年代,并統計多個第一數據表中每個知識點最早出現的文獻的公開時間,然后將每 個知識點劃分到一個年代當中,形成至少包括某一知識點、該知識點的首次公開時間和年代信息的第二數據表,第二數據表例如表示為〈知識點 >、< 首次公開時間 >、< 年代>。年代劃分的基本方式有兩種,一是參考自然年代劃分方法,比如以10年或者5年為一個時間段;二是利用專業領域中里程碑事件發生的時間進行劃分。劃分原則既要結合專業領域實際情況,也要兼顧到語料素材的分布情況,盡量讓各個時間段內的文獻數量均衡。所述的統計方法可通過建立倒排索引并排序的方法實現,首先將每個第一數據表中的知識點與文獻公開時間進行多對一的映射,成為〈知識點 >、〈文獻公開時間 > 數據組,然后將多個第一數據表多對一映射后的〈知識點 >、〈文獻公開時間 > 數據組匯總到一個臨時數據表中,再次利用倒排索引法將臨時數據表中的相同知識點所對應的文獻公開時間進行排序,找到最早的文獻公開時間作為該知識點的首次公開時間。步驟103,知識熱度分析統計多個第一數據表中每個知識點的出現次數,形成至少包括某一知識點和該知識點的出現次數的第三數據表,第三數據表例如表示為〈知識點>、〈出現次數〉。以文獻關鍵詞為例進一步說明知識熱度分析中需要考慮的問題。文獻關鍵詞通常表達出文獻所涉及的研究對象、理論、方法、算法以及研究工具等,是該篇文獻學術貢獻的濃縮。由于文獻中關鍵詞總是和其它關鍵詞共同出現,因此出現頻率高的文獻關鍵詞往往具有更強或更多的共現網絡,在專業領域的發展脈絡中也占有更重要的地位。如果為了保證知識譜系的完整性,則可以在第三數據表中保留全部知識點,如果為了尋找和梳理專業領域的主要發展和繼承脈絡,則可以設定一個閾值,當知識點出現次數高于這個閾值時,才保留到第三數據表中,以降低處理不重要的文獻關鍵詞所帶來的時間和存儲消耗。與步驟102類似,所述統計方法可通過建立倒排索引并匯總計數的方法實現,即在對多個第一數據表中的〈知識點 >、< 文獻公開時間 > 數據組匯總到一個臨時數據表后,再對臨時數據表中相同知識點所出現的次數進行匯總計數,以此計數結果作為該知識點的出現次數。步驟104,知識共現分析統計多個第一數據表中所有知識點兩兩組合之間的共現關系,形成至少包括兩個知識點和該兩個知識點之間的共現次數的第四數據表,第四數據表例如表示為〈知識點A>、<知識點B〉、<共現次數>。所述統計方法可通過計算共現矩陣實現,即根據所有知識點的兩兩組合在同一篇文獻中共同出現的次數,生成一個二維的知識點共現矩陣,共現矩陣行和列的數字代表分別代表知識點的編號。矩陣中對角線上的數字代表該知識點出現的總次數,非對角線上的數字表示兩個知識點共同出現的次數。步驟105,確定知識點的譜系關系使用者輸入目標知識點后,首先在第四數據表中查找與該目標知識點有共現關系的所有知識點,并在第二數據表中依次查找這些知識點和目標知識點的年代,根據其與目標知識點所在年代的差異確定知識點之間的譜系關系,再在第三數據表中依次查找共現知識點的出現次數,形成至少包括目標知識點、與目標知識點有共現關系的共現知識點、共現次數、共現知識點的出現次數、目標知識點和共現知識點的年代差的第五數據表,第五數據表例如表示為〈目標知識點 >、< 共現知識點 >、< 共現次數 >、< 共現知識點出現次數 >、< 目標知識點與共現知識點年代差 > 的第五數據表。
該步驟的核心就是確定與目標知識點有共現關系的全部知識點所在的年代,以及這些知識點出現的次數,為下一步繪制譜系圖做準備。假如某個知識點與目標知識點處于相同的知識年代,則可認為他們是在同一時期并行出現的,二者屬于兄弟節點;如果一個知識點處于目標知識點前一個知識年代,可以認為這個知識點對目標知識點的產生起到了重要的促進作用,因此它屬于目標知識點的父節點;同理,處于目標知識點后一個知識年代的全部貢獻知識點,可認為目標知識點對其產生起到了重要的促進作用,它屬于目標知識點的子節點。由此類推,還可以定義目標知識點的爺節點、孫節點等,進而建立起目標關鍵詞完整的譜系關系。步驟106,譜系可視展示繪制時間坐標軸,其坐標刻度按照年代順序排列,將目標知識點置于所處年代的中心位置,將共現知識點根據其與目標知識點之間的譜系關系歸入相應年代層級,再根據多個第五數據表中的共現知識點出現次數的多少為其標注不同顏色,形成知識譜系圖。對于每個年代,還可以按如下規則對知識點進行與目標知識點的關聯強度排序。首先,按照與目標知識點共現次數的高低排序,共現次數最高的知識點置于中間,其它知識點依次置于兩邊;其次,如果兩個知識點與目標知識點共現次數相同,則共現知識點出現次數高的知識點排在前面。這樣,知識譜系圖將與目標知識點相關聯的知識點按照產生年代進行層級劃分,每個層級上的知識點又根據與目標知識點的關聯強度,由中心到兩端排列。同時根據知識點出現次數的多少賦予不同顏色指示,在一張知識譜系圖中,將能夠同時可視化展現知識點年代、關聯強度、熱度等多個維度的信息,為使用者檢索和知識理解帶來便利。以上描述了根據本發明的知識譜系的可視化方法的一個實施例,但本領域技術人員應當理解的是,上述實施例僅僅是一種示例,本發明也可以對上述實施例進行變換,從而以不同的實施方式實現本發明。例如,在上述實施例的描述中,本發明的知識譜系的可視化方法所包括的步驟102、103、104是依次執行的,但是,本發明并不局限于此,步驟102、103、104也可以同步執行,或者按任意的次序執行。
圖2和圖3為利用本發明的知識譜系的可視化方法,分別以“制造執行系統”和“知識發現”為目標關鍵詞建立的知識譜系圖。在該知識譜系圖中,上層表示出現年代較早的關鍵詞,下層表示出現年代較晚的關鍵詞,上下層之間按照年代順序排序。與目標關鍵詞“制造執行系統”或“知識發現”直接相連的上一層節點,稱之為譜系中的父節點,其出現年代較目標關鍵詞更早,是目標關鍵詞所對應知識點的基礎和來源;與目標關鍵詞處于同一層的知識點,稱為譜系中的兄弟節點,它們和目標關鍵詞同一時代出現,并與目標關鍵詞有著密切的關聯關系,是知識檢索中的重要參考;而與目標關鍵詞直接相連的下一層節點,稱之為譜系中的子節點,其出現年代較 目標關鍵詞更晚一些,是目標關鍵詞所對應知識點的繼承、應用和發展。同理,還可以定義更上層和更下層知識點的譜系關系。以圖2為例,制造執行系統的產生源自于早期人們對生產調度、過程控制系統的集成研究,同時計算機集成控制技術的發展帶動了這一新的信息體系的進步。企業資源計劃(ERP)和制造執行系統(MES)的概念同時出現,鋼鐵企業和流程工業成為最主要的應用對象。基于制造執行系統的特點和優勢,使得人們可以對企業的業務流程進行重組和優化,實現車間級的綜合自動化系統和網絡化控制,進而建立面向服務的架構。在更近的年代中,制造執行系統還與射頻識別這一新興技術融合,成為新的研究熱點。圖3同樣可以說明譜系型知識檢索方法的應用價值。在知識發現這一概念出現之前,研究者主要關注機器學習、專家系統等理論,依據聚類、分類等方法,知識發現是在上述理論和方法基礎上的繼承、融合和發展。與知識發現同一時期出現的其它知識點,包括數據挖掘、關聯規則、數據倉庫等都是實現知識發現的重要方法和工具。隨著人們對這一領域的深入研究,頻繁模式、案例推理、客戶關系管理等概念相繼出現,補充和豐富了知識發現這一方向的研究深度和廣度。 圖2和圖3均以文獻的關鍵詞為知識點建立了知識譜系圖,但是根據本發明,知識點也可以是文獻的作者,作者機構等,當知識點是文獻的作者,作者機構時,由本發明的方法建立的知識譜系圖就能顯示研究者及機構之間的合作譜系關系,例如師生關系、同行關系、機構關聯度關系等。本發明在知識點共現分析的基礎上,進一步引入時間切片確定譜系關系,形成的可視化的知識譜系圖,不僅可為使用者提供與輸入的目標知識點具有共現關系的全部知識點列表作為調整參考,還可將這些知識點繪制為譜系關系圖直觀展現,方便使用者更好地理解與目標知識點相關的知識發展脈絡。以上對知識譜系圖的分析符合實際情況,有效地將專業人員頭腦中的隱形知識顯性化。通過知識譜系圖,使用者可以迅速了解目標知識點的知識主線和關聯知識體系,對目標知識點的繼承和發展建立起清晰的認識,同時了解最新的研究方向和研究熱點,進一步結合個人的主觀判斷,輔助和啟發使用者的知識創新。以上所述的具體實施例,對本發明的目的、技術方案和有益效果進行了進一步詳細說明,應理解的是,以上所述僅為本發明的具體實施例而已,并不用于限制本發明,凡在本發明的精神和原則之內,所做的任何修改、等同替換、改進等,均應包含在本發明的保護范圍之內。
權利要求
1.一種知識譜系的可視化方法,用于對目標知識點的知識譜系進行可視化顯示,其特征在于,包括如下步驟 抽取文獻數據中的信息,形成至少包括文獻的來源信息、公開時間和知識點的多個第一數據表; 統計多個第一數據表中每個知識點最早出現的文獻的公開時間,然后將每個知識點劃分到一個年代當中,形成至少包括知識點、知識點的首次公開時間和年代信息的第二數據表; 統計多個第一數據表中每個知識點的出現次數,形成至少包括知識點和知識點的出現次數的第三數據表; 統計多個第一數據表中所有知識點兩兩組合之間的共現關系,形成至少包括兩個知識點和該兩個知識點之間的共現次數的第四數據表; 在第四數據表中查找與目標知識點有共現關系的所有知識點,并在第二數據表中依次查找這些知識點和目標知識點的年代,根據其與目標知識點所在年代的差異確定知識點之間的譜系關系,再在第三數據表中依次查找共現知識點的出現次數,形成至少包括目標知識點、與目標知識點有共現關系的共現知識點、共現次數、共現知識點的出現次數、目標知識點和共現知識點的年代差的第五數據表; 繪制時間坐標軸,其坐標刻度按照年代順序排列,將目標知識點置于所處年代的中心位置,將共現知識點根據其與目標知識點之間的譜系關系歸入相應年代,再根據第五數據表中的共現知識點出現次數為其標注不同顏色,形成知識譜系圖。
2.如權利要求I所述的知識譜系的可視化方法,其特征在于 所述知識點包括文獻的關鍵詞、標題、作者、作者機構、數字對象唯一標識符。
3.如權利要求I所述的知識譜系的可視化方法,其特征在于 在形成第二數據表的步驟中,根據文獻的公開時間,按照自然年代將文獻劃分為兩個或兩個以上的年代。
4.如權利要求I所述的知識譜系的可視化方法,其特征在于 在形成第二數據表的步驟中,根據文獻的公開時間,按照里程碑事件發生的時間將文獻劃分為兩個或兩個以上的年代。
5.如權利要求I所述的知識譜系的可視化方法,其特征在于 在形成第三數據表的步驟中,設定一個閾值,當知識點出現次數高于這個閾值時,則將該知識點及知識點出現次數保留到所述第三數據表中。
6.如權利要求I所述的知識譜系的可視化方法,其特征在于 在確定知識點的譜系關系的步驟中,當與目標知識點有共現關系的知識點與目標知識點處于相同的年代時,則將該知識點定義為目標知識點的兄弟節點;當與目標知識點有共現關系的知識點處于目標知識點的前一個年代時,則將該知識點定義為目標知識點的父節點;當與目標知識點有共現關系的知識點處于目標知識點的后一個年代時,則將該知識點定義為目標知識點的子節點。
7.如權利要求I所述的知識譜系的可視化方法,其特征在于 在形成知識譜系圖的步驟中,還包括對知識點進行按照與目標知識點的關聯強度排序的步驟。
8.如權利要求7所述的知識譜系的可視化方法,其特征在于 所述排序步驟為按照與目標知識點共現次數的高低排序,共現次數最高的知識點置于中間,其它知識點依次置于兩邊。
9.如權利要求8所述的知識譜系的可視化方法,其特征在于 當兩個知識點與目標知識點共現次數相同時,共現知識點出現次數高的知識點排在前面。
全文摘要
本發明公開了一種知識譜系的可視化方法,該方法抽取文獻數據中的知識點及時間屬性,然后按照時間切片方法對知識點進行年代劃分,統計知識點的出現次數和知識點之間的共現次數,根據與目標知識點有共現關系的所有知識點的所在年代確定其與目標知識點之間的譜系關系,最后在時間軸上按照年代進行排列,從而可視化展示知識點之間的發展脈絡關系。本發明有助于協助專業領域的初學者在海量文獻信息中檢索和學習有價值的知識點,并快速、科學地掌握這些文獻中所包含的研究主題和發展脈絡關系,克服使用者由于缺乏專業背景知識而造成的檢索和學習效果不佳的問題。
文檔編號G06F17/30GK102779143SQ20121002204
公開日2012年11月14日 申請日期2012年1月31日 優先權日2012年1月31日
發明者劉禹, 楊一平 申請人:中國科學院自動化研究所