一種擴充實體庫的方法及裝置制造方法
【專利摘要】本發明實施例公開了一種擴充實體庫的方法及裝置,該方法包括:從資源庫中獲取結構化數據;從所述結構化數據的預置含義字段的字段內容中識別出實體詞;對所述實體詞按照預設規則進行篩選;如果篩選出的實體詞未出現在實體庫中,則將所述實體詞添加到所述實體庫中,以擴充所述實體庫,能提高擴充實體庫中實體詞的準確性。
【專利說明】一種擴充實體庫的方法及裝置
【技術領域】
[0001] 本發明涉及互聯網信息處理【技術領域】,具體涉及一種擴充實體庫的方法及裝置。
【背景技術】
[0002] 隨著信息和網絡技術的不斷發展,人們越來越多地通過互聯網進行各種知識和信 息的搜索。內容提供商在互聯網提供內容使所有用戶均能平等地瀏覽、創造、完善內容平 臺。
[0003] 例如百度百科、維基百科、互動百科等,能夠讓互聯網用戶通過百科網站即能找到 自己想要的全面、準確、客觀的定義性信息,可供其他用戶進行類似主題的查詢和瀏覽,以 便提供相應的知識或者借鑒。例如,詞條是百科網站所含內容的基礎分割單位,一個詞條具 有一個或多個單一的主題,用于闡述一件事物、一個人物、或者具備特定主題的組合等知識 內容。在百科網站中包括極大數量的詞條,這些百科詞條可以大大地提高檢索的準確性和 檢索的覆蓋率,并且有利于從網頁中提取結構化數據,可以進行垂直搜索,得到更為精確的 信息。
[0004] 隨著信息的廣泛傳播以及人們交流內容的不斷擴展,新詞條層出不窮。極大地發 現有價值的詞條,擴充百科網站的實體庫是百科產品的重要目標。常見的實現方案都是從 已有的數據中,利用文本切分來分析文本中可能存在的實體詞,判斷哪些實體詞是百科實 體庫中存在的,哪些是百科實體庫中不存在的,將不存在的實體詞增加到百科實體庫中。但 是這種方案存在文本切分和屬性識別不準確的問題。
【發明內容】
[0005] 有鑒于此,本發明實施例提供一種擴充實體庫的方法及裝置,以克服現有的百科 實體庫擴充存在文本切分和屬性識別不準確的問題。
[0006] 第一方面,本發明實施例提供了一種擴充實體庫的方法,包括:
[0007] 從資源庫中獲取結構化數據;
[0008] 從所述結構化數據的預置含義字段的字段內容中識別出實體詞;
[0009] 對所述實體詞按照預設規則進行篩選;
[0010] 如果篩選出的實體詞未出現在實體庫中,則將所述實體詞添加到所述實體庫中, 以擴充所述實體庫。
[0011] 第二方面,本發明實施例還提供了一種擴充實體庫的裝置,包括:
[0012] 結構化數據識別單元,用于從資源庫中獲取結構化數據;
[0013] 實體詞識別單元,用于從所述結構化數據的預置含義字段的字段內容中識別出實 體詞;
[0014] 實體詞篩選單元,用于對所述實體詞按照預設規則進行篩選;
[0015] 實體詞添加單元,用于如果篩選出的實體詞未出現在實體庫中,則將所述實體詞 添加到所述實體庫中,以擴充所述實體庫。
[0016] 本發明實施例的技術方案通過從資源庫中獲取結構化數據,從預置含義字段的字 段內容中識別出實體詞,進行篩選后,將未出現在實體庫中的實體詞添加到實體庫中,以擴 充所述實體庫。由于結構化數據的預置含義字段本身就是對文字內容進行了切分,且對應 于一定的含義,所以從中有效獲取實體詞的概率更高,能提高擴充實體庫中實體詞的準確 性。
【專利附圖】
【附圖說明】
[0017] 為了更清楚地說明本發明實施例中的技術方案,下面將對本發明實施例描述中所 需要使用的附圖作簡單的介紹,顯而易見地,下面描述中的附圖僅僅是本發明的一些實施 例,對于本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據本發明實施 例的內容和這些附圖獲得其他的附圖。
[0018] 圖1是本發明實施例一所述的擴充實體庫的方法流程圖;
[0019] 圖2是百度百科中不例詞條中所包含的第一不例表格的截圖;
[0020] 圖3是百度百科中示例詞條中所包含的第二示例表格的截圖;
[0021] 圖4是本發明實施例二所述的擴充實體庫的方法流程圖;
[0022] 圖5是本發明實施例三所述的擴充實體庫的裝置的結構框圖。
【具體實施方式】
[0023] 為使本發明解決的技術問題、采用的技術方案和達到的技術效果更加清楚,下面 將結合附圖對本發明實施例的技術方案作進一步的詳細描述,顯然,所描述的實施例僅僅 是本發明一部分實施例,而不是全部的實施例。基于本發明中的實施例,本領域技術人員在 沒有作出創造性勞動前提下所獲得的所有其他實施例,都屬于本發明保護的范圍。
[0024] 下面結合附圖并通過【具體實施方式】來進一步說明本發明的技術方案。
[0025] 實施例一
[0026] 圖1是本發明實施例一提供的擴充實體庫的方法流程圖,本實施例可適用于利用 資源庫中的結構化數據擴充實體庫的情況,本實施例所稱的實體詞泛指名詞與代詞,也可 進一步指滿足預設條件的名詞與代詞。實體庫則是用于存儲各實體詞的相關信息的數據 庫,能過為用戶提供對實體詞相關數據的獲取。例如,在百科中實體詞指詞條的主題名稱, 詞條是百科網站所含內容的基礎分割單位,詞條包括實體詞、對該實體詞的解釋、以及與該 實體詞的相關信息。此外,其他類別的實體庫,如音樂實體庫、商品實體庫等,也可以用音 樂名稱、商品名稱等作為實體詞,在實體庫中存儲各實體詞的相關細節數據,如音樂背景介 紹、商品產地等。
[0027] 本實施例的方法可以由配置在服務器中的擴充實體庫的裝置來執行,如圖1所 示,本實施例所述的擴充實體庫的方法包括 :
[0028] S101、從資源庫中獲取結構化數據。
[0029] 結構化數據是指將數據分別存儲在至少一個預置含義字段中,通常可以用二維表 結構邏輯來實現表達,在關系型數據庫中的數據全部為結構化數據,在文件中,結構化數據 包括表格、圖表、報表等結構的數據。預置含義字段中的數據均符合該字段的預置含義要 求,有一定的共性,例如都是姓名、都是地址等。結構化存儲的數據通過預置含義字段進行 了初步的劃分,數據有一定的屬性特征。
[0030] 本實施例所稱的資源庫可為任意形式的數據源,例如數據庫、文件包、網頁資源 庫、電子文檔等,只要能從中獲取結構化數據,并在所述結構化數據中能挖掘到需要擴充到 實體庫的實體詞即可。
[0031] 由于本實施例的目的是擴充實體庫,所使用的資源庫中所包含的內容優選為與該 實體庫的內容相關度較高的內容。并且,在實體庫中用于介紹實體詞的相關數據中存在的 其他實體詞更多,關聯性更強,適于作為擴展的工具。例如,若用于擴充百科實體庫,則可以 優選采用百科資源庫作為資源庫。以歌手為例,對"劉德華"這一實體詞進行介紹的相關數 據中,可能與此歌手關聯的其他明星人物、歌曲、影片等實體詞更多,則從已有實體詞的相 關結構化數據中查找并篩選出擴展的實體詞的成功率更高。
[0032] S102、從所述結構化數據的預置含義字段的字段內容中識別出實體詞。
[0033] 由于結構化數據可以用二維表結構來邏輯表達實現,所以結構化數據的相同字段 (即結構化數據中的列)的字段內容一般類別相同。當需要擴充實體庫時,本實施例可通過 根據需要擴充的實體詞的類別,結合擴充目標設置字段的設置條件或枚舉符合該擴充目標 的字段,從所獲取的結構化數據中篩選出滿足所述擴充目標的預置含義字段,獲取所述結 構化數據中所篩選字段的字段內容,對所獲取的字段內容進行識別獲取實體詞。若某些字 段的字段內容不能直接識別出實體詞,可對字段內容進行切分后再執行實體詞識別操作即 可。
[0034] 例如,若目標為擴充人物類別中的實體詞,可設置條件判斷字段是否包含"者"、 "員"、"人"、以及"演員"等字或詞,也可枚舉符合該擴充目標的字段"扮演角色"、"導演"、"合 作演員"、以及"演唱者"等字段名稱,以枚舉字段名稱為例,可以從百科詞條"劉德華"中的 結構化數據"參演電影"表格中篩選出"扮演角色"、"導演"、以及"合作演員"這三個字段作 為預置含義字段,如圖2所示。還可以從該詞條中的"為他人創作"表格中篩選出"演唱者" 這一字段作為預置含義字段,如圖3所示。
[0035] 其中,從"扮演角色"、"導演"、以及"演唱者"字段的字段內容中可以直接識別出實 體詞,而從"合作演員"字段中提取字段內容后,需要按分號進行切分來識別出實體詞。
[0036] S103、對所述實體詞按照預設規則進行篩選。
[0037] 所述預設規則可根據實體庫的擴充目標來設置,例如,將所述實體詞中字數大于 預設閾值的實體詞過濾掉、將屬于黑名單的實體詞過濾掉、和/或將屬于預設類型的實體 詞過濾掉(例如包含序號、時間、特殊符號)。
[0038] 需要說明的是,所述預設規則可包括針對所有預置含義字段的字段內容的篩選規 貝1J,所述預設規則還可包括分別針對各預置含義字段的字段內容的篩選規則。
[0039] S104、如果篩選出的實體詞未出現在實體庫中,則將所述實體詞添加到所述實體 庫中,以擴充所述實體庫。
[0040] 為了避免重復設置實體詞,操作S103獲取實體詞后,還需判斷實體詞是否已經出 現在實體庫中,將未出現在所述實體庫中的實體詞添加到所述實體庫中。
[0041] 本實施例的技術方案通過從資源庫中獲取結構化數據,從預置含義字段的字段內 容中識別出實體詞,進行篩選后,將未出現在實體庫中的實體詞添加到實體庫中,能消除實 體詞歧義,能減少對結構化數據識別的范圍。由于結構化數據的預置含義字段本身就是對 文字內容進行了切分,且對應于一定的含義,所以從中有效獲取實體詞的概率更高,可以提 高實體詞識別的準確性和效率,能提高擴充實體庫的準確性和效率。
[0042] 實施例二
[0043] 圖4是本發明實施例二所述的擴充實體庫的方法流程圖,本實施例以通過百科資 源庫中的結構化數據擴充百科實體庫為例公開一種擴充實體庫的方法,如圖4所示,本實 施例所述的擴充實體庫的方法包括:
[0044] S401、從百科實體庫中獲取結構化數據。
[0045] 作為優選,所述資源庫可為該百科實體庫,即從該百科實體庫內部挖掘實體詞來 擴充它本身。
[0046] -般來說,為了方便檢索和數據管理,百科實體庫中的現有的實體詞進行了分類, 例如分為歌曲、電影、人物、自然、文化、地理、歷史、生活、社會、藝術、經濟、科技、體育等類 另IJ,或者某些類別還有進一步的更深層次的分類。因此,為了提高命中率,所述從資源庫中 獲取結構化數據的操作,可進一步優選為從該百科實體庫中與需要擴充的實體詞的類別相 關聯的類別中獲取結構化數據。例如,需要擴充百科實體庫中的電影類別的實體詞,而與電 影類別相關聯的類別為電影類別和人物類別,則僅需要從百科實體庫的電影類別和人物類 別中獲取結構化數據,以縮小結構化數據的查找范圍,從而提高擴充實體庫的效率。
[0047] S402、獲取所述結構化數據的預置含義字段。
[0048] 當需要擴充百科實體庫時,本實施例可通過根據需要擴充的實體詞的類別,結合 擴充目標設置字段的設置條件或枚舉符合該擴充目標的字段,從所獲取的結構化數據中篩 選出滿足所述擴充目標的預置含義字段,例如可過濾掉諸如時間、地址等字段,獲取所述結 構化數據中所篩選字段的字段內容,對所獲取的字段內容進行識別獲取實體詞。
[0049] S403、獲取所述結構化數據的預置含義字段的字段內容。
[0050] 若某些字段的字段內容不能直接識別出實體詞,可對字段內容進行切分后再執行 實體詞識別操作即可。
[0051] S404、過濾掉存在內鏈接的字段內容。
[0052] 本實施例所稱的內鏈接是指內鏈,即在實體庫內部,如果存在某個實體詞的相關 數據,則此實體詞出現在其他實體詞的相關數據中時,會為此實體詞建立內部鏈接,以便用 戶方便地找到該實體詞自己的相關數據。例如在百科實體庫中,在各詞條內部會對其中涉 及到的已有詞條添加內鏈接,以供用戶通過內鏈接找到詞條所涉及的其他詞條的網頁位置 和分類。例如百科詞條"劉德華"中的結構化數據"參演電影"表格(如圖2所示)中"扮 演角色"這一列中,有些字段內容添加了內鏈接,有些未添加內鏈接(如圖2所示的圈定內 容)。包括添加內鏈接的內容已出現在百科的實體詞中,無需添加,因此,為了提高效率,在 獲取字段內容后,可在進行實體詞識別之前進行濾掉。
[0053] 例如,從百科詞條"劉德華"中的結構化數據"參演電影"表格(如圖2所示)中 "扮演角色"、"導演"、以及"合作演員"這三個預置含義字段中識別人物類別的實體詞,在在 獲取這些字段內容之后,將存在內鏈接的字段內容過濾掉,僅獲取未添加內鏈接(如圖2所 示的圈定內容)。又如,從該詞條中的"為他人創作"表格(如圖3所示)"歌曲名稱"這一 列中識別出歌曲類別的實體詞,過濾掉內鏈接的字段內容后,僅獲取未添加內鏈接(如圖3 所示)的圈定內容。通過濾掉存在內鏈接的字段內容來提前進行篩選,能縮小實體詞識別 的范圍,從而能提1?效率。
[0054] S405、從過濾后的字段內容中識別出實體詞。
[0055] S406、對所述實體詞按照預設規則進行篩選。
[0056] S407、對所述實體詞進行去重處理。
[0057] 需要說明的是,本操作可在篩選之后進行,也可在篩選之前進行。通過對所識別的 實體詞進行去重處理,能進一步減小操作408中的實體詞的數目,同時能避免重復添加。
[0058] S408、如果所述實體詞未出現在百科的實體詞中,將所述實體詞添加到百科實體 庫中。
[0059] 本實施例以通過百科資源庫中的結構化數據擴充百科實體庫為例,在實施例一的 基礎之上,增加了過濾掉存在內鏈接的字段內容的操作,以及增加了對實體詞進行去重處 理的操作,能進一步提高擴充實體庫的效率。
[0060] 實施例三
[0061]圖5是本發明實施例三所述的擴充實體庫的裝置的結構框圖,如圖5所示,本實施 例所述的擴充實體庫的裝置包括:
[0062] 結構化數據識別單元501,用于從資源庫中獲取結構化數據;
[0063] 實體詞識別單元502,用于從所述結構化數據的預置含義字段的字段內容中識別 出實體詞;
[0064] 實體詞篩選單元503,用于對所述實體詞按照預設規則進行篩選;
[0065] 實體詞添加單元504,用于如果篩選出的實體詞未出現在實體庫中,則將所述實體 詞添加到所述實體庫中,以擴充所述實體庫。
[0066] 進一步地,所述資源庫為百科資源庫。
[0067] 進一步地,所述實體詞識別單元502具體用于:
[0068] 獲取所述結構化數據的預置含義字段的字段內容;
[0069] 如果所述字段內容在所述資源庫中不存在內鏈接,則從所述字段內容中識別出實 體詞。
[0070] 進一步地,所述實體詞篩選單元503具體用于:
[0071] 將符合下述至少一項的實體詞過濾掉:所述實體詞中字數大于預設閾值的實體 詞、屬于黑名單的實體詞、包含預設符號的實體詞、和屬于預設類型的實體詞。
[0072] 進一步地,所述實體詞篩選單元503還用于:在將所述實體詞添加到所述實體庫 中的操作之前,還包括:對所述實體詞進行去重處理。
[0073] 本實施例提供的擴充實體庫的裝置可執行本發明實施例一和實施例二所提供的 擴充實體庫的方法,具備執行方法相應的功能模塊和有益效果。
[0074] 以上實施例提供的技術方案中的全部或部分內容可以通過軟件編程實現,其軟件 程序存儲在可讀取的存儲介質中,存儲介質例如:計算機中的硬盤、光盤或軟盤。
[0075] 注意,上述僅為本發明的較佳實施例及所運用技術原理。本領域技術人員會理解, 本發明不限于這里所述的特定實施例,對本領域技術人員來說能夠進行各種明顯的變化、 重新調整和替代而不會脫離本發明的保護范圍。因此,雖然通過以上實施例對本發明進行 了較為詳細的說明,但是本發明不僅僅限于以上實施例,在不脫離本發明構思的情況下,還 可以包括更多其他等效實施例,而本發明的范圍由所附的權利要求范圍決定。
【權利要求】
1. 一種擴充實體庫的方法,其特征在于,包括: 從資源庫中獲取結構化數據; 從所述結構化數據的預置含義字段的字段內容中識別出實體詞; 對所述實體詞按照預設規則進行篩選; 如果篩選出的實體詞未出現在實體庫中,則將所述實體詞添加到所述實體庫中,以擴 充所述實體庫。
2. 根據權利要求1所述的方法,其特征在于,所述資源庫為百科資源庫。
3. 根據權利要求2所述的方法,其特征在于,從所述結構化數據的預置含義字段的字 段內容中識別出實體詞的操作具體包括: 獲取所述結構化數據的預置含義字段的字段內容; 如果所述字段內容在所述資源庫中不存在內鏈接,則從所述字段內容中識別出實體 。
4. 根據權利要求1所述的方法,其特征在于,對所述實體詞按照預設規則進行篩選的 操作具體包括: 將符合下述至少一項的實體詞過濾掉:所述實體詞中字數大于預設閾值的實體詞、屬 于黑名單的實體詞、包含預設符號的實體詞、和屬于預設類型的實體詞。
5. 根據權利要求1所述的方法,其特征在于,在將所述實體詞添加到所述實體庫中的 操作之前,還包括:對所述實體詞進行去重處理。
6. -種擴充實體庫的裝置,其特征在于,包括: 結構化數據識別單元,用于從資源庫中獲取結構化數據; 實體詞識別單元,用于從所述結構化數據的預置含義字段的字段內容中識別出實體 詞; 實體詞篩選單元,用于對所述實體詞按照預設規則進行篩選; 實體詞添加單元,用于如果篩選出的實體詞未出現在實體庫中,則將所述實體詞添加 到所述實體庫中,以擴充所述實體庫。
7. 根據權利要求6所述的裝置,其特征在于,所述資源庫為百科資源庫。
8. 根據權利要求7所述的裝置,其特征在于,所述實體詞識別單元具體用于: 獲取所述結構化數據的預置含義字段的字段內容; 如果所述字段內容在所述資源庫中不存在內鏈接,則從所述字段內容中識別出實體 。
9. 根據權利要求6所述的裝置,其特征在于,所述實體詞篩選單元具體用于,將符合下 述至少一項的實體詞過濾掉:所述實體詞中字數大于預設閾值的實體詞、屬于黑名單的實 體詞、包含預設符號的實體詞、和屬于預設類型的實體詞。
10. 根據權利要求6所述的裝置,其特征在于,所述實體詞篩選單元還用于:在將所述 實體詞添加到所述實體庫中的操作之前,還包括:對所述實體詞進行去重處理。
【文檔編號】G06F17/30GK104102738SQ201410364026
【公開日】2014年10月15日 申請日期:2014年7月28日 優先權日:2014年7月28日
【發明者】梁爽 申請人:百度在線網絡技術(北京)有限公司