
本發明涉及信息提取及文本挖掘領域,特別涉及一種信息處理的方法及裝置。
背景技術:
:大部分企業在運作時都會產生大量的企業公文,企業的企業公文中包括大量有助于了解企業的有用信息。為了便于用戶快速了解企業,可以采用計算機從企業公文中提取有用信息并顯示給用戶。企業公文在撰寫時常常使用自然語言進行撰寫。在撰寫時為了避免文章中詞匯的重復使用,使文章更加簡潔、緊湊,在寫作中指示代詞會被頻繁使用。例如,某公司的企業公文中可能大量使用本公司這個指示代詞來代替該公司的公司名稱,由于公司名稱包括的文字數目往往較多,使用本公司代替公司名稱,使文章變的簡潔、緊湊。在實現本發明的過程中,發明人發現現有技術至少存在以下問題:由于企業公文包括大量的指示代詞,這樣計算機在對企業公文進行信息提取時,由于不知道指示代詞指代的對象是什么,給計算機對企業公文的分析增加難度,降低信息提取的效率和準確性。技術實現要素:為了提高信息提取的效率和準確性,本發明提供了一種信息處理的方法及裝置。所述技術方案如下:第一方面,提供了一種信息處理的方法,所述方法包括:通過分詞系統和實體識別系統標記非結構化文本文件中包括的指示代詞和實體機構的機構名稱;獲取所述指示代詞屬于的代詞分類;根據所述代詞分類和被標記的所述實體機構的機構名稱,確定所述指示代詞所指代的實體機構的機構名稱;在所述非結構化文本文件中將所述指示代詞替換為所述指示代詞所指代的實體機構的機構名稱。可選的,所述獲取所述指示代詞屬于的代詞分類,包括:確定所述指示代詞所屬于的指示代詞集合,所述指示代詞集合包括預設的至少一個指示代詞;根據所述指示代詞集合的集合標識,從集合標識與代詞分類的對應關系中獲取所述指示代詞屬于的代詞分類。可選的,所述根據所述代詞分類和被標記的所述實體機構的機構名稱,確定所述指示代詞所指代的實體機構的機構名稱,包括:當所述代詞分類為預指類全局有效代詞時,在所述非結構化文本文件中查找位于所述指示代詞之后的第一個被標記的機構名稱并確定為所述指示代詞所指代的實體機構的機構名稱;當所述代詞分類為回指類局部有效代詞時,在所述非結構化文本文件中查找位于所述指示代詞之前的第一個被標記的機構名稱并確定為所述指示代詞所指代的實體機構的機構名稱;當所述代詞分類為回指類全局有效代詞時,在所述非結構化文本文件中確定首次出現所述指示代詞的位置,查找位于所述位置之前的第一個被標記的機構名稱并確定為所述指示代詞所指代的實體機構的機構名稱。可選的,所述通過分詞系統和實體識別系統標記非結構化文本文件中包括的指示代詞和實體機構的機構名稱之后,還包括:根據預設的規則表達式識別所述非結構化文本文件包括的實體機構的簡稱和全稱,所述規則表達式定義了實體機構的簡稱對應的句式結構;將所述非結構化文本文件包括的所述實體機構的簡稱替換為所述實體機構的全稱。可選的,所述根據預設的規則表達式識別所述非結構化文本文件包括的實體機構的簡稱和全稱,包括:從所述非結構化文本文件中識別出所述預設的規則表達式所定義的句式結構的字符串,所述字符串包括實體機構的簡稱;從所述非結構化文本文件中查找位于所述字符串之前的第一個被標記的機構名稱并確定為所述實體機構的機構名稱為所述實體機構的全稱。第二方面,提供了一種信息處理的裝置,所述裝置包括:識別模塊,用于通過分詞系統和實體識別系統標記非結構化文本文件中包括的指示代詞和實體機構的機構名稱;獲取模塊,用于獲取所述指示代詞屬于的代詞分類;確定模塊,用于根據所述代詞分類和被標記的所述實體機構的機構名稱,確定所述指示代詞所指代的實體機構的機構名稱;替換模塊,用于在所述非結構化文本文件中將所述指示代詞替換為所述指示代詞所指代的實體機構的機構名稱。可選的,所述獲取模塊包括:第一確定單元,用于確定所述指示代詞所屬于的指示代詞集合,所述指示代詞集合包括預設的至少一個指示代詞;獲取單元,用于根據所述指示代詞集合的集合標識,從集合標識與代詞分類的對應關系中獲取所述指示代詞屬于的代詞分類。可選的,所述確定模塊包括:第二確定單元,用于當所述代詞分類為預指類全局有效代詞時,在所述非結構化文本文件中查找位于所述指示代詞之后的第一個被標記的機構名稱并確定為所述指示代詞所指代的實體機構的機構名稱;第三確定單元,用于當所述代詞分類為回指類局部有效代詞時,在所述非結構化文本文件中查找位于所述指示代詞之前的第一個被標記的機構名稱并確定為所述指示代詞所指代的實體機構的機構名稱;第四確定單元,用于當所述代詞分類為回指類全局有效代詞時,在所述非結構化文本文件中確定首次出現所述指示代詞的位置,查找位于所述位置之前的第一個被標記的機構名稱并確定為所述指示代詞所指代的實體機構的機構名稱。可選的,所述識別模塊,還用于根據預設的規則表達式識別所述非結構化文本文件包括的實體機構的簡稱和全稱,所述規則表達式定義了實體機構的簡稱對應的句式結構;所述替換模塊,還用于將所述非結構化文本文件包括的所述實體機構的簡稱替換為所述實體機構的全稱。可選的,所述識別模塊包括:識別單元,用于從所述非結構化文本文件中識別出所述預設的規則表達式所定義的句式結構的字符串,所述字符串包括實體機構的簡稱;查詢標記單元,用于從所述非結構化文本文件中查找位于所述字符串之前的第一個被標記的機構名稱并確定為所述實體機構的機構名稱為所述實體機構的全稱。第三方面,提供了一種計算機可讀存儲介質,存儲計算機程序,包括:用于通過分詞系統和實體識別系統標記非結構化文本文件中包括的指示代詞和實體機構的機構名稱的指令;用于獲取所述指示代詞屬于的代詞分類的指令;用于根據所述代詞分類和被標記的所述實體機構的機構名稱,確定所述指示代詞所指代的實體機構的機構名稱的指令;用于在所述非結構化文本文件中將所述指示代詞替換為所述指示代詞所指代的實體機構的機構名稱的指令。第四方面,提供了一種計算程序產品,所述計算機程序產品包括在所述計算機可讀存儲介質中存儲的所述計算機程序,并且所述計算程序通過處理器進行加載來實現如下的方法,包括:通過分詞系統和實體識別系統標記非結構化文本文件中包括的指示代詞和實體機構的機構名稱;獲取所述指示代詞屬于的代詞分類;根據所述代詞分類和被標記的所述實體機構的機構名稱,確定所述指示代詞所指代的實體機構的機構名稱;在所述非結構化文本文件中將所述指示代詞替換為所述指示代詞所指代的實體機構的機構名稱。本發明提供的技術方案的有益效果是:通過標記非結構化文本文件中包括的指示代詞和實體機構的機構名稱,獲取標記的指示代詞屬于的代詞分類,根據該代詞分類和被標記的實體機構的機構名稱,確定該指示代詞所指代的實體機構的機構名稱,在非結構化文本文件中將該指示代詞替換為該指示代詞所指代的實體機構的機構名稱。由于將非結構化文本文件中的每個指示代詞替換為各自所指代的實體機構的機構名稱,減少了對非結構化文本文件的分析難度,提高了信息提取的效率和準確性。附圖說明圖1是本發明實施例1提供的一種信息處理的方法流程圖;圖2-1是本發明實施例2提供的一種信息處理的方法流程圖;圖2-2是本發明實施例2提供的一種非結構化文本文件的示意圖;圖3-1是本發明實施例3提供的一種信息處理的方法流程圖;圖3-2是本發明實施例3提供的一種非結構化文本文件的示意圖;圖4是本發明實施例4提供的一種信息處理的裝置結構示意圖;圖5是本發明實施例5提供的一種終端設備的結構示意圖。具體實施方式為使本發明的目的、技術方案和優點更加清楚,下面將結合附圖對本發明實施方式作進一步地詳細描述。如下任一實施例的執行主體可以為服務器或終端等,終端可以為臺式計算機、筆記本電腦或平板電腦等。實施例1參見圖1,本發明實施例提供了一種信息處理的方法,所述方法包括:步驟101:通過分詞系統和實體識別系統標記非結構化文本文件中包括的指示代詞和實體機構的機構名稱。步驟102:獲取該指示代詞屬于的代詞分類。步驟103:根據該代詞分類和被標記的實體機構的機構名稱,確定該指示代詞所指代的實體機構的機構名稱。步驟104:在該非結構化文本文件中將該指示代詞替換為該指示代詞所指代的實體機構的機構名稱。可選的,上述步驟102可以包括:1021:確定該指示代詞所屬于的指示代詞集合,該指示代詞集合包括預設的至少一個指示代詞。1022:根據該指示代詞集合的集合標識,從集合標識與代詞分類的對應關系中獲取該指示代詞屬于的代詞分類。可選的,上述步驟103可以包括:1031:當該代詞分類為預指類全局有效代詞時,在非結構化文本文件中查找位于該指示代詞之后的第一個被標記的機構名稱并確定為該指示代詞所指代的實體機構的機構名稱。1032:當該代詞分類為回指類局部有效代詞時,在非結構化文本文件中查找位于該指示代詞之前的第一個被標記的機構名稱并確定為該指示代詞所指代的實體機構的機構名稱。1033:當該代詞分類為回指類全局有效代詞時,在非結構化文本文件中確定首次出現該指示代詞的位置,查找位于該位置之前的第一個被標記的機構名稱并確定為該指示代詞所指代的實體機構的機構名稱。可選的,在執行完步驟101之后,還包括:步驟105:根據預設的規則表達式識別非結構化文本文件包括的實體機構的簡稱和全稱,該規則表達式定義了實體機構的簡稱對應的句式結構。步驟106:將非結構化文本文件包括的實體機構的簡稱替換為實體機構的全稱。可選的,上述步驟105可以包括:1051:從非結構化文本文件中識別出預設的規則表達式所定義的句式結構的字符串,該字符串包括實體機構的簡稱。1052:從非結構化文本文件中查找位于該字符串之前的第一個被標記的機構名稱并確定為實體機構的機構名稱為實體機構的全稱。在本發明實施例中,通過標記非結構化文本文件中包括的指示代詞和實體機構的機構名稱,獲取標記的指示代詞屬于的代詞分類,根據該代詞分類和被標記的實體機構的機構名稱,確定該指示代詞所指代的實體機構的機構名稱,在非結構化文本文件中將該指示代詞替換為該指示代詞所指代的實體機構的機構名稱。由于將非結構化文本文件中的每個指示代詞替換為各自所指代的實體機構的機構名稱,減少了對非結構化文本文件的分析難度,提高了信息提取的效率和準確性。實施例2參見圖2,本發明實施例提供了一種信息處理的方法,該方法用于獲取非結構化文本文件包括的指示代詞和該指示代詞所指代的機構名稱,包括:步驟201:通過分詞系統和實體識別系統標記非結構化文本文件中包括的指示代詞和實體機構的機構名稱。分詞系統和實體識別系統都是目前已有的系統。非結構化文本文件是企業公文文件,非結構化文本文件包括文字等內容。例如,參見圖2-2所示的“北京###有限公司”的非結構化文本文件,該非結構化文本文件就是由文字組成。在本步驟中,將非結構化文本文件輸入到分詞系統中,通過分詞系統對非結構化文本文件中的文字進行分詞,然后將經過分詞的非結構化文本文件輸入到實體識別系統中,通過實體識別系統對非結構化文本文件包括的分詞一個一個地進行識別。對于任一個分詞,當實體識別系統識別出該分詞為實體機構的機構名稱時,在非結構化文本文件中可以給該分詞添加用于標記機構名稱的標記符號,當實體識別系統識別出該分詞為指示代詞時,在非結構化文本文件中可以給該分詞添加用于標記指示代詞的標記符號。例如,通過分詞系統對如圖2-2所示的非結構化文本文件包括的文字進行分詞,將該非結構化文本文件分成“在”、“2017年”、“4月”、“北京###有限公司”、“在”、“污水”、“處理”、“技術”、“取得”等多個分詞。然后將經過分詞的該非結構化文本文件輸入到實體識別系統,通過實體識別系統對分詞“在”、“2017年”、“4月”分詞進行一一識別,識別出均不是機構名稱,也均不是指示代詞。繼續通過實體識別系統對分詞“北京###有限公司”進行識別,識別出為機構名稱,在圖2-2所示的非結構化文本文件中給該分詞添加標記1,用于標記機構名稱。繼續通過實體識別系統對分詞“在”進行識別,識別出即不是機構名稱,又不是指示代詞。按上述流程對圖2-2所示的非結構化文本文件中的每個分詞進行識別,并在圖2-2所示的非結構化文本文件中添加了標記2、3、4、5、6、7和8,其中標記2、3、4、6和8,用于標記指示代詞,標記5和7用于標記機構名稱。所謂實體機構就是例如像企事業單位、公司、組織或網站等單位,所謂指示代詞用于表示指示概念的代詞,即用于指示或標識人或事物的代詞。就是用于指代實體機構的機構名稱的代詞。步驟202:對于非結構化文本文件中的任一個指示代詞,獲取該指示代詞屬于的代詞分類。指示代詞的代詞分類通常包括三種,分別為預指類全局有效代詞、回指類全局有效代詞和回指類局部有效代詞。所謂預指類全局有效代詞是預指某個接下來會提到的語言單位,該類型的指示代詞所指代的機構名稱的位置位于該指示代詞的位置之后;所謂回指類全局有效代詞是回指某個以前說到過的語言單位,該類型的指示代詞所指代的機構名稱的位置位于該指示代詞的位置之前且該指示代詞在整篇非結構化文本文件中用于指示該機構名稱;所謂回指類局部有效代詞是指指示代詞所指代的機構名稱的位置位于該指示代詞的位置之前且該指示代詞在非結構化文本文件中的一段或多段內容中用于指示該機構名稱。例如,參見圖2-2所示的非結構化文本文件,對于標記2和標記3所標記的指示代詞“本公司”就是一個回指類全局有效代詞,其所指代的實體機構的機構名稱“北京###有限公司”的位置位于指示代詞“本公司”之前,且指示代詞“本公司”在整篇非結構化文本文件中都指示機構名稱“北京###有限公司”。標記6所標記的指示代詞“該公司”和標記8所標記的指示代詞“該公司”均為回指類局部有效代詞。標記6標記的指示代詞“該公司”指代的實體機構的機構名稱“北京###朝陽分公司”的位置位于指示代詞“該公司”之前,且指示代詞“該公司”在該非結構化文本文件的第二段中都指示機構名稱“北京###朝陽分公司”。標記8標記的指示代詞“該公司”指代的實體機構的機構名稱“北京***網絡公司”的位置位于指示代詞“該公司”之前,且指示代詞“該公司”在該非結構化文本文件的第三段中都指示機構名稱“北京***網絡公司”。標記4所標記的指示代詞“子公司”為預指類全局有效代詞。標記4標記的指示代詞“子公司”指代的實體機構的機構名稱“北京###朝陽分公司”的位置位于指示代詞“子公司”之后,且指示代詞“子公司”在該非結構化文本文件中都指示機構名稱“北京###朝陽分公司”。每個代詞分類對應一個指示代詞集合,在執行本步驟之前,本領域的技術人員可以對大量的非結構化文本文件進行分析得到當前出現的指示代詞,對得到的每個指示代詞進行分類,將每個指示代詞添加到其所屬代詞分類對應的指示代詞集合中。每個指示代詞集合具有集合標識,對于每個代詞分類,事先將該代詞分類和該代詞分類對應的指示代詞集合的集合標識存儲在代詞分類與集合標識的對應關系中。指示代詞集合包括回指類全局有效代詞集合、回指類局部有效代詞集合和預指類全局有效代詞集合。參見下表1所示的代詞分類與集合標識的對應關系,回指類全局有效代詞集合的集合標識為id1且其對應的代詞分類為回指類全局有效代詞,回指類局部有效代詞集合的集合標識為id2且其對應的代詞分類為回指類局部有效代詞集合,預指類全局有效代詞集合的集合標識為id3且其對應的代詞分類為預指類全局有效代詞。表1代詞分類集合標識回指類全局有效代詞id1回指類局部有效代詞id2預指類全局有效代詞id3本步驟可以為:確定該指示代詞所屬于的指示代詞集合,該指示代詞集合包括預設的至少一個指示代詞;根據該指示代詞集合的集合標識,從集合標識與代詞分類的對應關系中獲取該指示代詞屬于的代詞分類。例如,對于標記2所示的指示代詞“本公司”,確定該指示代詞“本公司”所屬的回指類全局有效代詞集合,根據該回指類全局有效代詞集合的集合標識id1,從集合標識與代詞分類的對應關系中獲取該指示代詞“本公司”屬于的代詞分類為“回指類全局有效代詞”。再例如,對于標記4所示的指示代詞“子公司”,確定該指示代詞“子公司”所屬的預指類全局有效代詞集合,根據該預指類全局有效代詞集合的集合標識id3,從集合標識與代詞分類的對應關系中獲取該指示代詞“子公司”屬于的代詞分類為“預指類全局有效代詞”。還例如,對于標記6所示的指示代詞“該公司”,確定該指示代詞“該公司”所屬的回指類局部有效代詞集合,根據該回指類局部有效代詞集合的集合標識id2,從集合標識與代詞分類的對應關系中獲取該指示代詞“該公司”屬于的代詞分類為“回指類局部有效代詞”。步驟203:當該代詞分類為預指類全局有效代詞時,在非結構化文本文件中查找位于該指示代詞之后的第一個被標記的機構名稱并確定為該指示代詞所指代的實體機構的機構名稱。例如,對于標記4所標記的指示代詞“子公司”,在圖2-2所示的非結構化文本文件中查找位于該指示代詞“子公司”之后的第一個被標記的機構名稱,該機構名稱為標記5所標記的機構名稱“北京###朝陽分公司”,將該機構名稱“北京###朝陽分公司”確定為該指示代詞“子公司”所指代的實體機構的機構名稱。步驟204:當該代詞分類為回指類局部有效代詞時,在非結構化文本文件中查找位于該指示代詞之前的第一個被標記的機構名稱并確定為該指示代詞所指代的實體機構的機構名稱。例如,對于標記6所標記的指示代詞“該公司”,在圖2-2所示的非結構化文本文件中查找位于該指示代詞“該公司”之前的第一個被標記的機構名稱,該機構名稱為標記5所標記的機構名稱“北京###朝陽分公司”,將該機構名稱“北京###朝陽分公司”確定為該指示代詞“該公司”所指代的實體機構的機構名稱。步驟205:當該代詞分類為回指類全局有效代詞時,在非結構化文本文件中確定首次出現該指示代詞的位置,查找位于該位置之前的第一個被標記的機構名稱并確定為該指示代詞所指代的實體機構的機構名稱。例如,對于標記2所標記的指示代詞“本公司”,在圖2-2所示的非結構化文本文件中查找首次出現該指示代詞“本公司”的位置,該位置為標記2所標記的指示代詞的位置,在該位置之前的第一個被標記的機構名稱,該機構名稱為標記1所標記的機構名稱“北京###分公司”,將該機構名稱“北京###分公司”確定為該指示代詞“本公司”所指代的實體機構的機構名稱。按上述202至205的步驟,獲取非結構化文本文件中標記的每個指示代詞所指代的實體機構的機構名稱。步驟206:在非結構化文本文件中將該指示代詞替換為該指示代詞所指代的實體機構的機構名稱。其中,獲取的機構名稱可能為實體機構的簡稱,所以在本實施例,還可以對每個獲取的機構名稱進行歸一化得到實體機構的全稱,然后在非結構化文本文件中將該指示代詞替換為該指示代詞所指代的實體機構的全稱。該歸一化操作可以為,將該獲取的機構名稱作為簡稱,從已存儲的實體機構的簡稱與全稱的對應關系中獲取對應的全稱,將該獲取的全稱作為該指示代詞所指代的實體機構的全稱。可選的,上述步驟206可包括:當該代詞分類為預指類全局有效代詞時,在確定該指示代詞所指代的實體機構的機構名稱之后,執行機構名稱歸一化,將當前代詞內容替換為歸一化處理后的機構名稱,然后執行后向輪詢迭代,迭代替換文章中該代詞之后位置出現的該代詞內容,改為歸一化處理后的機構名稱。當該代詞分類為回指類全局有效代詞時,在確定該指示代詞所指代的實體機構的機構名稱之后,執行機構名稱歸一化,然后將文章中所有該代詞內容替換為歸一化處理后的機構名稱。在本發明實施例中,通過標記非結構化文本文件中包括的指示代詞和實體機構的機構名稱,獲取標記的指示代詞屬于的代詞分類,根據該代詞分類和被標記的實體機構的機構名稱,確定該指示代詞所指代的實體機構的機構名稱,在非結構化文本文件中將該指示代詞替換為該指示代詞所指代的實體機構的機構名稱。由于將非結構化文本文件中的每個指示代詞替換為各自所指代的實體機構的機構名稱,減少了對非結構化文本文件的分析難度,提高了信息提取的效率和準確性。實施例3參見圖3,本發明實施例提供了一種信息處理的方法,該方法用于獲取非結構化文本文件包括的機構名稱的簡稱和全稱,包括:步驟301:通過分詞系統和實體識別系統標記非結構化文本文件中包括的指示代詞和實體機構的機構名稱。本步驟的詳細實現過程可以參見步驟201中的相關內容,在此不再詳細說明。步驟302:根據預設的規則表達式,從非結構化文本文件中識別出該規則表達式所定義的句式結構的文本內容,該文本內容包括實體機構的簡稱。預設的規則表達式定義了實體機構的簡稱對應的句式結構。例如,參見圖3-2所示的非結構化文本文件,該非結構化文本文件中的文字內容“(下稱北京###)”就是實體機構的簡稱對應的句式結構,該文本內容包括實體結構的簡稱“北京###”。再如,該非結構化文本文件中的文字內容“(下稱北京***或北京網絡)”的句式結構也是實體機構的簡稱對應的句式結構,該文本內容包括實體結構的簡稱“北京***”和“北京網絡”。預設的規則表達式可以為“(\\(|().{0,5}?(稱).{0,20}?(\\)|))”和“(\\(|().{0,5}?(稱).{0,20}?(或|、).{0,20}?(\\)|))”等。對于規則表達式“(\\(|().{0,5}?(稱).{0,20}?(\\)|))”,這個規則表達式定義了一種句式結構的文本內容。在該句式結構的文本內容中包括文字“稱”,在文字“稱”之前具有一個英文或中文的左括號,在文字“稱”與該左括號之間包括的文字數目可以大于或等于0且小于或等于5;在文字“稱”之后具有一個英文或中文的右括號,在該文字“稱”和該右括號之間包括的文字數目可以大于或等于0且小于或等于20。例如,“(下稱北京###)”就是該規則表達式定義的句式結構的文本內容,該文本內容包括文字“稱”,在文字“稱”之前包括中文左括號,在中文左括號與該文字“稱”之間包括1個文字“下”;在文字“稱”之后包括中文右括號,在該文字“稱”和中文右括號之間包括5個文字“北京###”。對于規則表達“(\\(|().{0,5}?(稱).{0,20}?(或|、).{0,20}?(\\)|))”,這個規則表達式定義了另一種句式結構的文本內容。在該句式結構的文本內容中包括文字“稱”和預設字符,預設字符位于該文字“稱”之后,預設字符可以為文字“或”或頓號;在文字“稱”之前具有一個英文或中文的左括號,在文字“稱”與該左括號之間包括的文字數目可以大于或等于0且小于或等于5;在該文字“稱”和預設字符之間包括的文字數目可以大于或等于0且小于或等于20;在預設字符之后具有一個英文或中文的右括號,在預設字符和該右括號之間包括的文字數目可以大于或等于0且小于或等于20。例如,“(下稱北京***或北京網絡)”就是該規則表達式定義的句式結構的文本內容,該文本內容包括文字“稱”和預設字符“或”,預設字符“或”位于文字“稱”之后;在文字“稱”之前包括中文左括號,在中文左括號與該文字“稱”之間包括1個文字“下”;在該文字“稱”和預設字符“或”之間包括的5個文字“北京***”;在預設字符“或”之后包括中文右括號,在該預設字符“或”和中文右括號之間包括4個文字“北京網絡”。本步驟的可以為:在非結構化文本文件包括的第一個文字前設置分析窗口,每向該分析窗口中輸入一字符時利用預設的規則表達式分析該分析窗口中的文本內容是否為該規則表達式所定義的句式結構的文本內容,如果是,則標記該文本內容。例如,在圖3-2所示的非結構化文本文件中,利用規則表達式識別出規則表達式所定義的句式結構的文本內容,包括標記2所示標記的文本內容“(下稱北京###)”和“(下稱北京***或北京網絡)”。步驟303:從該非結構化文本文件中查找位于該文本內容之前的第一個被標記的機構名稱并將該機構名稱確定為該實體機構的全稱。例如,對于文本內容“(下稱北京###)”,在圖3-2所示的非結構化文本文件中位于文本內容“(下稱北京###)”之前的第一個被標記的機構名稱為標記1所標記的機構名稱“北京###有限公司”。再如,對于文本內容“(下稱北京***或北京網絡)”,在圖3-2所示的非結構化文本文件中位于文本內容“(下稱北京***或北京網絡)”之前的第一個被標記的機構名稱為標記6所標記的機構名稱“北京***網絡公司”。步驟304:將該非結構化文本文件包括的該實體機構的簡稱替換為該實體機構的全稱。本實施例的方法在指代消解過程的共指消解步驟中,收集全稱與簡稱的對應關系,經人工校對后,正確的機構(全稱-簡稱)對應關系將會被收集儲存,這些數據可用于對機構全稱簡稱進行歸一化。在本發明實施例中,通過預設的規則表達式獲取非結構化文本文件中的實體機構的簡稱和全稱。然后將非結構化文本文件中的每個實體機構的簡稱替換為各自的全稱,從而減少了對非結構化文本文件的分析難度,提高了信息提取的效率和準確性。實施例4參見圖4,本發明實施例提供了一種信息處理的裝置400,所述裝置400包括:識別模塊401,用于通過分詞系統和實體識別系統標記非結構化文本文件中包括的指示代詞和實體機構的機構名稱;獲取模塊402,用于獲取所述指示代詞屬于的代詞分類;確定模塊403,用于根據所述代詞分類和被標記的所述實體機構的機構名稱,確定所述指示代詞所指代的實體機構的機構名稱;替換模塊404,用于在所述非結構化文本文件中將所述指示代詞替換為所述指示代詞所指代的實體機構的機構名稱。可選的,所述獲取模塊402包括:第一確定單元,用于確定所述指示代詞所屬于的指示代詞集合,所述指示代詞集合包括預設的至少一個指示代詞;獲取單元,用于根據所述指示代詞集合的集合標識,從集合標識與代詞分類的對應關系中獲取所述指示代詞屬于的代詞分類。可選的,所述確定模塊403包括:第二確定單元,用于當所述代詞分類為預指類全局有效代詞時,在所述非結構化文本文件中查找位于所述指示代詞之后的第一個被標記的機構名稱并確定為所述指示代詞所指代的實體機構的機構名稱;第三確定單元,用于當所述代詞分類為回指類局部有效代詞時,在所述非結構化文本文件中查找位于所述指示代詞之前的第一個被標記的機構名稱并確定為所述指示代詞所指代的實體機構的機構名稱;第四確定單元,用于當所述代詞分類為回指類全局有效代詞時,在所述非結構化文本文件中確定首次出現所述指示代詞的位置,查找位于所述位置之前的第一個被標記的機構名稱并確定為所述指示代詞所指代的實體機構的機構名稱。可選的,所述識別模塊401,還用于根據預設的規則表達式識別所述非結構化文本文件包括的實體機構的簡稱和全稱,所述規則表達式定義了實體機構的簡稱對應的句式結構;所述替換模塊404,還用于將所述非結構化文本文件包括的所述實體機構的簡稱替換為所述實體機構的全稱。可選的,所述識別模塊包括:識別單元,用于從所述非結構化文本文件中識別出所述預設的規則表達式所定義的句式結構的字符串,所述字符串包括實體機構的簡稱;查詢標記單元,用于從所述非結構化文本文件中查找位于所述字符串之前的第一個被標記的機構名稱并確定為所述實體機構的機構名稱為所述實體機構的全稱。在本發明實施例中,通過標記非結構化文本文件中包括的指示代詞和實體機構的機構名稱,獲取標記的指示代詞屬于的代詞分類,根據該代詞分類和被標記的實體機構的機構名稱,確定該指示代詞所指代的實體機構的機構名稱,在非結構化文本文件中將該指示代詞替換為該指示代詞所指代的實體機構的機構名稱。由于將非結構化文本文件中的每個指示代詞替換為各自所指代的實體機構的機構名稱,減少了對非結構化文本文件的分析難度,提高了信息提取的效率和準確性。實施例5圖5是根據一示例性實施例示出的一種終端設備500的框圖,該終端設備可以用于執行實施例1、實施例2或實施例3所示的方法。參照圖5,終端設備500可以包括以下一個或多個組件:處理組件502,存儲器504,電源組件506,多媒體組件508,音頻組件510,輸入/輸出(i/o)的接口512,傳感器組件514,以及通信組件516。處理組件502通常控制終端設備500的整體操作,諸如與顯示,電話呼叫,數據通信,相機操作和記錄操作相關聯的操作。處理組件502可以包括一個或多個處理器520來執行指令,以完成上述的方法的全部或部分步驟。此外,處理組件502可以包括一個或多個模塊,便于處理組件502和其他組件之間的交互。例如,處理組件502可以包括多媒體模塊,以方便多媒體組件508和處理組件502之間的交互。存儲器504被配置為存儲各種類型的數據以支持在終端設備500的操作。這些數據的示例包括用于在終端設備500上操作的任何應用程序或方法的指令,聯系人數據,電話簿數據,消息,圖片,視頻等。存儲器504可以由任何類型的易失性或非易失性存儲設備或者它們的組合實現,如靜態隨機存取存儲器(sram),電可擦除可編程只讀存儲器(eeprom),可擦除可編程只讀存儲器(eprom),可編程只讀存儲器(prom),只讀存儲器(rom),磁存儲器,快閃存儲器,磁盤或光盤。電源組件506為終端設備500的各種組件提供電力。電源組件506可以包括電源管理系統,一個或多個電源,及其他與為終端設備500生成、管理和分配電力相關聯的組件。多媒體組件508包括在所述終端設備500和用戶之間的提供一個輸出接口的屏幕。在一些實施例中,屏幕可以包括液晶顯示器(lcd)和觸摸面板(tp)。如果屏幕包括觸摸面板,屏幕可以被實現為觸摸屏,以接收來自用戶的輸入信號。觸摸面板包括一個或多個觸摸傳感器以感測觸摸、滑動和觸摸面板上的手勢。所述觸摸傳感器可以不僅感測觸摸或滑動動作的邊界,而且還檢測與所述觸摸或滑動操作相關的持續時間和壓力。在一些實施例中,多媒體組件508包括一個前置攝像頭和/或后置攝像頭。當終端設備500處于操作模式,如拍攝模式或視頻模式時,前置攝像頭和/或后置攝像頭可以接收外部的多媒體數據。每個前置攝像頭和后置攝像頭可以是一個固定的光學透鏡系統或具有焦距和光學變焦能力。音頻組件510被配置為輸出和/或輸入音頻信號。例如,音頻組件510包括一個麥克風(mic),當終端設備500處于操作模式,如呼叫模式、記錄模式和語音識別模式時,麥克風被配置為接收外部音頻信號。所接收的音頻信號可以被進一步存儲在存儲器504或經由通信組件516發送。在一些實施例中,音頻組件510還包括一個揚聲器,用于輸出音頻信號。i/o接口512為處理組件502和外圍接口模塊之間提供接口,上述外圍接口模塊可以是鍵盤,點擊輪,按鈕等。這些按鈕可包括但不限于:主頁按鈕、音量按鈕、啟動按鈕和鎖定按鈕。傳感器組件514包括一個或多個傳感器,用于為終端設備500提供各個方面的狀態評估。例如,傳感器組件514可以檢測到終端設備500的打開/關閉狀態,組件的相對定位,例如所述組件為終端設備500的顯示器和小鍵盤,傳感器組件514還可以檢測終端設備500或終端設備500一個組件的位置改變,用戶與終端設備500接觸的存在或不存在,終端設備500方位或加速/減速和終端設備500的溫度變化。傳感器組件514可以包括接近傳感器,被配置用來在沒有任何的物理接觸時檢測附近物體的存在。傳感器組件514還可以包括光傳感器,如cmos或ccd圖像傳感器,用于在成像應用中使用。在一些實施例中,該傳感器組件514還可以包括加速度傳感器,陀螺儀傳感器,磁傳感器,壓力傳感器或溫度傳感器。通信組件516被配置為便于終端設備500和其他設備之間有線或無線方式的通信。終端設備500可以接入基于通信標準的無線網絡,如wifi,2g或3g,或它們的組合。在一個示例性實施例中,通信組件516經由廣播信道接收來自外部廣播管理系統的廣播信號或廣播相關信息。在一個示例性實施例中,所述通信組件516還包括近場通信(nfc)模塊,以促進短程通信。例如,在nfc模塊可基于射頻識別(rfid)技術,紅外數據協會(irda)技術,超寬帶(uwb)技術,藍牙(bt)技術和其他技術來實現。在示例性實施例中,終端設備500可以被一個或多個應用專用集成電路(asic)、數字信號處理器(dsp)、數字信號處理設備(dspd)、可編程邏輯器件(pld)、現場可編程門陣列(fpga)、控制器、微控制器、微處理器或其他電子元件實現,用于執行上述方法。在示例性實施例中,還提供了一種包括指令的非臨時性計算機可讀存儲介質,例如包括指令的存儲器504,上述指令可由終端設備500的處理器520執行以完成上述方法。例如,所述非臨時性計算機可讀存儲介質可以是rom、隨機存取存儲器(ram)、cd-rom、磁帶、軟盤和光數據存儲設備等。一種非臨時性計算機可讀存儲介質,當所述存儲介質中的指令由終端設備500的處理器執行時,使得終端設備500能夠執行一種信息處理的方法,所述方法包括:通過分詞系統和實體識別系統標記非結構化文本文件中包括的指示代詞和實體機構的機構名稱;獲取所述指示代詞屬于的代詞分類;根據所述代詞分類和被標記的所述實體機構的機構名稱,確定所述指示代詞所指代的實體機構的機構名稱;在所述非結構化文本文件中將所述指示代詞替換為所述指示代詞所指代的實體機構的機構名稱。可選的,所述獲取所述指示代詞屬于的代詞分類,包括:確定所述指示代詞所屬于的指示代詞集合,所述指示代詞集合包括預設的至少一個指示代詞;根據所述指示代詞集合的集合標識,從集合標識與代詞分類的對應關系中獲取所述指示代詞屬于的代詞分類。可選的,所述根據所述代詞分類和被標記的所述實體機構的機構名稱,確定所述指示代詞所指代的實體機構的機構名稱,包括:當所述代詞分類為預指類全局有效代詞時,在所述非結構化文本文件中查找位于所述指示代詞之后的第一個被標記的機構名稱并確定為所述指示代詞所指代的實體機構的機構名稱;當所述代詞分類為回指類局部有效代詞時,在所述非結構化文本文件中查找位于所述指示代詞之前的第一個被標記的機構名稱并確定為所述指示代詞所指代的實體機構的機構名稱;當所述代詞分類為回指類全局有效代詞時,在所述非結構化文本文件中確定首次出現所述指示代詞的位置,查找位于所述位置之前的第一個被標記的機構名稱并確定為所述指示代詞所指代的實體機構的機構名稱。可選的,所述通過分詞系統和實體識別系統標記非結構化文本文件中包括的指示代詞和實體機構的機構名稱之后,還包括:根據預設的規則表達式識別所述非結構化文本文件包括的實體機構的簡稱和全稱,所述規則表達式定義了實體機構的簡稱對應的句式結構;將所述非結構化文本文件包括的所述實體機構的簡稱替換為所述實體機構的全稱。可選的,所述根據預設的規則表達式識別所述非結構化文本文件包括的實體機構的簡稱和全稱,包括:從所述非結構化文本文件中識別出所述預設的規則表達式所定義的句式結構的字符串,所述字符串包括實體機構的簡稱;從所述非結構化文本文件中查找位于所述字符串之前的第一個被標記的機構名稱并確定為所述實體機構的機構名稱為所述實體機構的全稱。在本發明實施例中,通過標記非結構化文本文件中包括的指示代詞和實體機構的機構名稱,獲取標記的指示代詞屬于的代詞分類,根據該代詞分類和被標記的實體機構的機構名稱,確定該指示代詞所指代的實體機構的機構名稱,在非結構化文本文件中將該指示代詞替換為該指示代詞所指代的實體機構的機構名稱。由于將非結構化文本文件中的每個指示代詞替換為各自所指代的實體機構的機構名稱,減少了對非結構化文本文件的分析難度,提高了信息提取的效率和準確性。本領域普通技術人員可以理解實現上述實施例的全部或部分步驟可以通過硬件來完成,也可以通過程序來指令相關的硬件完成,所述的程序可以存儲于一種計算機可讀存儲介質中,上述提到的存儲介質可以是只讀存儲器,磁盤或光盤等。以上所述僅為本發明的較佳實施例,并不用以限制本發明,凡在本發明的精神和原則之內,所作的任何修改、等同替換、改進等,均應包含在本發明的保護范圍之內。當前第1頁12