麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

利用語句的加權流行數據來管理文檔的方法與系統的制作方法

文檔序號:6438229閱讀:209來源:國知局
專利名稱:利用語句的加權流行數據來管理文檔的方法與系統的制作方法
技術領域
本發明的實施方式總體上涉及計算機系統,更特別地涉及執行對文檔中語句的語義處理的計算機系統。
背景技術
計算機系統一般包括計算機程序和硬件的組合,其中硬件例如半導體、晶體管、芯片、電路板、存儲設備和處理器。計算機程序存儲在存儲設備中并且由處理器執行。從根本上講,計算機系統用于存儲、操縱和分析數據。兩種不同類型的數據是結構化數據和非結構化數據。結構化數據具有描述數據格式并且有助于賦予數據意義的數據模型、數據模式(schema)或者數據結構。結構化數據的一個例子是具有記錄和字段的數據庫,例如具有名稱字段、地址字段和電話號碼字段的記錄。字段描述記錄的組織并且有助于賦予存儲在記錄中的數據意義。非結構化數據不具有數據模型或者是具有不容易使用的數據模型。非結構化數據的例子包括文檔,例如字處理文檔、電子郵件、文章或者文件,其包含文本、散文或者可以轉換成文本的音頻演講。存在專門的工具來找出非結構化數據中的模式、解釋非結構化數據、對非結構化數據分配意義或者給出非結構化數據的結構。一個這種工具是可以從國際商用機器公司獲得的非結構化信息管理體系結構(UIMA)架構,這個工具提供了用于處理非結構化信息以便從非結構化信息提取意義并創建結構化數據的公共架構。

發明內容
提供了方法、計算機可讀存儲介質和計算機系統。在一種實施方式中,針對相應語句中的相應關系確定相應的強度。與自相應語句添加到文檔時起的相應時間量成比例地減小用于相應語句的權值(weight)。針對文檔子集中修改過的語句子集增加權值。針對相應語句在相應的時間段上計算加權流行(prevalence)數據,作為針對具有相應強度的所述相應語句在時間段內用于那些語句的權值之和。


圖1繪出了用于實現本發明實施方式的示例系統的高級框圖。圖2繪出了根據本發明實施方式的顯示流行圖的用戶I/O設備的框圖。圖3繪出了根據本發明實施方式的用于主題數據的示例數據結構的框圖。圖4繪出了根據本發明實施方式的用于權值數據的示例數據結構的框圖。圖5繪出了根據本發明實施方式的用于流行數據的示例數據結構的框圖。圖6繪出了根據本發明實施方式的用于創建主題數據的示例處理的流程圖。圖7繪出了根據本發明實施方式的用于更新權值數據和主題數據的示例處理的流程圖。圖8繪出了根據本發明實施方式的用于創建流行數據的示例處理的流程圖。
然而,應當指出,附圖僅僅例示了本發明的示例實施方式,因此不應當認為是對本發明其它實施方式的范圍的限制。
具體實施例方式參考附圖,其中貫穿若干視圖類似的編號都指示類似的部件,圖1繪出了根據本發明實施方式的經網絡130連接到客戶端計算機系統132的服務器計算機系統100的高級框圖表示。在此使用術語“服務器”僅僅是為了方便,而且在各種實施方式中,在一種環境下作為客戶端計算機運作的計算機系統在另一種環境下可以作為服務器計算機運作,反之亦然。本發明實施方式的機制和裝置同樣適用于任何合適的計算系統。計算機系統100的主要部件包括一個或多個處理器101、主存儲器102、終端接口 111、存儲接口 112、1/0(輸入/輸出)設備接口 113和網絡適配器114,所有這些部件都經存儲器總線103、I/O總線104和I/O總線接口單元105直接或者間接地通信耦合用于部件間的通信。計算機系統100包含一個或多個通用可編程中央處理單元(CPU)101A、101B、 IOlC和101D,在這里一般地稱為處理器101。在一種實施方式中,計算機系統100包含一般為相對大系統的多個處理器;然而,在另一種實施方式中,計算機系統100可以另選地是單 CPU系統。每個處理器101執行存儲在主存儲器102中的指令并且可以包括一級或者多級板上高速緩沖存儲器。在一種實施方式中,主存儲器102可以包括用于存儲或者編碼數據和程序的隨機存取半導體存儲器、存儲設備或者存儲介質。在另一種實施方式中,主存儲器102代表計算機系統100的整個虛擬存儲器,而且還可以包括耦合到計算機系統100或者經網絡130連接的其它計算機系統的虛擬存儲器。主存儲器102從概念上講是單個整塊實體,但是在其它實施方式中主存儲器102是更復雜的布置,例如高速緩沖存儲器和其它存儲器設備的分級結構。例如,存儲器可以存在于多級高速緩沖存儲器中,而且這些高速緩沖存儲器可以進一步通過功能來劃分,使得一個高速緩沖存儲器保持指令,而另一個高速緩沖存儲器保持由一個或多個處理器使用的非指令數據。存儲器可以進一步是分布式的并且與不同的CPU 或者CPU集合相關聯,如在各種所謂的非一致性存儲器訪問(NUMA)計算機體系結構中的任何一種中已知的。主存儲器102存儲或者編碼文檔150、主題數據152、權值數據154、流行數據156 和控制器158。盡管文檔150、主題數據152、權值數據154、流行數據156和控制器158被例示為包含在計算機系統100的存儲器102中,但是在其它實施方式中,它們中的一些或者全部可以在不同的計算機系統上而且可以例如通過網絡130遠程訪問。計算機系統100可以使用虛擬尋址機制,這種機制允許計算機系統100的程序表現為就象它們僅訪問大的單個存儲實體,而不是訪問多個小的存儲實體。因此,盡管文檔150、主題數據152、權值數據 154、流行數據156和控制器158被例示為包含在主存儲器102中,但是這些元素不必相同全都完全地包含在相同的存儲設備中。另外,盡管文檔150、主題數據152、權值數據154、流行數據156和控制器158被例示為分開的實體,但是在其它實施方式中,它們中的一些、它們中一些的部分或者它們全部都可以打包到一起。在一種實施方式中,控制器158包括在處理器101上執行的指令或語句,或者由在處理器101上執行的指令或語句解釋的指令或語句,以便執行如以下參考圖2、3、4、5、6、7和8進一步描述的功能。在另一種實施方式中,控制器158是代替基于處理器的系統或者作為其的附加,經半導體器件、芯片、邏輯門、電路、電路板和/或其它物理硬件設備在硬件中實現的。在一種實施方式中,除指令或語句之外,控制器158還包括數據。在各種實施方式中,控制器158是用戶應用程序、第三方應用程序、操作系統或者其任意部分、多個或者組合。在一種實施方式中,控制器158包括文本分析引擎。文本分析引擎解析文檔150, 來識別特定的概念、演講的語法部分、正確的名稱等,并識別文檔150中趨于指示那些概念之間的上下文關系的相關概念。可以使用適合于特定知識領域(例如,醫學、金融等等)的不同文本分析工具。文本分析引擎可以使用自然語言搜索、模糊搜索和數據挖掘技術,來執行對文檔150的語義分析。文檔150包括文本字符的一個或多個文檔,其中文本字符組成詞、短語、句子、句子片段、標點符號或者其任意部分、多個或者組合。文檔150還可以包括音頻、視頻或者圖形。在各種實施方式中,文檔150可以包括結構化信息和非結構化信息的組合。例如,非結構化信息可以打包到具有某種結構的對象(例如,文件和文檔)中,而且,除了非結構化文本之外,文檔還可以包括格式化或者標記標簽。存儲器總線103提供了用于在處理器101、主存儲器102和I/O總線接口單元105 之間傳輸數據的數據通信路徑。I/O總線接口單元105進一步耦合到系統I/O總線104,用于把數據傳輸到不同的I/O單元或者從其傳輸數據。I/O總線接口單元105通過系統I/O 總線104與多個I/O接口單元111、112、113和114通信,這些I/O接口單元也稱為I/O處理器(IOP)或者I/O適配器(Ι0Α)。I/O接口單元支持與各種儲存器和I/O設備的通信。 例如,終端接口單元111支持一個或多個用戶I/O設備121的附連,其中用戶I/O設備121 可以包括用戶輸出設備(例如,視頻顯示設備、揚聲器和/或電視機)和用戶輸入設備(例如,鍵盤、鼠標、鍵區、觸摸板、軌跡球、按鈕、光筆或者其它指向設備)。用戶可以利用用戶接口操縱用戶輸入設備,以便將輸入數據和命令提供給用戶I/O設備121和計算機系統100, 而且還可以經用戶輸出設備接收輸出數據。例如,用戶接口可以經用戶I/O設備121給出, 例如顯示在顯示設備上、經揚聲器播放或者經打印機打印。存儲接口單元112支持一個或多個盤驅動器或者輔助存儲設備125的附連。在一種實施方式中,輔助存儲設備125是轉動式磁盤驅動器存儲設備,但在其它實施方式中,它們可以是配置成對主計算機來說看起來象單個大存儲設備的盤驅動器陣列,或者是任何其它類型的存儲設備。根據需要,主存儲器102的內容,或者其任意部分,可以存儲到輔助存儲設備125以及從其檢索。在一種實施方式中,輔助存儲設備125存儲更多的數據而且比存儲器102具有更慢的訪問時間,這意味著從/向存儲器102讀/寫數據所需的時間比從 /向輔助存儲設備125讀/寫數據所需的時間少。I/O設備接口 113為各種其它輸入/輸出設備或者其它類型的設備(例如,打印機或者傳真機)的任何一種提供接口。網絡適配器114提供從計算機系統100到其它數字設備和計算機系統132的一條或多條通信路徑;這種路徑可以包括例如一個或多個網絡130。 盡管存儲器總線103在圖1中示出為相對簡單的單個總線結構,用以在處理器101、主存儲器102和I/O總線接口 105之間提供直接的通信路徑,但實際上存儲器總線103可以包括多條不同的總線或者通信路徑,它們可以布置在多種形式的任何一種中,例如分級結構中的點到點鏈接、星形或者網狀配置、多個分級總線、并行和冗余路徑或者任何其它適當類型的配置。此外,盡管I/O總線接口 105和I/O總線104示出為單個相應的單元,但計算機100 實際上可以包含多個I/O總線接口單元105和/或多個I/O總線104。盡管示出了多個I/ 0接口單元,這些接口單元將系統I/O總線104與到達各種I/O設備的各種通信路徑隔開, 但是在其它實施方式中,所述I/O設備中的一些或者全部直接連接到一條或多條系統I/O 總線。在各種實施方式中,計算機系統100是多用戶大型機計算機系統、單用戶系統或者具有很少或者沒有直接用戶接口但是從其它計算機系統(客戶端)接收請求的服務器計算機或類似設備。在其它實施方式中,計算機系統100實現為臺式計算機、便攜式計算機、 膝上型或者筆記本計算機、平板式計算機、袖珍計算機、電話機、智能電話、尋呼機、汽車、電話會議系統、器件或者任何其它合適類型的電子設備。網絡130可以是任何合適的網絡或者網絡的組合,而且可以支持向/自計算機系統100和計算機系統132傳送數據和/或代碼的任何適當協議。在各種實施方式中,網絡 130可以代表直接或者間接地連接到計算機系統100的存儲設備或者存儲設備的組合。在另一種實施方式中,網絡130可以支持無線通信。在另一種實施方式中,網絡130可以支持硬連線的通信,例如電話線或者電纜。在另一種實施方式中,網絡130可以是互聯網而且可以支持IP (互聯網協議)。在另一種實施方式中,網絡130被實現為局域網(LAN)或者廣域網(WAN)。在另一種實施方式中,網絡130被實現為熱點服務提供商網絡。在另一種實施方式中,網絡130被實現為內聯網。在另一種實施方式中,網絡130被實現為任何適當的蜂窩數據網絡、基于單元的無線電網絡技術或者無線網絡。在另一種實施方式中,網絡130被實現為任何合適的網絡或者網絡的組合。盡管示出了一個網絡130,但是在其它實施方式中可以給出任意數量(相同或者不同類型)的網絡。在一種實施方式中,客戶端計算機132可以包括服務器計算機100的一些或者全
部元素。圖1是要繪出計算機系統100和網絡130的代表性主要部件。但是,單個部件可以具有比圖1中所表示的更高的復雜性、可以給出不同于圖1中所示的部件或者另外給出, 而且這種部件的數量、類型和配置可以變化。在此公開此類附加的復雜性或者附加的變體的幾個特定示例;這些僅僅是作為示例而且不必僅是此類變體。圖1中所例示的并且實現了本發明各種實施方式的各種程序部件可以按照多種方式實現,包括利用各種計算機應用程序、例程、部件、程序、對象、模塊、數據結構等,而且在下文中稱為“計算機程序”或者簡單地稱為“程序”。計算機程序包括一個或多個指令或者語句,這些指令或者語句在不同的時間駐留在計算機系統100中不同的存儲器和存儲設備中,而且當被計算機系統100中的一個或多個處理器讀取并執行時或者當被由一個或多個處理器執行的指令解釋時,使計算機系統 100實現執行包括本發明實施方式各方面的步驟或者元素所需的動作。本發明的實施方式的各方面可以體現為系統、方法或者計算機程序產品。相應地,本發明實施方式的各方面可以采取完全硬件實施、完全程序實施(包括存儲在存儲設備中的固件、駐留程序、微代碼等)或者組合程序與硬件方面的實施的形式,它們在這里一般性地稱為“電路”、“模塊”或者“系統”。另外,本發明的實施方式可以采取體現在一個或多個計算機可讀介質中的計算機程序產品的形式,這些計算機可讀介質上包括計算機可讀程序代碼。可以采用一種或多種計算機可讀介質的任意組合。計算機可讀介質可以是計算機可讀信號介質或者計算機可讀存儲介質。計算機可讀存儲介質可以是例如但不限于電的、 磁的、光的、電磁的、紅外的或者半導體的系統、裝置或設備,或者以上所述的任何合適組合。計算機可讀存儲介質的更具體的示例(非窮盡列表)可以包括具有一條或多條電線的電連接、便攜式計算機盤、硬盤(例如,輔助存儲設備12 、隨機存取存儲器(RAM)(例如, 存儲器10 、只讀存儲器(ROM)、可擦可編程只讀存儲器(EPROM)或者閃存、光纖、便攜式緊湊盤只讀存儲器(⑶-ROM)、光存儲設備、磁存儲設備,或者以上所述的任何合適組合。在本文檔的背景下,計算機可讀存儲介質可以是任何可以包含或存儲由指令執行系統、裝置或設備使用或者與之關聯使用的程序的有形介質。計算機可讀信號介質可以包括例如在基帶中或者作為載波的一部分的、其上包括計算機可讀程序代碼的傳播數據信息。這種傳播信號可以采取多種形式中的任何一種,包括但不限于,電磁、光或者其任何合適組合。計算機可讀信號介質可以是非計算機可讀存儲介質而且能夠傳送、傳播或者運輸由指令執行系統、裝置或設備使用或者與之關聯使用的程序的任何計算機可讀介質。包括在計算機可讀介質上的程序代碼可以利用任何合適的介質發送,包括但不限于無線、有線線路、光纖線纜、射頻等等,或者以上所述的任何合適組
I=I O用于執行本發明實施方式各方面的操作的計算機程序代碼可以用一種或多種編程語言的任何組合來寫,所述編程語言包括面向對象的編程語言及傳統的過程式編程語。 程序代碼可以完全在用戶的計算機上、部分地在遠端計算機上或者完全在遠端計算機或服務器上執行。在后一種場景下,遠端計算機可以通過任何類型的網絡連接到用戶的計算機, 所述網絡包括局域網(LAN)或者廣域網(WAN),或者可以連接到外部計算機(例如,通過利用互聯網服務提供商的互聯網)。以下參考對方法、裝置(系統)和計算機程序產品的流程圖例示和/或框圖來描述本發明的實施方式的各方面。流程圖例示和/或框圖中的每個塊,及流程圖例示和/或框圖中塊的組合,可以由包括在計算機可讀介質中的計算機程序指令來實現。這些計算機程序指令可以提供給通用計算機、專用計算機或者其它可編程數據處理裝置的處理器來產生機器,使得經計算機的處理器或者其它可編程數據處理裝置執行的指令生成用于實現流程圖和/或框圖的一個或多個塊中所指定的功能/動作的裝置。這些計算機程序指令也可以存儲在計算機可讀介質中,其中指令可以指示計算機、其它可編程數據處理裝置或者其它設備以特定的方式運行,使得存儲在計算機可讀介質中的指令產生包括實現流程圖和/ 或框圖的一個或多個塊中所指定的功能/動作的指令的制造品。定義本發明各種實施方式的功能的計算機程序可以經多種可以操作性或通信性連接(直接或者間接)到一個或多個處理器的有形計算機可讀存儲介質遞送到計算機系統。計算機程序指令也可以加載到計算機、其它可編程數據處理裝置或者其它設備上,使得在計算機、其它可編程裝置或者其它設備上執行一系列操作步驟,以產生計算機實現的處理,使得在計算機或者其它可編程裝置上執行的指令提供用于實現流程圖和/或框圖的一個或多個塊中所指定的功能/動作的處理。附圖中的流程圖和框圖例示了根據本發明各種實施方式的系統、方法和計算機程序產品的可能實現的體系結構、功能性和操作。就此而言,流程圖或框圖中的每一個塊都可以代表一個模塊、片段或者代碼部分,這包括用于實現指定邏輯功能的一個或多個可執行指令。在有些實施方式中,塊中所指出的功能可以不按照圖中所指出的次序發生。例如,依賴于所涉及的功能性,順序示出的兩個塊實際上可以基本上同時執行,或者塊有時候可以按照顛倒的次序執行。框圖和/或流程圖例示中的每一個塊,及框圖和/或流程圖例示中塊的組合,可以由執行指定功能或者動作的專用的基于硬件的系統結合專用硬件和計算機指令來實現。本發明的實施方式還可以作為與客戶公司、非盈利組織、政府實體或者內部組織結構的服務約定的一部分來遞送。這些實施方式的各方面可以包括將計算機系統配置成執行實現在此描述的一些或全部方法的計算服務(例如,計算機可讀代碼、硬件和網絡服務),以及部署所述計算服務。這些實施方式的各方面還可以包括分析客戶公司、響應于所述分析而創建建議、生成實現所述建議的部分的計算機可讀代碼、將所述計算機可讀代碼集成到現有處理、計算機系統和計算體系結構中、測量在此所述的方法與系統的使用、將花銷分攤到用戶并且針對用戶使用這些方法與系統而給他們開賬單。此外,下文中所述的各種程序可以基于在本發明具體實施方式
中為其實現的應用來識別。但是,以下的任何特定程序術語都僅僅是為了方便而使用的,由此本發明的實施方式不限于僅在由這些術語識別和/或暗示的任何具體應用中使用。圖1中所例示的示例環境不是要限定本發明。實際上, 在不背離本發明實施方式的范圍的情況下,可以采用其它另選的硬件和/或程序環境。圖2繪出了根據本發明實施方式的顯示流行圖200的用戶I/O設備121的框圖。 流行圖200是利用三維坐標系統的兩維繪圖來例示的,其中加權流行數據在y軸(垂直軸)204上,語句的強度在ζ軸206上,而時間段在1軸(水平軸)202上例示。由此,線208、 210和212上的每個點都經三個數字坐標值代表一個語句(該語句包括主題A和主題B) 在特定時間段期間一個強度值的加權流行數據值。加權流行數據是(文檔150中存在的) 包括主題A到主題B的關系的語句的(加權)數。該強度表征作者對語句中所陳述的關系的觀點的強度或者確信。時間段是該強度和(加權)流行在文檔150中存在的時間段。在一種實施方式中,流行圖200例示了隨著時間流逝對語句關系的比較,繪出了例如對于在文檔150的域中所做的語句哪個語句強度異常或者稀少(最不流行)及哪個語句強度更普通或者代表主導觀點(最流行)。示例流行圖200例示了具有主題A和主題B的語句包括在2008年具有主導中性的強度(具有最高加權流行的大致為零的強度)但隨著時間流逝變負的關系。圖3繪出了根據本發明實施方式的用于主題數據152的示例數據結構的框圖。主題數據152包括示例記錄302、304、306、308、310、312、314和316,其中每個記錄都包括示例標識符字段320、示例第一主題字段322、示例關系字段324、示例第二主題字段326、示例強度字段328、示例添加日期字段330、示例修改日期字段332和示例刪除日期字段334。標識符字段320可以唯一地識別文檔150中的語句。該標識符320可以通過識別文檔150中的行、語句或者句子個數、通過識別包括語句的文檔150、通過識別存儲文檔150 的目錄或者子目錄、通過識別存儲文檔150的網絡地址或者其任意組合,來唯一地識別語句。語句是文檔150中的句子或者句子片段,并且包括第一主題322、關系3M和第二主題 326。第一主題322和第二主題3 包括包含由在相同的記錄中的標識符320所識別出的文檔150中的名詞的名詞或者短語。在各種實施方式中,相同或者不同的作者可以創建、修改或者刪除文檔150中相同或者不同的語句。關系3 可以是動詞或者動詞短語,并且識別相同記錄中第一主題322和第二主題3 之間的關系、類別或者連接。關系的例子包括“是”、“不是”、“有”、“沒有”、“導致”、 “未導致”、“解決(cure)”、“為解決”和“無證據存在”。在各種實施方式中,關系3M可以識別因果關系、分級關系、連接關系、伴隨關系、量化關系、定性關系或者任何其它類型的關系。在一種實施方式中,強度3 是識別、表征或者描述相同記錄中的關系3M的強度 (strength)、顯著性、強烈程度(intensity)或者重要性的值,例如數字值。強度3 描述由語句的作者陳述的關系324,并且表征該作者關于第一主題322和第二主題3 之間的關系324的觀點的確信的量或程度。例如,記錄302中的強度3 是比記錄306中的強度 328更大的(更正性的)數,這是因為記錄302中的“導致”關系324比記錄306中的“可能導致”關系3M具有更高的作者確信或者確認度。類似地,記錄312中的強度3 是比記錄314中的強度3 更小(更高的絕對值)的數,這是因為記錄312中的“不是”關系324 比記錄314中的“可能不是”關系3M具有更高的作者確信或者確認度。記錄316中的強度328為零,這是因為該語句的作者通過關系“無證據存在”指示了相同記錄中的第一主題 322和第二主題3 之間的中性關系。中性關系的其它示例包括“不能得出結論”和“證據不足以支持決定”。在一種實施方式中,強度3 可以是正的、負的或者中性的。正的和負的強度識別相反的關系,而中性的強度在正的和負的強度之間。如果在兩個主題之間具有高正強度的第一個語句是真的,那么在那兩個主題之間具有高負(負號且具有高絕對值)強度(相反的強度)的第二個語句就是假的。如果在兩個主題之間具有高正強度的第一個語句是假的,那么在那兩個主題之間具有高負(負號且具有高絕對值)強度(相反的強度)的第二個語句就是真的。如果在兩個主題之間具有高負(負號且具有高絕對值)強度的第一個語句是真的,那么在那兩個主題之間具有高正強度(相反的強度)的第二個語句就是假的。如果在兩個主題之間具有高負(負號且具有高絕對值)強度的第一個語句是假的,那么在那兩個主題之間具有高正強度(相反的強度)的第二個語句就是真的。如果一個強度大于閾值數,那么它就是高度正的,而如果其小于另一個閾值數,就是高度負的。在其它實施方式中,對于強度328,可以使用任何范圍的數。添加日期字段330指定相同記錄中的語句添加到文檔150的日期。修改日期字段 332指定相同記錄中的語句在文檔150中被修改、更新或改變的日期,該語句隨后添加到文檔150。刪除日期字段334指定相同記錄中的語句從文檔150被刪除或者除去的日期。在各種實施方式中,日期可以包括世紀、十年、年、月、日、星期幾、時、分、秒或者其任意多個、 部分和/或組合。圖4繪出了根據本發明實施方式的用于權值數據154的示例數據結構的框圖。 權值數據 154 包括示例記錄 402、404、406、408、410、412、414、416、418、420、422、424、426、 428,430,432,434,436,438,440和442,其中每個記錄都包括示例標識符字段450、示例時間段字段452和示例權值字段454。標識符450識別文檔150中和主題數據152中的語句。 權值妨4指定在相同記錄中的相應時間段期間分配給由相同記錄中的標識符450識別出的語句的權值。在不同的時間段中,相同的語句可以具有相同或者不同的權值。在一種實施方式中,權值妨4表征控制器158對(由相同記錄中的標識符450識別出的)語句可靠性的評估。在另一種實施方式中,權值4M指定(在相同記錄中識別出的)語句為真的概率。 控制器158設置權值妨4并使用權值妨4來計算用于不同時間段的加權流行數據,如以下進一步描述的。圖5繪出了根據本發明實施方式的用于流行數據156的示例數據結構的框圖。流行數據156包括示例流行數據156-1和156-2,而且流行數據156 —般指流行數據156-1和 156-2。流行數據156-1和156-2用于主題的不同組合,而且主題的每種組合都可以具有其自己的流行數據,這可以彼此不同。用于主題A和B的流行數據156-1包括記錄502、504、506、508、510、512和514,其中每個記錄都包括示例強度字段520、示例加權流行字段522和示例時間段字段524。加權流行522指定在相同記錄中對應時間段5 期間具有或者分配有對應強度520的文檔150 中(包括主題A和B的)語句的加權數。時間段5M指定了時間的量或者跨度。在一種實施方式中,時間段5M指定了勾畫時間段的開始日期和結束日期。在各種實施方式中,日期可以包括世紀、十年、年、月、日、星期幾、時、分、秒或者其任意多個、部分和/或組合。例如,記錄502指定了 “+2”的強度520,"5. 1”的加權流行數據522和“2010”的時間段524,這指示主題數據152包括“5. 1”的(加權)記錄數(加權流行522),其中這些記錄在第一主題322和第二主題326中具有“A”和“B”,還指示具有“+2”的強度3 而且具有“2010”或者以后的添加日期值330。加權流行522可以指定主題數據152中的記錄的非整數個數,因此控制器158經權值數據巧4調整記錄的個數,如以下進一步描述的。圖6繪出了根據本發明實施方式的用于創建主題數據的示例處理的流程圖。控制在塊600開始。然后,控制繼續到塊605,在塊605,控制器158確定文檔150已經被改變。 在一種實施方式中,用戶經用戶I/O設備121請求文檔150的變化,其中用戶I/O設備121 將命令和數據發送到控制器158或者字處理器,而控制器158或者字處理器更新文檔150。 在另一種實施方式中,在處理器101上執行的程序改變文檔150,或者控制器158經網絡 130從客戶端計算機132接收命令和可選的數據。然后,控制繼續到塊610,在塊610,控制器158找出受文檔150的改變影響的語句,該語句包括兩個主題和一個關系。在一種實施方式中,控制器158經UIMA架構確定所找出的語句的主題與關系。在其它實施方式中,控制器158可以使用自然語言處理(NLP)、計算語言學、詞性標注(speech tagging)、話語分析、共指消解(co-referenceresolution)、 形態分割、命名實體識別(NER)、光學字符識別(OCR)、解析樹的語法解析、關系提取、語音識別、語音分割、主題分割與識別的技術,或者其任何組合。然后,控制繼續到塊615,在塊615,控制器158確定所找出的語句是否通過對文檔 150的改變添加到文檔150。如果塊615的確定是真,則所找出的語句通過對文檔150的改變而添加,因此控制繼續到塊620,在塊620,控制器158確定關系的強度。在各種實施方式中,控制器158經UIMA架構或者任何其它適當的自然語言處理技術確定關系的強度。然后, 控制繼續到塊625,在塊625,控制器158將所找出的語句的標識符、所找出的語句的主題、 所找出的語句中主題的關系、該關系的強度及該語句添加到文檔150的日期存儲到主題數據152的新記錄中。然后,控制繼續到塊630,在塊630,控制器158確定是否所有語句都已
11經被在塊610開始的循環處理過了。如果塊630的確定為真,則改變后的文檔150中的所有語句都已經被在塊610開始的循環處理過了,因此控制返回塊605,在塊605,控制器158確定已經由相同或者不同的作者對相同或者不同的文檔150進行了其他改變,如上所述。如果塊630的確定為假,則不是改變后的文檔150中的所有語句都已經被在塊610開始的循環處理過了,因此控制返回塊610,在塊610,控制器158找出受文檔150的改變影響的其他語句,如上所述。如果塊615的確定為假,則所找出的語句沒有通過對文檔150的改變而添加,因此控制繼續到塊635,在塊635,控制器158確定所找出到的語句是否通過對文檔150的改變而被修改了。如果塊635的確定為真,則所找出的語句通過對文檔150的改變而被修改了, 因此控制繼續到塊640,在塊640,控制器158確定關系的強度并且將第一主題和第二主題 (如果修改了的話)、關系(如果修改了的話)、該關系的強度(如果修改了的話)及語句被修改的日期都存儲到主題數據152中包括與所找出語句的標識符匹配的標識符320的記錄。然后,控制繼續到塊630,如上所述。如果塊635的確定為假,則所找出的語句通過對文檔150的改變而被刪除,因此控制繼續到塊645,在塊645,控制器158將所找出的語句被刪除的日期存儲到主題數據152 中包括與所找出語句的標識符匹配的標識符320的記錄。然后控制繼續到塊630,如上所述。圖7繪出了根據本發明實施方式的用于更新權值數據和主題數據的示例處理的流程圖。在一種實施方式中,圖7的邏輯是同時、基本同時或者在相同或不同處理器上交織執行的,就象圖6和8的邏輯。控制在塊700開始。然后,控制繼續到塊705,在塊705,控制器158確定當前時間段已結束。然后,控制繼續到塊710,在塊710,控制器158將用于在當前時間段期間添加到文檔150的語句的當前時間段權值設成零。即,控制器158在主題數據152的包括添加日期字段330中的日期在當前時間段開始之后且在當前時間段結束之前的記錄中找到標識符320。然后,控制器158將新記錄存儲到包括在主題數據152中找到的標識符、當前時間段的說明和零權值的權值數據154。對于任何之前的時間段,控制器158還將新紀錄存儲到指定所找到的標識符、對任何之前時間段的說明和零權值的權值數據154。由此,新添加的語句對它們添加到其文檔150中的時間段而且對于它們添加到其文檔150中的時間段之前的任何時間段具有為零的初始權值。然后,控制繼續到塊715,在塊715,控制器158與自語句添加到文檔150時起的時間量成比例地減小用于語句的當前時間段權值。即,控制器158找出權值數據154中具有指定匹配當前時間段的時間段的時間段字段452的記錄。對于權值數據154中找出的具有匹配當前時間段的時間段字段452的每個記錄,控制器158找出主題數據152中具有與所找到的權值數據記錄中的標識符450匹配的標識符320的對應記錄。控制器158讀取主題數據152中(具有與所找到的權值數據記錄中的標識符450匹配的標識符320的)對應記錄中的添加日期字段330,并與自添加日期330到當前時間段結束所經過的時間量成比例地減小權值454。與自語句添加到文檔150時起所經過的時間量成比例地減小權值妨4意味著,隨著語句年齡增加(自語句被添加起所經過的時間增加),用于該語句的權值4M減小,從而反映了控制器158的加權估計策略,這種策略是在所有其它因素相同的情況下,越舊的語句比越新的(最近添加的)語句越不可靠或者越不可能是真的或者準確的。然后,控制繼續到塊720,在塊720,控制器158針對在當前時間段中修改過的語句增加當前時間段權值。即,控制器158在權值數據154中找出具有指定匹配當前時間段的時間段的時間段字段452的記錄。對于權值數據154中每個找到的具有匹配當前時間段的時間段字段452的記錄,控制器158找出主題數據152中具有與所找到的權值數據記錄中的標識符450匹配的標識符320的對應記錄。控制器158讀取主題數據152中(具有與所找到的權值數據記錄中的標識符450匹配的標識符320的)對應記錄中的修改日期字段 332。如果修改日期字段332的內容在當前時間段之內(在當前時間段開始之后并且在當前時間段結束之前),則控制器158增加權值454。在各種實施方式中,控制器158增加權值454的量是由控制器158的設計者設置、由用戶或者計算機系統管理員經用戶I/O設備 121提交、由控制器158從計算機系統100中執行的應用程序接收或者由控制器158經網絡 130從客戶端計算機132接收。如果修改日期字段332的內容不在當前時間段之內(在當前時間段開始之前或者在當前時間段結束之后),則控制器158不增加權值454。對已經修改了的語句增加權值妨4反映了控制器158的加權評估策略,這種策略是,在所有其它因素相等的情況下,修改了的語句比未修改的語句更可靠或者更有可能是真的或者準確的。然后,控制繼續到塊725,在塊725,對于在當前時間段期間從文檔150刪除的語句或者處于在當前時間段期間被刪除的文檔150中的語句,控制器158可選地1)從主題數據152和權值數據154除去語句;幻允許語句保留在主題數據152中,并減小語句的當前時間段權值(用于其中語句被刪除的當前時間段的權值);或者幻允許語句保留在主題數據152中,并且增加包括與被刪除語句具有相反強度的相同的兩個主題的語句的權值。由此,控制器158針對具有與被刪除的第二語句子集的強度相反的強度的第一語句子集增加權值。在一種實施方式中,相反的強度具有不同的符號但具有相同的絕對值。然后,控制返回塊705,在塊705,控制器158等待下一個當前時間段結束,如上所述。塊725的處理反映了控制器158的加權評估策略,這種策略是,在所有其它因素相等的情況下,已經從文檔 158刪除的語句比保留在文檔150中的語句更不可靠或者更不可能是真的或者準確的。圖8繪出了根據本發明實施方式的用于創建流行數據的示例處理的流程圖。控制在塊800開始。然后,控制繼續到塊805,在塊805,控制器158接收請求顯示流行圖200的命令。該命令指定兩個主題和一個或多個時間段。然后,控制繼續到塊810,在塊810,響應于該命令,控制器158創建用于兩個主題的流行數據,將用于在每個強度520處針對每個指定時間段的加權流行522存儲成用于在相應的時間段中具有相應強度的語句的權值4M之和。然后,控制繼續到塊815,在塊815,響應于該命令,控制器158在流行圖200上顯示或者繪制流行數據156。然后,控制繼續到塊899,在塊899,圖8的邏輯返回。在此所使用的術語僅僅是為了描述特定實施方式而不是要成為本發明的限制。除非上下文明確地另外指出,否則在此所使用的單數形式“一”、“一個”和“該”也要包括復數形式。還應當理解,本說明書中使用的術語“包括”指定所述特征、整體、步驟、操作、元素和 /或部件的存在,但不排除一個或多個其它特征、整體、步驟、操作、元素、部件和/或其組合的存在或添加。在前面對本發明示例實施方式的具體描述中,參照了附圖(其中類似的編號代表類似的元件),其中附圖構成本說明書的一部分而且其中通過例示示出了可以在其中實踐本發明的具體示例實施方式。這些實施方式以足夠多的細節進行了描述,使得本領域技術人員能夠實踐本發明,但也可以使用其它實施方式,而且在背離本發明范圍的情況下,可以進行邏輯的、機械的、電的或者其它變化。在前面的描述中,闡述了各種具體細節, 以便提供對本發明實施方式的透徹理解。但是,本發明的實施方式沒有這些具體細節也可以實踐。在其它情況下,為了不模糊本發明的實施方式,眾所周知的電路、結構和技術沒有具體示出。本說明書中所使用的詞“實施方式”的不同實例不必指相同的實施方式,但也可以是相同的實施方式。在此例示或者描述的任何數據和數據結構都僅僅是示例,而且在其它實施方式中,可以使用不同的數據量、數據類型、字段、字段的個數和類型、字段名稱、行的個數和類型、記錄、條目或者數據的組織。此外,任何數據都可以與邏輯組合,使得單獨的數據結構是不必要的。因此,前面的具體描述不應當從限制的意義上去看待。
權利要求
1.一種方法,包括針對多個相應語句中的多個相應關系確定相應的強度;與自添加所述多個相應語句時起的相應時間量成比例地減小用于所述多個相應語句的權值;增加用于修改了的多個語句的權值;將針對所述多個相應語句在多個相應時間段中的多個加權流行數據計算為,具有所述相應強度的所述多個相應語句在所述多個相應時間段中的權值之和;及針對每個所述相應強度在所述多個相應時間段中的每一個時間段,顯示所述多個加權流行數據。
2.如權利要求1所述的方法,其中,所述顯示還包括;針對每個所述相應強度在所述多個相應時間段中的每一個時間段,顯示用于兩個主題的所述多個加權流行數據,其中所述多個相應語句中的每一個都包括所述兩個主題的所述多個相應關系。
3.如權利要求2所述的方法,還包括響應于指定所述兩個主題和所述多個相應時間段的命令,執行所述顯示。
4.如權利要求2所述的方法,其中,如果第一語句為真而且該第一語句包括具有第一強度的兩個主題,則包括具有與所述第一強度相反的第二強度的所述兩個主題的第二語句為假。
5.如權利要求2所述的方法,其中,如果第三語句為假而且該第三語句包括具有第三強度的兩個主題,則包括具有與所述第三強度相反的第四強度的所述兩個主題的第四語句為真。
6.如權利要求1所述的方法,還包括針對被刪除的多個語句減小權值。
7.如權利要求1所述的方法,還包括針對所述多個相應語句的第一子集增加權值,所述第一子集具有與被刪除的多個語句的第二子集的相應強度相反的強度。
8.一種計算機,包括處理器;及通信耦合到所述處理器的存儲器,其中該存儲器以指令編碼,其中所述指令當在所述處理器上執行時包括針對多個相應語句中的多個相應關系確定相應的強度;與自添加所述多個相應語句時起的相應時間量成比例地減小用于所述多個相應語句的權值;增加用于修改了的多個語句的權值;將針對所述多個相應語句在多個相應時間段中的多個加權流行數據計算為,具有所述相應強度的所述多個相應語句在所述多個相應時間段中的權值之和;及針對每個所述相應強度在所述多個相應時間段中的每一個時間段,顯示所述多個加權流行數據,其中,所述顯示還包括針對每個所述相應強度在所述多個相應時間段中的每一個時間段,顯示用于兩個主題的所述多個加權流行數據,其中所述多個相應語句中的每一個都包括所述兩個主題的所述多個相應關系。
9.如權利要求8所述的計算機,其中所述指令還包括響應于指定所述兩個主題和所述多個相應時間段的命令,執行所述顯示。
10.如權利要求8所述的計算機,其中,如果第一語句為真而且該第一語句包括具有第一強度的兩個主題,則包括具有與所述第一強度相反的第二強度的所述兩個主題的第二語句為假。
11.如權利要求8所述的計算機,其中,如果第三語句為假而且該第三語句包括具有第三強度的兩個主題,則包括具有與所述第三強度相反的第四強度的所述兩個主題的第四語句為真。
12.如權利要求8所述的計算機,其中所述指令還包括針對被刪除的多個語句減小權值。
13.如權利要求8所述的計算機,其中所述指令還包括針對所述多個相應語句的第一子集增加權值,所述第一子集具有與被刪除的多個語句的第二子集的相應強度相反的強度。
全文摘要
公開了利用語句的加權流行數據來管理文檔的方法與系統。在一種實施方式中,針對相應語句中的相應關系確定相應的強度。與自所述相應語句添加到文檔時起的相應時間量成比例地減小用于所述相應語句的權值。針對文檔子集中修改了的語句子集增加權值。將針對相應時間段用于相應語句的加權流行數據計算為,針對具有相應強度的相應語句在時間段內用于那些語句的權值之和。
文檔編號G06F17/30GK102567455SQ201110360030
公開日2012年7月11日 申請日期2011年11月15日 優先權日2010年12月17日
發明者F·A·庫拉克, J·E·派特里, K·G·帕特森 申請人:國際商業機器公司
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
主站蜘蛛池模板: 库伦旗| 四会市| 罗江县| 突泉县| 乐安县| 甘孜| 沙湾县| 民勤县| 峨眉山市| 广州市| 惠安县| 巴里| 阿尔山市| 双辽市| 静宁县| 阿巴嘎旗| 惠安县| 宣威市| 辽阳县| 云梦县| 秦皇岛市| 连平县| 茌平县| 扶风县| 南通市| 洞口县| 同德县| 盐城市| 浏阳市| 绥江县| 斗六市| 大田县| 长海县| 焦作市| 华坪县| 上思县| 册亨县| 东丽区| 大丰市| 时尚| 娄烦县|