本發明涉及網絡技術,特別涉及事件脈絡生成方法和裝置。
背景技術:
當前,用戶在使用搜索引擎等進行搜索時,如對某一事件進行搜索時,只能將與該事件相關的各個資源如新聞資源,按照預定方式進行排序等處理后,展示給用戶。
而用戶如果想要了解事件進展的主要過程,則需要分別查找對應的資源并進行查看,實現起來非常困難,從而降低了用戶的信息獲取效率。
技術實現要素:
有鑒于此,本發明提供了事件脈絡生成方法和裝置,能夠提高用戶的信息獲取效率。
具體技術方案如下:
一種事件脈絡生成方法,包括:
針對待處理的事件,分別獲取各時間窗口內的資源;
針對每個時間窗口,分別確定出所述時間窗口內的各資源的重要性評分,并從所述時間窗口內的各資源中選出重要性評分符合預定要求的資源,將選出的資源作為所述時間窗口內的代表性資源;
將各時間窗口內的代表性資源按照時間順序進行組合,得到事件脈絡。
一種事件脈絡生成裝置,包括:處理單元;
所述處理單元,用于針對待處理的事件,分別獲取各時間窗口內的資源;針對每個時間窗口,分別確定出所述時間窗口內的各資源的重要性評分,并從所述時間窗口內的各資源中選出重要性評分符合預定要求的資源,將選出的資源作為所述時間窗口內的代表性資源;將各時間窗口內的代表性資源按照時間順序進行組合,得到事件脈絡。
基于上述介紹可以看出,采用本發明所述方案,針對待處理的事件,可分別獲取各時間窗口內的資源,并針對每個時間窗口,分別從中選出最能反映事件進展情況的代表性資源,進而利用所選出的各時間窗口內的代表性資源組合得到事件脈絡,這樣,當用戶使用如搜索引擎進行搜索時,可直接將事件脈絡展示給用戶,從而克服了現有技術中存在的問題,進而提高了用戶的信息獲取效率。
【附圖說明】
圖1為本發明所述事件脈絡生成方法實施例的流程圖。
圖2為本發明所述獲取到的一個時間窗口內的資源示意圖。
圖3為本發明所述生成事件脈絡的方式示意圖。
圖4為本發明所述“明星A離婚”事件對應的事件脈絡示意圖。
圖5為本發明所述事件脈絡生成裝置實施例的組成結構示意圖。
【具體實施方式】
針對現有技術中存在的問題,本發明中提出一種事件脈絡生成方案,可以有效地從大量的資源中篩選出最能反映事件進展情況的代表性資源,并自動地生成事件脈絡展示給用戶。
為了使本發明的技術方案更加清楚、明白,以下參照附圖并舉實施例,對本發明所述方案作進一步地詳細說明。
實施例一
圖1為本發明所述事件脈絡生成方法實施例的流程圖,如圖1所示,包括以下具體實現方式:
在11中,針對待處理的事件,分別獲取各時間窗口內的資源;
在12中,針對每個時間窗口,分別確定出該時間窗口內的各資源的重要性評分,并從該時間窗口內的各資源中選出重要性評分符合預定要求的資源,將選出的資源作為該時間窗口內的代表性資源;
在13中,將各時間窗口內的代表性資源按照時間順序進行組合,得到事件脈絡。
所述資源可為新聞資源等。
為實現上述方案,需要預先獲取訓練樣本,并根據訓練樣本訓練得到評估模型,這樣,針對待處理的事件,可以時間窗口為單位,針對每個時間窗口內獲取到的資源,分別根據評估模型確定出各資源的重要性評分,并從每個時間窗口內的各資源中選出重要性評分符合預定要求的資源,將選出的資源作為該時間窗口內的代表性資源,進而將各時間窗口內的代表性資源按照時間順序進行組合,得到事件脈絡。
以下分別對上述各部分內容進行詳細介紹。
一)訓練樣本
為了得到后續的評估模型,需要首先獲取訓練樣本。
本發明所述方案中,可采用基于配對(pairwise)的方法,從若干有時間順序的資源中,選出最能反映事件發展的幾個資源,從而即能獲取到被選出的資源與未被選出的資源之間的優劣關系,進而生成訓練樣本。
比如,可將任一事件對應的任一時間窗口內的資源進行展示,獲取從所展示的資源中選定的優質資源,分別將每個優質資源與所展示的每個非優質資源組成一個資源對,分別生成每個資源對對應的訓練樣本。
以“明星A離婚”事件為例,整個事件是在隨著時間不斷發展的,可分別獲取到每個時間窗口內的資源。時間窗口,是指將整個事件發展的時間軸切分(比如可以等時長進行切分)為多個連續的時間段后所得到的每個時間段。
圖2為本發明所述獲取到的一個時間窗口內的資源示意圖,如圖2所示,可將這些資源展示給樣本收集人員,樣本收集人員可從中選出認為最能反映“明星A離婚”事件的來龍去脈的2個資源,將選定的資源作為優質資源。
之后,可分別將每個優質資源與所展示的每個非優質資源組成一個資源對。
比如,選定的優質資源為圖2中所示的資源1和資源2,那么可得到以下資源對:(資源1、資源3)、(資源1、資源4)、(資源1、資源5)、(資源2、資源3)、(資源2、資源4)、(資源2、資源5)等。
再之后,可分別生成每個資源對對應的訓練樣本,每個訓練樣本中可包括:分別從一個資源對中的兩個資源中提取出的特征,以及,兩個資源孰優孰劣的判定結果。
即針對每個資源對,可分別對該資源對中的每個資源進行特征提取,并結合兩個資源資源孰優孰劣的判定結果,生成一個訓練樣本。
判定結果可用1和0來表示,比如,若一個資源對中的前一個資源優于后一個資源,則判定結果可為1,反之,若后一個資源優于前一個資源,則判定結果可為0。
這樣,以(資源1、資源3)、(資源2、資源4)兩個資源對為例,其對應的訓練樣本將分別為:(資源1的特征、資源3的特征、1)、(資源2的特征、資源4的特征、1)。
采用上述處理方式,每次只展示給樣本收集人員一個時間窗口內的若干條資源,讓樣本收集人員從中選出最優的幾條資源,從而使樣本收集人員在進行選擇時充分考慮了事件脈絡的時間性背景,即不僅考慮了資源的相關性,還考慮了資源的脈絡重要性,同時,采用上述處理方式,使得樣本收集人員通過較少的工作就能獲取到較多的訓練樣本,從而提高了樣本收集效率等。
二)特征提取
從每個資源中提取出的特征包括但不限于以下之一或任意組合,較佳地,可提取出以下全部特征:
純文本特征、資源熱度特征、搜索熱度特征、相似資源數特征。
1)純文本特征
如何獲取資源的純文本特征為現有技術,比如,可基于詞袋(Bag of words)方法,利用詞頻-逆文檔頻率(TF-IDF,Term Frequency-Inverse Document Frequency)的權重計算方式提取出資源的純文本特征。
2)資源熱度特征
這個特征主要反映的是資源被點擊閱讀的數量,如何獲取同樣為現有技術。
3)搜索熱度特征
對于事件脈絡而言,在脈絡的關鍵節點,往往能引起人們對其進行搜索,通過對如百度搜索日志等進行分析,可以查找到對某個關鍵詞在哪個時間點的搜索量達到峰值,與這個時間點對應的資源往往在事件發展過程中具有較重要的意義。
對于兩個不同的資源,假設均對應關鍵詞“明星A離婚”,由于兩個資源的發布時間不同,對應的在資源發布時該關鍵詞的搜索熱度也會不同,因此,可將搜索熱度作為資源的一個重要特征。
4)相似資源數特征
在互聯網中,重要的資源常常會被以不同形式轉載,其在內容上通常是相似的,因此,可通過對互聯網海量數據的挖掘,提取出每個資源的相似資源數,作為該資源的特征,從另一個方面反映資源的重要性。
在以上介紹的內容的基礎上,如何獲取資源的搜索熱度特征以及相似資源數特征為現有技術。
三)模型訓練
在獲取到足夠多的訓練樣本之后,即可根據訓練樣本訓練得到所需的評估模型,如何進行訓練為現有技術。
評估模型的個數可以為一個,或者,為提高評估結果的準確性,評估模型的個數也可以大于一個,具體個數可根據實際需要而定。
可根據獲取到的訓練樣本,分別訓練得到每個評估模型。
每個評估模型均是一個pairwise的二分類模型,即使用評估模型可以對資源與資源之間的優劣關系進行判斷。
評估模型可包括但不限于以下之一或任意組合:支持向量機(SVM,Support Vector Machine)模型、邏輯回歸(Logistic Regression)模型、隨機森林(Random Forest)模型等。
四)事件脈絡生成
針對待處理的事件,可分別獲取各時間窗口內的資源。
針對每個時間窗口,可根據評估模型,分別確定出該時間窗口內的各資源的重要性評分。
以任一時間窗口為例,針對該時間窗口內的每個資源,可分別進行以下處理:
a)將該資源作為待評估資源,將待評估資源與該時間窗口內的其它每個資源分別組成一個資源對;
b)根據評估模型分別確定出每個資源對中的兩個資源孰優孰劣的判定結果;
c)統計判定結果滿足以下條件的資源對數:待評估資源優于所在資源對中的另一資源;
d)將統計結果作為待評估資源的重要性評分。
其中,b)中所述處理中,針對每個資源對,可分別按照二)中所述特征提取方式,提取出該資源對中的每個資源的特征,進而根據提取出的特征以及評估模型,確定出該資源對中的兩個資源孰優孰劣的判定結果,即將提取出的特征作為評估模型的輸入,得到評估模型輸出的判定結果。
另外,當評估模型數大于一時,針對每個資源對,將會根據每個評估模型分別獲取到一個判定結果,可將各判定結果進行匯總,根據匯總結果確定出最終的判定結果。
比如,共存在3個評估模型,針對任一資源對x,3個評估模型輸出的判定結果分別為1、1、0,那么由于判定結果為1的評估模型數為2,判定結果為0的評估模型數為1,因此可按照少數服從多數的原則,將1作為資源對x對應的判定結果。
假設一個時間窗口內包括4個資源,分別為資源1~資源4,按照上述方式進行處理后,可得到表一所示pairwise二分類矩陣:
表一 pairwise二分類矩陣
在表一中,各資源與自身之間的比較結果可用0來表示,從而不會對后續統計結果產生影響。
可分別對表一中的第2行~第5行中的數值進行求和,從而分別得到資源1~資源4的重要性評分,其中,資源1的重要性評分為1,資源2的重要性評分為3,資源3的重要性評分為2,資源4的重要性評分為1。
針對每個時間窗口,在分別獲取到該時間窗口內的各資源的重要性評分之后,可從該時間窗口內的各資源中選出重要性評分符合預定要求的資源,將選出的資源作為該時間窗口內的代表性資源。
其中,選出重要性評分符合預定要求的資源的方式可為:
方式一
選出重要性評分最高的N個資源作為該時間窗口內的代表性資源,N為正整數,具體取值可根據實際需要而定,如可取值為1,以表一所對應的時間窗口為例,由于資源2的重要性評分最高,因此可將資源2作為該時間窗口內的代表性資源;
方式二
選出重要性評分大于預定閾值的資源作為該時間窗口內的代表性資源,所述閾值的具體取值同樣可根據實際需要而定。
在分別得到各時間窗口內的代表性資源之后,將各時間窗口內的代表性資源按照時間順序進行組合,即可得到事件脈絡。
基于上述介紹,圖3為本發明所述生成事件脈絡的方式示意圖,如圖3所示,左側的各資源表示獲取到的各時間窗口內的所有資源,右側的各資源表示確定出的各時間窗口內的代表性資源。
圖4為本發明所述“明星A離婚”事件對應的事件脈絡示意圖。
以上是關于方法實施例的介紹,以下通過裝置實施例,對本發明所述方案進行進一步說明。
實施例二
圖5為本發明所述事件脈絡生成裝置實施例的組成結構示意圖,如圖5所示,包括:處理單元51。
處理單元51,用于針對待處理的事件,分別獲取各時間窗口內的資源;針對每個時間窗口,分別確定出該時間窗口內的各資源的重要性評分,并從該時間窗口內的各資源中選出重要性評分符合預定要求的資源,將選出的資源作為該時間窗口內的代表性資源;將各時間窗口內的代表性資源按照時間順序進行組合,得到事件脈絡。
如圖5所示,所述裝置中可進一步包括:模型訓練單元52。
模型訓練單元52,用于獲取訓練樣本,根據訓練樣本訓練得到評估模型,將評估模型發送給處理單元51;相應地,處理單元51根據評估模型,分別確定出各時間窗口內的各資源的重要性評分。
其中,模型訓練單元52中可具體包括:樣本收集子單元521以及模型訓練子單元522。
樣本收集子單元521,用于將任一事件對應的任一時間窗口內的資源進行展示,獲取從所展示的資源中選定的優質資源,分別將每個優質資源與所展示的每個非優質資源組成一個資源對,分別生成每個資源對對應的訓練樣本,將訓練樣本發送給模型訓練子單元522。
模型訓練子單元522,用于根據訓練樣本訓練得到評估模型,將評估模型發送給處理單元51。
所生成的每個訓練樣本中可包括:分別從一個資源對中的兩個資源中提取出的特征,以及,兩個資源孰優孰劣的判定結果。
即針對每個資源對,可分別對該資源對中的每個資源進行特征提取,并結合兩個資源資源孰優孰劣的判定結果,生成一個訓練樣本。
判定結果可用1和0來表示,比如,若一個資源對中的前一個資源優于后一個資源,則判定結果可為1,反之,若后一個資源優于前一個資源,則判定結果可為0。
從每個資源中提取出的特征可包括但不限于以下之一或任意組合:純文本特征、資源熱度特征、搜索熱度特征、相似資源數特征。
另外,評估模型的個數可以為一個,或者,為提高評估結果的準確性,評估模型的個數也可以大于一個,模型訓練子單元522可根據獲取到的訓練樣本,分別訓練得到每個評估模型。
評估模型可包括但不限于以下之一或任意組合:支持向量機模型、邏輯回歸模型、隨機森林模型。
如圖5所示,處理單元51中可具體包括:獲取子單元511、選擇子單元512以及組合子單元513。
獲取子單元511,用于針對待處理的事件,分別獲取各時間窗口內的資源,并發送給選擇子單元512。
選擇子單元512,用于針對每個時間窗口,分別進行以下處理:
針對該時間窗口內的每個資源,分別將該資源作為待評估資源,將待評估資源與該時間窗口內的其它每個資源分別組成一個資源對;根據評估模型分別獲取到每個資源對中的兩個資源孰優孰劣的判定結果;統計判定結果滿足以下條件的資源對數:待評估資源優于所在資源對中的另一資源;將統計結果作為待評估資源的重要性評分;
從該時間窗口內的各資源中選出重要性評分符合預定要求的資源,將選出的資源作為該時間窗口內的代表性資源,發送給組合子單元513。
組合子單元513,用于將各時間窗口內的代表性資源按照時間順序進行組合,得到事件脈絡。
針對每個資源對,選擇子單元512可首先分別提取出該資源對中的每個資源的特征,進而根據提取出的特征以及評估模型,確定出該資源對中的兩個資源孰優孰劣的判定結果,即將提取出的特征作為評估模型的輸入,得到評估模型輸出的判定結果。
當評估模型數大于一時,針對每個資源對,選擇子單元512可分別根據每個評估模型獲取到一個判定結果,進而將各判定結果進行匯總,并根據匯總結果確定出最終的判定結果。
針對每個時間窗口,選擇子單元512在分別獲取到該時間窗口內的各資源的重要性評分之后,可從該時間窗口內的各資源中選出重要性評分符合預定要求的資源,將選出的資源作為該時間窗口內的代表性資源。
比如,針對每個時間窗口,選擇子單元512可從該時間窗口內的各資源中選出重要性評分最高的N個資源,N為正整數,將選出的資源作為該時間窗口內的代表性資源。
或者,針對每個時間窗口,選擇子單元512可從該時間窗口內的各資源中選出重要性評分大于預定閾值的資源,將選出的資源作為該時間窗口內的代表性資源。
在分別得到各時間窗口內的代表性資源之后,組合子單元513可將各時間窗口內的代表性資源按照時間順序進行組合,從而得到事件脈絡。
圖5所示裝置實施例的具體工作流程請參照前述方法實施例中的相應說明,此處不再贅述。
總之,采用本發明所述方案,針對待處理的事件,可分別獲取各時間窗口內的資源,并針對每個時間窗口,分別從中選出最能反映事件進展情況的代表性資源,進而利用所選出的各時間窗口內的代表性資源組合得到事件脈絡,這樣,當用戶使用如搜索引擎進行搜索時,可直接將事件脈絡展示給用戶,從而克服了現有技術中存在的問題,進而提高了用戶的信息獲取效率。
在本發明所提供的幾個實施例中,應該理解到,所揭露的裝置和方法,可以通過其它的方式實現。例如,以上所描述的裝置實施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實際實現時可以有另外的劃分方式。
所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個網絡單元上??梢愿鶕嶋H的需要選擇其中的部分或者全部單元來實現本實施例方案的目的。
另外,在本發明各個實施例中的各功能單元可以集成在一個處理單元中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個單元中。上述集成的單元既可以采用硬件的形式實現,也可以采用硬件加軟件功能單元的形式實現。
上述以軟件功能單元的形式實現的集成的單元,可以存儲在一個計算機可讀取存儲介質中。上述軟件功能單元存儲在一個存儲介質中,包括若干指令用以使得一臺計算機設備(可以是個人計算機,服務器,或者網絡設備等)或處理器(processor)執行本發明各個實施例所述方法的部分步驟。而前述的存儲介質包括:U盤、移動硬盤、只讀存儲器(ROM,Read-Only Memory)、隨機存取存儲器(RAM,Random Access Memory)、磁碟或者光盤等各種可以存儲程序代碼的介質。
以上所述僅為本發明的較佳實施例而已,并不用以限制本發明,凡在本發明的精神和原則之內,所做的任何修改、等同替換、改進等,均應包含在本發明保護的范圍之內。