專利名稱:一種抽取網頁信息塊的方法及裝置的制作方法
技術領域:
本發明涉及計算機領域,特別涉及一種抽取網頁信息塊的方法及裝置。
背景技術:
對于新聞網頁、小說網頁和博客網頁,這些網頁中包括對用戶有價值的關鍵信息,如新聞正文、小說正文和博客正文,還包括對用戶無用的信息,如廣告等無用信息;如果在返給用戶的網頁中只包括關鍵信息,不僅方便用戶瀏覽,還減少網絡資源的占用。目前可以從網頁中抽取包括關鍵信息的信息塊,將抽取的信息塊封裝成新網頁;接下來以新聞網頁為例對該方案進行說明:一個新聞網頁一般包括頁頂導航、二級導航、正文標題、正文信息、正文、交互塊和鏈接信息塊等信息塊,對用戶有價值的信息塊包括二級導航、正文標題、正文信息和正文;對于一個新聞網頁,首先將該新聞網頁包括的信息劃分為多個信息塊,確定該新聞網頁的D0M(Document Object Model,文檔對象模型)樹結構,根據技術人員事先制作該DOM樹結構包括的信息模板確定劃分的每個信息塊的名稱,然后抽取名稱為二級導航、正文標題、正文信息和正文分別對應的信息塊,并將抽取的四個信息塊封裝成新的新聞網頁。其中,需要說明的是:技術人員事先對大量的網頁進行歸類,將屬于同一 DOM樹結構的網頁歸為一類,然后對屬于同一 DOM樹結構的網頁進行分析并制作出該DOM樹結構包括的一個或多個信息塊模板。在實現本發明的過程中,發明人發現現有技術至少存在以下問題:不同網站的網頁的DOM樹結構都有所不同使得DOM樹種類繁多,如此對屬于每個DOM樹結構的網頁進行歸類,根據屬于每個DOM樹結構的網頁制作出每個DOM樹結構包括的信息塊模板,需要投入大量的人力;網站有可能進行網頁改版,一旦網頁改版,網頁采用的DOM樹結構也隨之改變,如此就需要再制作改變之后的DOM樹包括的信息塊模板,維護量巨大。
發明內容
為了減少人力投入和維護量,本發明提供了抽取網頁信息塊的方法及裝置。所述技術方案如下:一種抽取網頁信息塊的方法,所述方法包括:獲取網頁所包括的多個特征的特征值,所述網頁包括多個信息塊;根據獲取的所述多個特征值確定所述每個信息塊的類別,所述多個信息塊分別與多個類別一一對應,所述多個類別包括頁頂導航、二級導航、正文標題、正文信息、正文、小說標題、小說正文信息、小說正文、小說導航、博客導航、博客標題、博客信息、博客正文、鏈接信息塊和交互塊中至少一者;從所述網頁中選定至少一個信息塊以進行顯示。獲取網頁所包括的多個特征的特征值,包括:
將所述網頁具有的特征的特征值設置為第一特征值,將所述網頁不具有的特征的特征值設置為第二特征值。所述根據獲取的所述多個特征值確定所述每個信息塊的類別包括:計算每個信息塊屬于每個類別的概率,并將對應概率最大的類別定義為該信息塊的類別。所述計算每個信息塊屬于每個類別的概率包括:針對任一個類別C,根據所述類別C包括的樣本總數Ctotal和每個類別包括的樣本總數Total計算出所述類別C的類別概率
權利要求
1.一種抽取網頁信息塊的方法,其特征在于,所述方法包括: 獲取網頁所包括的多個特征的特征值,所述網頁包括多個信息塊; 根據獲取的所述多個特征值確定所述每個信息塊的類別,所述多個信息塊分別與多個類別一一對應,所述多個類別包括頁頂導航、二級導航、正文標題、正文信息、正文、小說標題、小說正文信息、小說正文、小說導航、博客導航、博客標題、博客信息、博客正文、鏈接信息塊和交互塊中至少一者; 從所述網頁中選定至少一個信息塊以進行顯示。
2.如權利要求1所述的方法,其特征在于,獲取網頁所包括的多個特征的特征值,包括: 將所述網頁具有的特征的特征值設置為第一特征值,將所述網頁不具有的特征的特征值設置為第二特征值。
3.如權利要求2所述的方法,其特征在于,所述根據獲取的所述多個特征值確定所述每個信息塊的類別包括:計算每個信息塊屬于每個類別的概率,并將對應概率最大的類別定義為該信息塊的類別。
4.如權利要求3所述的方法,其特征在于,所述計算每個信息塊屬于每個類別的概率包括: 針對任一個類別C,根據所述類別C包括的樣本總數Ctotal和每個類別包括的樣本總數Total計算出所述類別C的類別概率P
5.一種抽取網頁信息塊的裝置,其特征在于,所述裝置包括: 獲取模塊,用于獲取網頁所包括的多個特征的特征值,所述網頁包括多個信息塊;確定模塊,用于根據獲取的所述多個特征值確定所述每個信息塊的類別,所述多個信息塊分別與多個類別一一對應,所述多個類別包括頁頂導航、二級導航、正文標題、正文信息、正文、小說標題、小說正文信息、小說正文、小說導航、博客導航、博客標題、博客信息、博客正文、鏈接信息塊和交互塊; 選定模塊,用于從所述網頁中選定至少一個信息塊以進行顯示。
6.如權利要求5所述的裝置,其特征在于, 所述獲取模塊,具體用于將所述網頁具有的特征的特征值設置為第一特征值,將所述網頁不具有的特征的特征值設置為第二特征值。
7.如權利要求6所述的裝置,其特征在于,所述確定模塊包括: 計算單元,用于計算所述信息塊屬于每個類別的概率; 定義單元,用于將對應概率最大的類別定義為該信息塊的類別。
8.如權利要求7所述的裝置,其特征在于,所述計算單元, 第一計算子單元,用于針對任一個類別C,根據所述類別C包括的樣本總數Ctotal和每個類別包括的樣本總數Total計算出所述類別的類別概率
全文摘要
本發明公開了一種抽取網頁信息塊的方法及裝置,屬于計算機領域。所述方法包括獲取網頁所包括的多個特征的特征值,所述網頁包括多個信息塊;根據獲取的所述多個特征值確定所述每個信息塊的類別,所述多個信息塊分別與多個類別一一對應,所述多個類別包括頁頂導航、二級導航、正文標題、正文信息、正文、小說標題、小說正文信息、小說正文、小說導航、博客導航、博客標題、博客信息、博客正文、鏈接信息塊和交互塊中至少一者;從所述網頁中選定至少一個信息塊以進行顯示。所述裝置包括獲取模塊、確定模塊和選定模塊。本發明能夠減少人力投入和維護量。
文檔編號G06F17/30GK103198075SQ20121000465
公開日2013年7月10日 申請日期2012年1月9日 優先權日2012年1月9日
發明者徐羽, 彭默, 蔡兵 申請人:騰訊科技(深圳)有限公司