一種抽取網頁信息塊的方法及裝置的制作方法

文檔序號：6357268閱讀：263來源：國知局

專利名稱：一種抽取網頁信息塊的方法及裝置的制作方法
技術領域：
本發明涉及計算機領域，特別涉及一種抽取網頁信息塊的方法及裝置。
背景技術：
對于新聞網頁、小說網頁和博客網頁，這些網頁中包括對用戶有價值的關鍵信息，如新聞正文、小說正文和博客正文，還包括對用戶無用的信息，如廣告等無用信息；如果在返給用戶的網頁中只包括關鍵信息，不僅方便用戶瀏覽，還減少網絡資源的占用。目前可以從網頁中抽取包括關鍵信息的信息塊，將抽取的信息塊封裝成新網頁；接下來以新聞網頁為例對該方案進行說明:一個新聞網頁一般包括頁頂導航、二級導航、正文標題、正文信息、正文、交互塊和鏈接信息塊等信息塊，對用戶有價值的信息塊包括二級導航、正文標題、正文信息和正文；對于一個新聞網頁，首先將該新聞網頁包括的信息劃分為多個信息塊，確定該新聞網頁的D0M(Document Object Model,文檔對象模型)樹結構,根據技術人員事先制作該DOM樹結構包括的信息模板確定劃分的每個信息塊的名稱，然后抽取名稱為二級導航、正文標題、正文信息和正文分別對應的信息塊，并將抽取的四個信息塊封裝成新的新聞網頁。其中，需要說明的是:技術人員事先對大量的網頁進行歸類，將屬于同一 DOM樹結構的網頁歸為一類，然后對屬于同一 DOM樹結構的網頁進行分析并制作出該DOM樹結構包括的一個或多個信息塊模板。在實現本發明的過程中，發明人發現現有技術至少存在以下問題:不同網站的網頁的DOM樹結構都有所不同使得DOM樹種類繁多，如此對屬于每個DOM樹結構的網頁進行歸類,根據屬于每個DOM樹結構的網頁制作出每個DOM樹結構包括的信息塊模板，需要投入大量的人力；網站有可能進行網頁改版，一旦網頁改版，網頁采用的DOM樹結構也隨之改變，如此就需要再制作改變之后的DOM樹包括的信息塊模板，維護量巨大。

發明內容
為了減少人力投入和維護量，本發明提供了抽取網頁信息塊的方法及裝置。所述技術方案如下:一種抽取網頁信息塊的方法，所述方法包括:獲取網頁所包括的多個特征的特征值，所述網頁包括多個信息塊；根據獲取的所述多個特征值確定所述每個信息塊的類別，所述多個信息塊分別與多個類別一一對應，所述多個類別包括頁頂導航、二級導航、正文標題、正文信息、正文、小說標題、小說正文信息、小說正文、小說導航、博客導航、博客標題、博客信息、博客正文、鏈接信息塊和交互塊中至少一者；從所述網頁中選定至少一個信息塊以進行顯示。獲取網頁所包括的多個特征的特征值，包括:
將所述網頁具有的特征的特征值設置為第一特征值，將所述網頁不具有的特征的特征值設置為第二特征值。所述根據獲取的所述多個特征值確定所述每個信息塊的類別包括:計算每個信息塊屬于每個類別的概率，并將對應概率最大的類別定義為該信息塊的類別。所述計算每個信息塊屬于每個類別的概率包括:針對任一個類別C，根據所述類別C包括的樣本總數Ctotal和每個類別包括的樣本總數Total計算出所述類別C的類別概率
權利要求
1.一種抽取網頁信息塊的方法，其特征在于，所述方法包括: 獲取網頁所包括的多個特征的特征值，所述網頁包括多個信息塊；根據獲取的所述多個特征值確定所述每個信息塊的類別，所述多個信息塊分別與多個類別一一對應，所述多個類別包括頁頂導航、二級導航、正文標題、正文信息、正文、小說標題、小說正文信息、小說正文、小說導航、博客導航、博客標題、博客信息、博客正文、鏈接信息塊和交互塊中至少一者；從所述網頁中選定至少一個信息塊以進行顯示。
2.如權利要求1所述的方法，其特征在于，獲取網頁所包括的多個特征的特征值，包括: 將所述網頁具有的特征的特征值設置為第一特征值，將所述網頁不具有的特征的特征值設置為第二特征值。
3.如權利要求2所述的方法，其特征在于，所述根據獲取的所述多個特征值確定所述每個信息塊的類別包括:計算每個信息塊屬于每個類別的概率，并將對應概率最大的類別定義為該信息塊的類別。
4.如權利要求3所述的方法，其特征在于，所述計算每個信息塊屬于每個類別的概率包括: 針對任一個類別C，根據所述類別C包括的樣本總數Ctotal和每個類別包括的樣本總數Total計算出所述類別C的類別概率P
5.一種抽取網頁信息塊的裝置，其特征在于，所述裝置包括: 獲取模塊，用于獲取網頁所包括的多個特征的特征值，所述網頁包括多個信息塊；確定模塊，用于根據獲取的所述多個特征值確定所述每個信息塊的類別，所述多個信息塊分別與多個類別一一對應，所述多個類別包括頁頂導航、二級導航、正文標題、正文信息、正文、小說標題、小說正文信息、小說正文、小說導航、博客導航、博客標題、博客信息、博客正文、鏈接信息塊和交互塊；選定模塊，用于從所述網頁中選定至少一個信息塊以進行顯示。
6.如權利要求5所述的裝置，其特征在于，所述獲取模塊，具體用于將所述網頁具有的特征的特征值設置為第一特征值，將所述網頁不具有的特征的特征值設置為第二特征值。
7.如權利要求6所述的裝置，其特征在于，所述確定模塊包括: 計算單元，用于計算所述信息塊屬于每個類別的概率；定義單元，用于將對應概率最大的類別定義為該信息塊的類別。
8.如權利要求7所述的裝置，其特征在于，所述計算單元，第一計算子單元，用于針對任一個類別C，根據所述類別C包括的樣本總數Ctotal和每個類別包括的樣本總數Total計算出所述類別的類別概率
全文摘要
本發明公開了一種抽取網頁信息塊的方法及裝置，屬于計算機領域。所述方法包括獲取網頁所包括的多個特征的特征值，所述網頁包括多個信息塊；根據獲取的所述多個特征值確定所述每個信息塊的類別，所述多個信息塊分別與多個類別一一對應，所述多個類別包括頁頂導航、二級導航、正文標題、正文信息、正文、小說標題、小說正文信息、小說正文、小說導航、博客導航、博客標題、博客信息、博客正文、鏈接信息塊和交互塊中至少一者；從所述網頁中選定至少一個信息塊以進行顯示。所述裝置包括獲取模塊、確定模塊和選定模塊。本發明能夠減少人力投入和維護量。
文檔編號G06F17/30GK103198075SQ20121000465
公開日2013年7月10日申請日期2012年1月9日優先權日2012年1月9日
發明者徐羽, 彭默, 蔡兵申請人:騰訊科技(深圳)有限公司

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業用途，請聯系技術所有人。
技術研發人員：徐羽;彭默;蔡兵
技術所有人：騰訊科技（深圳）有限公司
我是此專利的發明人

上一篇：一種采用圖像分類技術從遙感圖像中進行滑坡檢測的方法
上一篇：基于塊相似性的交互式圖像分割方法

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網絡及物聯網
4、王老師：1.計算機網絡安全 2.計算機仿真技術
5、王老師：1.網絡安全；物聯網安全、大數據安全 2.安全態勢感知、輿情分析和控制 3.區塊鏈及應用
如您是高校老師，可以點此聯系我們加入專家庫。

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

一種抽取網頁信息塊的方法及裝置的制作方法