麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

一種web站點資源管理方法及裝置制造方法

文檔序號:6486701閱讀:226來源:國知局
一種web站點資源管理方法及裝置制造方法
【專利摘要】本發明提出一種web站點資源管理方法及裝置,其中方法包括以下步驟:獲取web站點的導航樹狀結構;獲取web站點的面包屑瀏覽路徑結構;獲取web站點的url層次關系;以及根據導航樹狀路徑結構、面包屑瀏覽路徑結構及url層次關系生成web站點的索引瀏覽路徑。根據本發明實施例的web站點資源管理方法,通過對web站點的面包屑瀏覽路徑結構及URL層次關系生成索引瀏覽路徑,方便了用戶在高端機上瀏覽web站點。
【專利說明】一種web站點資源管理方法及裝置
【技術領域】
[0001]本發明涉及web app化【技術領域】,特別涉及一種web站點資源管理方法及裝置。【背景技術】
[0002]現如今,隨著進入web2.0時代,PC網站之間的指向變得更加復雜化,web app (webapplication,通過使用Web和Web瀏覽器技術,跨越網絡完成一個或多個任務的應用程序,通常需要使用Web瀏覽器)是將傳統web網頁轉化為便于用戶在高端機設備上瀏覽的一種技術,讓用戶在高端機只能設備上瀏覽web頁的效果的體驗類似native app (nativeapplication,本地應用程序)展現效果。
[0003]Web app化技術分為page app和site app,page app主要是頁面結構化技術,從單頁面的分析重構web頁展現適合于高端機瀏覽設備上;site app主要是針對pc站點重構web站點在高端機設備上的在線效果。
[0004]目前所有的技術中的site構建至少存在以下缺點:
[0005](I)無法通過線下挖掘構建資源結構圖,不方便用戶在高端機上瀏覽;
[0006](2)無法保證瀏覽路徑上的頁面都能夠被page app結構化。

【發明內容】

[0007]本發明旨在至少解決上述技術問題之一。
[0008]為此,本發明的第一個目的在于提出一種web站點資源管理方法。
[0009]本發明的第二個目的在于提出一種web站點資源管理裝置。
[0010]為了實現上述目的,根據本發明的第一方面實施例的web站點資源管理方法包括以下步驟:獲取所述web站點的導航樹狀結構;獲取所述web站點的面包屑瀏覽路徑結構;獲取所述web站點的url層次關系;以及根據所述導航樹狀路徑結構、所述面包屑瀏覽路徑結構及所述url層次關系生成所述web站點的索引瀏覽路徑。
[0011]根據本發明實施例的web站點資源管理方法,通過對web站點的面包屑瀏覽路徑結構及URL層次關系生成索引瀏覽路徑,方便了用戶在高端機上瀏覽web站點。
[0012]為實現上述目的,本發明第二方面的實施例的web站點資源管理裝置包括:第一獲取模塊,所述第一獲取模塊用于獲取所述web站點的導航樹狀結構;第二獲取模塊,所述第二獲取模塊用于獲取所述web站點的面包屑瀏覽路徑結構;第三獲取模塊,所述第三獲取模塊用于獲取所述web站點的url層次關系;以及生成模塊,所述生成模塊用于根據所述導航樹狀路徑結構、所述面包屑瀏覽路徑結構及所述url層次關系生成所述web站點的索引瀏覽路徑。
[0013]根據本發明實施例的web站點資源管理裝置,通過三個獲取模塊獲取站點的導航樹結構,面包屑瀏覽路徑結構及web站點的url層次關系再通過生成模塊來生成web站點的索引瀏覽路徑,方便了用戶在高端機上瀏覽web站點。
[0014]本發明的附加方面和優點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發明的實踐了解到。
【專利附圖】

【附圖說明】
[0015]本發明上述的和/或附加的方面和優點從下面結合附圖對實施例的描述中將變得明顯和容易理解,其中:
[0016]圖1為根據本發明一個實施例的一種web站點資源管理方法的流程圖;
[0017]圖2為根據本發明一個實施例的一種web站點資源管理方法的流程圖;
[0018]圖3為根據本發明一個實施例的一種web站點資源管理方法的流程圖;
[0019]圖4為根據本發明一個實施例的一種web站點資源管理裝置的結構示意圖;
[0020]圖5為根據本發明一個實施例的一種web站點資源管理裝置的結構示意圖;以及
[0021]圖6為根據本發明一個實施例的一種web站點資源管理裝置的結構示意圖。
【具體實施方式】
[0022]下面詳細描述本發明的實施例,所述實施例的示例在附圖中示出,其中自始至終相同或類似的標號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實施例是示例性的,僅用于解釋本發明,而不能解釋為對本發明的限制。
[0023]參照下面的描述和附圖,將清楚本發明的實施例的這些和其他方面。在這些描述和附圖中,具體公開了本發明的實施例中的一些特定實施方式,來表示實施本發明的實施例的原理的一些方式,但是應當理解,本發明的實施例的范圍不受此限制。相反,本發明的實施例包括落入所附加權利要求書的精神和內涵范圍內的所有變化、修改和等同物。
[0024]下面參考說明書附圖描述根據本發明實施例的web站點資源管理方法
[0025]一種用于方法,包括以下步驟:獲取web站點的導航樹狀結構;獲取web站點的面包屑瀏覽路徑結構;獲取web站點的url層次關系;以及根據導航樹狀路徑結構、面包屑瀏覽路徑結構及url層次關系生成web站點的索引瀏覽路徑。
[0026]圖1為本發明一個實施例的web站點資源管理方法的流程圖。
[0027]如圖1所示,根據本發明實施例的web站點資源管理方法包括下述步驟。
[0028]步驟SlOl:獲取web站點的導航樹狀結構。
[0029]具體地,首先從web站點的首頁開始計算導航塊內的鏈接指向;然后從web站點的首頁沿著導航塊內的鏈接指向定向挖掘以生成導航樹狀結構。
[0030]更具體地,從web站點的首頁開始,根據導航塊中的各個導航鏈接所指向的頁面位置來計算導航塊內的鏈接指向,然后從web站點首頁開始,根據導航塊中的鏈接指向進行定向挖掘,從這些鏈接中,挖掘出導航塊指向的具體頁面,并根據挖掘出的頁面,從網頁內容中抽取信息建立起導航樹形結構。
[0031]步驟S102:獲取web站點的面包屑瀏覽路徑結構。
[0032]具體地,首先從用戶搜索日志中挖掘web站點的資源頁以計算面包屑;然后根據面包屑生成面包屑瀏覽路徑結構。
[0033]更具體地,通過挖掘用戶的搜索日志,根據用戶訪問日志記錄挖掘web站點底層資源頁來計算出面包屑,同時從用戶瀏覽記錄中提取出面包屑,根據該面包屑記錄構建起面包屑瀏覽路徑結構。[0034]步驟S103:獲取web站點的url層次關系。
[0035]具體地,對web站點進行url層次結構關系分析,獲取web站點的url層次關系。
[0036]步驟S104:根據導航樹狀路徑結構、面包屑瀏覽路徑結構及url層次關系生成web站點的索引瀏覽路徑。
[0037]具體地,結合導航樹狀路徑結構、面包屑瀏覽路徑結構及url層次關系分析出web站點中到達各資源頁的路徑及各個頁面之間層次關系,生成該web站點的索引瀏覽路徑。
[0038]根據本發明實施例的web站點資源管理方法,通過對web站點的面包屑瀏覽路徑結構及URL層次關系生成索引瀏覽路徑,方便了用戶在高端機上瀏覽web站點。
[0039]圖2為本發明又一個實施例的web站點資源管理方法的流程圖。
[0040]如圖2所示,根據本發明實施例的web站點資源管理方法包括下述步驟。
[0041 ] 步驟S201:獲取web站點的導航樹狀結構。
[0042]具體地,首先從web站點的首頁開始計算導航塊內的鏈接指向;然后從web站點的首頁沿著導航塊內的鏈接指向定向挖掘以生成導航樹狀結構。
[0043]更具體地,從web站點的首頁開始,根據導航塊中的各個導航鏈接所指向的頁面位置來計算導航塊內的鏈接指向,然后從web站點首頁開始,根據導航塊中的鏈接指向進行定向挖掘,從這些鏈接中,挖掘出導航塊指向的具體頁面,并根據挖掘出的頁面,從網頁內容中抽取信息建立起導航樹形結構。
[0044]步驟S202:獲取web站點的面包屑瀏覽路徑結構。
[0045]具體地,首先從用戶搜索日志中挖掘web站點的資源頁以計算面包屑;然后根據面包屑生成面包屑瀏覽路徑結構。
[0046]更具體地,通過挖掘用戶的搜索日志,根據用戶訪問日志記錄挖掘web站點底層資源頁來計算出面包屑,同時從用戶瀏覽記錄中提取出面包屑,根據該面包屑記錄構建起面包屑瀏覽路徑結構。
[0047]步驟S203:獲取web站點的url層次關系。
[0048]具體地,對web站點進行url層次結構關系分析,獲取web站點的url層次關系。
[0049]步驟S204:根據導航樹狀路徑結構、面包屑瀏覽路徑結構及url層次關系生成web站點的索引瀏覽路徑。
[0050]具體地,結合導航樹狀路徑結構、面包屑瀏覽路徑結構及url層次關系分析出web站點中到達各資源頁的路徑及各個頁面之間層次關系,生成該web站點的索引瀏覽路徑。
[0051]步驟S205:對索引瀏覽路徑上的節點的后鏈指向的頁面類型的結構化率進行識別。
[0052]具體地,首先對索引瀏覽路徑上的節點進行后鏈挖掘;然后對后鏈指向的頁面類型的所有頁面進行識別,以確定每個頁面是否具有預定的結構化類型;最后根據具有預定的結構化類型的頁面在頁面類型的所有頁面中所占的百分比確定獲取后鏈頁面類型的結構化率。
[0053]更具體地,對生成的web站點索引瀏覽路徑上的節點的后鏈指向的頁面進行頁面挖掘,獲取該后鏈指向的頁面類型,根據該頁面類型對所有屬于該頁面類型的頁面進行結構化類型識別,從屬于該頁面類型的所有頁面中獲取能被結構化的頁面,最后根據這些能夠被結構化的頁面在該頁面類型的所有頁面中所占的數量的百分比確定該后鏈指向的頁面類型的結構化率。
[0054]在本發明的一個實施例中,頁面類型包括小說閱讀頁、小說封面頁、小說列表頁、新聞標題頁、新聞內容頁、視頻標題頁及視頻觀看頁。
[0055]根據本發明實施例的web站點資源管理方法,通過對生成的web站點索引瀏覽路徑的節點后鏈上的頁面的結構化率進行判斷,能夠方便對頁面類型的過濾,確定能夠被結構化的頁面,提高用戶的體驗感。
[0056]圖3為本發明又一個實施例的web站點資源管理方法的流程圖。
[0057]如圖3所示,根據本發明實施例的web站點資源管理方法包括下述步驟。
[0058]步驟S301:獲取web站點的導航樹狀結構。
[0059]具體地,首先從web站點的首頁開始計算導航塊內的鏈接指向;然后從web站點的首頁沿著導航塊內的鏈接指向定向挖掘以生成導航樹狀結構。
[0060]更具體地,從web站點的首頁開始,根據導航塊中的各個導航鏈接所指向的頁面位置來計算導航塊內的鏈接指向,然后從web站點首頁開始,根據導航塊中的鏈接指向進行定向挖掘,從這些鏈接中,挖掘出導航塊指向的具體頁面,并根據挖掘出的頁面,從網頁內容中抽取信息建立起導航樹形結構。
[0061]步驟S302:獲取web站點的面包屑瀏覽路徑結構。
[0062]具體地,首先從用戶搜索日志中挖掘web站點的資源頁以計算面包屑;然后根據面包屑生成面包屑瀏覽路徑結構。
[0063]更具體地,通過挖掘用戶的搜索日志,根據用戶訪問日志記錄挖掘web站點底層資源頁來計算出面包屑,同時從用戶瀏覽記錄中提取出面包屑,根據該面包屑記錄構建起面包屑瀏覽路徑結構。
[0064]步驟S303:獲取web站點的url層次關系。
[0065]具體地,對web站點進行url層次結構關系分析,獲取web站點的url層次關系。
[0066]步驟S304:根據導航樹狀路徑結構、面包屑瀏覽路徑結構及url層次關系生成web站點的索引瀏覽路徑。
[0067]具體地,結合導航樹狀路徑結構、面包屑瀏覽路徑結構及url層次關系分析出web站點中到達各資源頁的路徑及各個頁面之間層次關系,生成該web站點的索引瀏覽路徑。
[0068]步驟S305:對索引瀏覽路徑上的節點的后鏈指向的頁面類型的結構化率進行識別。
[0069]具體地,首先對索引瀏覽路徑上的節點進行后鏈挖掘;然后對后鏈指向的頁面類型的所有頁面進行識別,以確定每個頁面是否具有預定的結構化類型;最后根據具有預定的結構化類型的頁面在頁面類型的所有頁面中所占的百分比確定獲取后鏈頁面類型的結構化率。
[0070]更具體地,對生成的web站點索引瀏覽路徑上的節點的后鏈指向的頁面進行頁面挖掘,獲取該后鏈指向的頁面類型,根據該頁面類型對所有屬于該頁面類型的頁面進行結構化類型識別,從屬于該頁面類型的所有頁面中獲取能被結構化的頁面,最后根據這些能夠被結構化的頁面在該頁面類型的所有頁面中所占的數量的百分比確定該后鏈指向的頁面類型的結構化率。
[0071]步驟S306:對頁面類型進行過濾以過濾掉結構化率低于預定閾值的頁面類型。[0072]具體地,根據已確定的節點后鏈指向的頁面類型的結構化率與預定的閾值進行對t匕,對結構化率低于閾值的頁面類型標注為需要消去,結構化率高于閾值的頁面類型標注為需要保留,然后根據標注對頁面類型進行過濾,過濾掉需要消去的頁面類型。
[0073]在本發明的一個實施例中,預定閾值為80%。
[0074]在本發明的一個實施例中,頁面類型包括小說閱讀頁、小說封面頁、小說列表頁、新聞標題頁、新聞內容頁、視頻標題頁及視頻觀看頁。
[0075]根據本發明實施例的web站點資源管理方法,通過對頁面類型的過濾,將結構化率不高的頁面類型或不能處理的頁面類型過濾掉,能夠方便頁面結構化,使網站結構更加清晰,提聞用戶的體驗感。
[0076]下面參考說明書附圖描述根據本發明實施例的web站點資源管理裝置。
[0077]一種web站點資源管理裝置包括:第一獲取模塊,用于獲取web站點的導航樹狀結構;第二獲取模塊,用于獲取web站點的面包屑瀏覽路徑結構;第三獲取模塊,用于獲取web站點的url層次關系;以及生成模塊,用于根據導航樹狀路徑結構、面包屑瀏覽路徑結構及url層次關系生成web站點的索引瀏覽路徑。
[0078]圖4為本發明一個實施例的web站點資源管理裝置的結構示意圖。
[0079]如圖4所示,根據本發明實施例的web站點資源管理裝置,包括:第一獲取模塊110,第二獲取模塊120,第三獲取模塊130以及生成模塊140。
[0080]具體地,第一獲取模塊110用于獲取web站點的導航樹狀結構;第二獲取模塊120用于獲取web站點的面包屑瀏覽路徑結構;第三獲取模塊130用于獲取web站點的url層次關系;以及生成模塊140用于根據導航樹狀路徑結構、面包屑瀏覽路徑結構及url層次關系生成web站點的索引瀏覽路徑。
[0081]更具體地,第一獲取模塊110用于:從web站點的首頁開始計算導航塊內的鏈接指向;以及從web站點的首頁沿著導航塊內的鏈接指向定向挖掘以生成導航樹狀結構。第二獲取模塊用于:從web站點的日志中挖掘資源頁以計算面包屑;以及根據面包屑生成面包屑瀏覽路徑結構。
[0082]例如,第一獲取模塊110從web站點的首頁開始,根據導航塊中的各個導航鏈接所指向的頁面位置來計算導航塊內的鏈接指向,然后從web站點首頁開始,根據導航塊中的鏈接指向進行定向挖掘,從這些鏈接中,挖掘出導航塊指向的具體頁面,并根據挖掘出的頁面,從網頁內容中抽取信息建立起導航樹形結構。第二獲取模塊120通過挖掘用戶的搜索日志,根據用戶訪問日志記錄挖掘web站點底層資源頁來計算出面包屑,同時從用戶瀏覽記錄中提取出面包屑,根據該面包屑記錄構建起面包屑瀏覽路徑結構。
[0083]根據本發明實施例的web站點資源管理裝置,過三個獲取模塊獲取站點的導航樹結構,面包屑瀏覽路徑結構及web站點的url層次關系再通過生成模塊來生成web站點的索引瀏覽路徑,方便了用戶在高端機上瀏覽web站點。
[0084]圖5為本發明另一個實施例的web站點資源管理裝置的結構示意圖。
[0085]如圖5所示,根據本發明實施例的web站點資源管理裝置,包括:第一獲取模塊110,第二獲取模塊120,第三獲取模塊130、生成模塊140以及識別模塊150。
[0086]具體地,第一獲取模塊110用于獲取web站點的導航樹狀結構;第二獲取模塊120用于獲取web站點的面包屑瀏覽路徑結構;第三獲取模塊130用于獲取web站點的url層次關系;以及生成模塊140用于根據導航樹狀路徑結構、面包屑瀏覽路徑結構及url層次關系生成web站點的索引瀏覽路徑;
[0087]識別模塊150用于對索引瀏覽路徑上的節點指向的后鏈的頁面類型進行識別。
[0088]更具體地,第一獲取模塊110用于:從web站點的首頁開始計算導航塊內的鏈接指向;以及從web站點的首頁沿著導航塊內的鏈接指向定向挖掘以生成導航樹狀結構。第二獲取模塊用于:從web站點的日志中挖掘資源頁以計算面包屑;以及根據面包屑生成面包屑瀏覽路徑結構;
[0089]識別模塊150用于對索引瀏覽路徑上的節點進行后鏈挖掘;對后鏈指向的頁面類型的所有頁面進行識別,以確定每個頁面是否具有預定的結構化類型;以及根據具有預定的結構化類型的頁面在頁面類型的所有頁面中所占的百分比確定獲取后鏈頁面類型的結構化率。
[0090]例如,第一獲取模塊110從web站點的首頁開始,根據導航塊中的各個導航鏈接所指向的頁面位置來計算導航塊內的鏈接指向,然后從web站點首頁開始,根據導航塊中的鏈接指向進行定向挖掘,從這些鏈接中,挖掘出導航塊指向的具體頁面,并根據挖掘出的頁面,從網頁內容中抽取信息建立起導航樹形結構。第二獲取模塊120通過挖掘用戶的搜索日志,根據用戶訪問日志記錄挖掘web站點底層資源頁來計算出面包屑,同時從用戶瀏覽記錄中提取出面包屑,根據該面包屑記錄構建起面包屑瀏覽路徑結構。識別模塊150對生成的web站點索引瀏覽路徑上的節點的后鏈指向的頁面進行頁面挖掘,獲取該后鏈指向的頁面類型,根據該頁面類型對所有屬于該頁面類型的頁面進行結構化類型識別,從屬于該頁面類型的所有頁面中獲取能被結構化的頁面,最后根據這些能夠被結構化的頁面在該頁面類型的所有頁面中所占的數量的百分比確定該后鏈指向的頁面類型的結構化率。
[0091]在本發明的一個實施例中,頁面類型包括小說閱讀頁、小說封面頁、小說列表頁、新聞標題頁、新聞內容頁、視頻標題頁及視頻觀看頁。
[0092]根據本發明實施例的web站點資源管理裝置,通過對生成的web站點索引瀏覽路徑的節點后鏈上的頁面的結構化率進行判斷,能夠方便對頁面類型的過濾,提高用戶的體驗感。
[0093]圖6為本發明另一個實施例的web站點資源管理裝置的結構示意圖。
[0094]如圖6所示,根據本發明實施例的web站點資源管理裝置,包括:第一獲取模塊110,第二獲取模塊120,第三獲取模塊130、生成模塊140、識別模塊150以及標注模塊160。
[0095]具體地,第一獲取模塊110用于獲取web站點的導航樹狀結構;第二獲取模塊120用于獲取web站點的面包屑瀏覽路徑結構;第三獲取模塊130用于獲取web站點的url層次關系;以及生成模塊140用于根據導航樹狀路徑結構、面包屑瀏覽路徑結構及url層次關系生成web站點的索引瀏覽路徑。識別模塊150用于對索引瀏覽路徑上的節點指向的后鏈的頁面類型進行識別;
[0096]標注模塊160用于對頁面類型進行標注,對結構化率低于預定閾值的頁面類型標
注為需要去掉。
[0097]更具體地,第一獲取模塊110用于:從web站點的首頁開始計算導航塊內的鏈接指向;以及從web站點的首頁沿著導航塊內的鏈接指向定向挖掘以生成導航樹狀結構。第二獲取模塊用于:從web站點的日志中挖掘資源頁以計算面包屑;以及根據面包屑生成面包屑瀏覽路徑結構。識別模塊150用于對索引瀏覽路徑上的節點進行后鏈挖掘;對后鏈指向的頁面類型的所有頁面進行識別,以確定每個頁面是否具有預定的結構化類型;以及根據具有預定的結構化類型的頁面在頁面類型的所有頁面中所占的百分比確定獲取后鏈頁面類型的結構化率;
[0098]標注模塊160根據識別模塊150出的頁面類型的結構化率進行標注,將結構化率低于預定閾值的頁面類型標注為需要消去,將結構化率高于預定閾值的頁面類型標注為需要保留,然后再根據標注將需要消去的頁面類型過濾掉。
[0099]例如,第一獲取模塊110從web站點的首頁開始,根據導航塊中的各個導航鏈接所指向的頁面位置來計算導航塊內的鏈接指向,然后從web站點首頁開始,根據導航塊中的鏈接指向進行定向挖掘,從這些鏈接中,挖掘出導航塊指向的具體頁面,并根據挖掘出的頁面,從網頁內容中抽取信息建立起導航樹形結構。第二獲取模塊120通過挖掘用戶的搜索日志,根據用戶訪問日志記錄挖掘web站點底層資源頁來計算出面包屑,同時從用戶瀏覽記錄中提取出面包屑,根據該面包屑記錄構建起面包屑瀏覽路徑結構。識別模塊150對生成的web站點索引瀏覽路徑上的節點的后鏈指向的頁面進行頁面挖掘,獲取該后鏈指向的頁面類型,根據該頁面類型對所有屬于該頁面類型的頁面進行結構化類型識別,從屬于該頁面類型的所有頁面中獲取能被結構化的頁面,最后根據這些能夠被結構化的頁面在該頁面類型的所有頁面中所占的數量的百分比確定該后鏈指向的頁面類型的結構化率。
[0100]在本發明的一個實施例中,預定閾值為80%。
[0101]在本發明的一個實施例中,頁面類型包括小說閱讀頁、小說封面頁、小說列表頁、新聞標題頁、新聞內容頁、視頻標題頁及視頻觀看頁。
[0102]根據本發明實施例的web站點資源管理裝置,通過標注模塊,對頁面類型的進行標注,將然后將標注為需要消去的頁面類型或不能處理的頁面類型過濾掉,能夠方便頁面結構化,使網站結構更加清晰,提高用戶的體驗感。
[0103]在本說明書的描述中,參考術語“一個實施例”、“一些實施例”、“示例”、“具體示例”、或“一些示例”等的描述意指結合該實施例或示例描述的具體特征、結構、材料或者特點包含于本發明的至少一個實施例或示例中。在本說明書中,對上述術語的示意性表述不一定指的是相同的實施例或示例。而且,描述的具體特征、結構、材料或者特點可以在任何的一個或多個實施例或示例中以合適的方式結合。
[0104]盡管已經示出和描述了本發明的實施例,對于本領域的普通技術人員而言,可以理解在不脫離本發明的原理和精神的情況下可以對這些實施例進行多種變化、修改、替換和變型,本發明的范圍由所附權利要求及其等同限定。
【權利要求】
1.一種web站點資源管理方法,其特征在于,包括以下步驟: 獲取所述web站點的導航樹狀結構; 獲取所述web站點的面包屑瀏覽路徑結構; 獲取所述web站點的url層次關系;以及 根據所述導航樹狀路徑結構、所述面包屑瀏覽路徑結構及所述url層次關系生成所述web站點的索引瀏覽路徑。
2.根據權利要求1所述的方法,其特征在于,進一步包括步驟:對所述索引瀏覽路徑上的節點的后鏈指向的頁面類型的結構化率進行識別。
3.根據權利要求2所述的方法,其特征在于,進一步包括步驟: 對所述頁面類型進行過濾以過濾掉結構化率低于預定閾值的頁面類型。
4.根據權利要求2或3所述的方法,其特征在于,對所述索引瀏覽路徑上的節點的后鏈指向的頁面類型的結構化率進行識別包括: 對所述索引瀏覽路徑上的節點進行后鏈挖掘; 對所述后鏈指向的頁面類型的所有頁面進行識別,以確定每個頁面是否具有預定的結構化類型;以及 根據具有預定的結構化類型的頁面在所述頁面類型的所有頁面中所占的百分比確定獲取所述后鏈頁面類型的結構化率。
5.根據權利要求3或4所`述的方法,其特征在于,所述預定閾值為80%。
6.根據權利要求2或3所述的方法,其特征在于,所述頁面類型包括小說閱讀頁、小說封面頁、小說列表頁、新聞標題頁、新聞內容頁、視頻標題頁及視頻觀看頁。
7.根據權利要求1-3中任一項所述的方法,其特征在于,獲取所述web站點的導航樹狀結構的步驟包括: 從所述web站點的首頁開始計算導航塊內的鏈接指向;以及 從所述web站點的首頁沿著所述導航塊內的鏈接指向定向挖掘以生成所述導航樹狀結構。
8.根據權利要求1-3中任一項所述的方法,其特征在于,獲取所述web站點的面包屑瀏覽路徑結構的步驟包括: 從用戶搜索日志中挖掘所述web站點的資源頁以計算面包屑;以及 根據所述面包屑生成所述面包屑瀏覽路徑結構。
9.一種web站點資源管理裝置,其特征在于,包括以下步驟: 第一獲取模塊,所述第一獲取模塊用于獲取所述web站點的導航樹狀結構; 第二獲取模塊,所述第二獲取模塊用于獲取所述web站點的面包屑瀏覽路徑結構;第三獲取模塊,所述第三獲取模塊用于獲取所述web站點的url層次關系;以及生成模塊,所述生成模塊用于根據所述導航樹狀路徑結構、所述面包屑瀏覽路徑結構及所述url層次關系生成所述web站點的索引瀏覽路徑。
10.根據權利要求9所述的裝置,其特征在于,進一步包括: 識別模塊,所述識別模塊用于對所述索引瀏覽路徑上的節點指向的后鏈的頁面類型進行識別。
11.根據權利要求10所述的裝置,其特征在于,進一步包括:標注模塊,對所述頁面類型進行標注,對結構化率低于預定閾值的頁面類型標注為需要去掉。
12.根據權利要求10或11所述的裝置,其特征在于,所述識別模塊用于: 對所述索引瀏覽路徑上的節點進行后鏈挖掘; 對所述后鏈指向的頁面類型的所有頁面進行識別,以確定每個頁面是否具有預定的結構化類型;以及 根據具有預定的結構化類型的頁面在所述頁面類型的所有頁面中所占的百分比確定獲取所述后鏈頁面類型的結構化率。
13.根據權利要求11或12所述的裝置,其特征在于,所述預定閾值為80%。
14.根據權利要求11或12所述的裝置,其特征在于,所述頁面類型包括小說閱讀頁、小說封面頁、小說列表頁、新聞標題頁、新聞內容頁、視頻標題頁及視頻觀看頁。
15.根據權利要求9-10中任一項所述的裝置,其特征在于,所述第一獲取模塊用于: 從所述web站點的首頁開始計算導航塊內的鏈接指向;以及 從所述web站點的首頁沿著所述導航塊內的鏈接指向定向挖掘以生成所述導航樹狀結構。
16.根據權利要求9-10中任一項所述的裝置,其特征在于,所述第二獲取模塊用于: 從所述web站點的日志中挖掘資源頁以計算面包屑;以及 根據所述面包屑生成所述面包屑瀏覽路徑結構。
【文檔編號】G06F17/30GK103514232SQ201210227112
【公開日】2014年1月15日 申請日期:2012年6月29日 優先權日:2012年6月29日
【發明者】王正華, 李偉剛, 薛晶晶, 王佳 申請人:百度在線網絡技術(北京)有限公司
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
主站蜘蛛池模板: 利津县| 千阳县| 金阳县| 塔城市| 连州市| 双流县| 灌云县| 丰顺县| 菏泽市| 乐山市| 乐都县| 吉林省| 张家川| 柳河县| 东港市| 宁乡县| 乌什县| 扶绥县| 鹿邑县| 昂仁县| 瑞昌市| 虞城县| 成安县| 绍兴市| 响水县| 化德县| 榆林市| 台北市| 平顺县| 上犹县| 泰安市| 北海市| 万宁市| 逊克县| 东兴市| 县级市| 乳山市| 叶城县| 屏南县| 无棣县| 五家渠市|