一種實時搜索的方法、裝置和系統的制作方法

文檔序號：6362944閱讀：199來源：國知局

專利名稱：一種實時搜索的方法、裝置和系統的制作方法
技術領域：
本發明涉及一種網絡搜索領域，特別涉及一種方法、裝置和系統。
背景技術：
對大到全世界，小到每個企業、商家，甚至是一個家庭和個人來說，信息是人們工作與生活關系最為密切的重要因素。雖然這些年來搜索引擎的技術是越來越先進，可是在互聯網上的信息搜索不論成功與否仍然存在一個很大的問題。使用過搜索引擎的人都有過這樣的感受有的時候會搜不到你想要的結果，相反的，有的時候竟會搜索出上百萬條不需要的結果。而實際上，第二種結果是最令人頭疼也是最難以處理的。如果想從這百萬條搜索結果中找到自己真正需要的信息，就如同是大海撈針。假設互聯網是一個巨型圖書館，包羅萬象。在圖書館建設初期，圖書館里的圖書數量較少，擺放雜亂無章，用戶查找信息，需要自己一本一本的翻，這是互聯網的初級階段。過了一段時間，開始有管理員把這些信息分門別類的進行整理，并提供一個目錄供我們查找，這個管理員就是門戶網站，這是以雅虎為代表的門戶網站輝煌的階段。后來，開始出現更聰明的管理員，組織一批人，把圖書館里的圖書一本一本看個遍，然后把書本的內容編錄成一個巨大的索引，向公眾提供服務，公眾只要告訴管理員我需要什么樣的圖書，管理員就把包含你所要的內容的所有圖書告訴你，并告訴你每一本書具體放在什么位置，自己去找來看就可以了，這個聰明的管理員就是以google為代表的搜索引擎。但是圖書館時刻都有新入館的圖書和已過時被退館的圖書，傳統管理員沒有辦法及時知道這些信息，現在我們需要一個更高級的管理員，不僅能按我的要求告訴我哪些圖書是我需要的，還要能夠記住我的要求，每當有新的圖書入館時，只要與我的需求匹配，就第一時間通知到我，讓我可以及時過來取閱圖書，這，即為實時搜索。我們做實時搜索，目的就是第一時間獲取互聯網新出現的信息，并通知到用戶，讓用戶及時地查看到自己需要的信息。實時搜索對于時效性較強的互聯網應用具有巨大的價值。目前最典型的應用領域就是針對微博的搜索。我們可以看到，微博流行已有超過三年的時間了，但針對微博的搜索引擎卻遲遲沒有出現，直到最近一年內，各大主流搜索引擎才相繼推出針對微博實時搜索的能力。google針對twitter的實時搜索由于尚未成熟目前并沒有著力推廣，有道是國內做實時搜索比較好的，但其搜索對象只是網易本身的微博，騰訊自己的實時搜索也只針對自己的微博，而且并沒有正式推廣。目前國內做微博實時搜索較有優勢的，是今年(2011)2 月份才剛剛發布的盤古搜索，其搜索的對象涵蓋了騰訊、新浪、搜狐、網易等主流微博，并在繼續拓展中。由于門檻較高，一些小型搜索引擎尚未完全突破技術難關，因此微博實時搜索目前尚處于摸著石頭過河的初級階段，并沒有任何一家具備足夠的實力形成壟斷優勢。另一方面，實時搜索應用在生活信息領域也具備重大的價值。目前國內生活信息網站發展如火如荼，某些生活信息對時效性要求較高，如某些緊缺資源的租售信息、某些讓利促銷源就已經被別人搶占了。由于門檻較高，目前在生活信息領域，國內尚沒有發現生活信息實時搜索的進入者，傳統大型通用搜索引擎大多采用定期對新采集到的數據建立增量索引，定期合并增量索引與全量索引庫，定期更新全量索引庫的做法，這種做法有以下幾個不足1.由于增量索引是定期建立的，因此無法做到實時更新數據。新增的數據只能被緩存，等到下一個索引更新周期到來時，才被建進索引，從而才能被搜索到。基于這樣的機制，經過優化的增量索引能夠做到分鐘級分鐘)的準實時效果。2.增量索引與全量索引庫的合并機制較為復雜，難于控制。如果采用單個增量索引單個全量索引的方式，將會由于全量索引在長期運營中變得極大而導致合并過程極為緩慢，從而也會影響到檢索性能。如果采用多級增量索引多級全量索引庫的方式，那么增量索引中包含的對現有數據的更新和刪除操作，將會被分布在多個全量索引庫中，合并時需要額外的管理機構協助處理，大幅增加系統復雜性，同時也容易存在數據不一致的問題。3.傳統索引通常針對某一個具體應用建立一份索引，每個具體索引及其配套資源 (如分詞器、相似度計算器等)都是獨立的，多個索引之間的配套資源不能共享。比如分詞器的詞庫會占用大量內存，如果多個索引部署在同一臺服務器，每個索引必須獨自加載一個詞庫，造成大量內存浪費。

發明內容
為了解決以上的技術問題，本發明提供一種實時搜索方法、裝置和系統。本發明公開了一種實時搜索方法，包括Si.設定系統指定的興趣點數據；S2.根據所述的興趣點數據從目標網站上抓取關聯數據至系統中；S3.根據預設的數據采集周期遍歷所述的目標網站；S4.判斷所述的目標網站是否有更新的目標網站，所述的更新包括新出現的網頁，改變過的網頁；若否，返回步驟S2，若是，進入步驟S5 ；S5.抓取所述的更新的目標網站上的關聯數據至所述的系統并更新，實現同步采集，分類顯示搜索信息。在本發明所述的實時搜索方法中，所述的步驟Sl至步驟S2之間還包括下列步驟Sll.通過對大量數據的樣本分析，提煉出結構模型庫，自動生成提取模板；S12.預處理所述的興趣點數據，計算和所述的結構模型庫的相似度，來判定關聯數據的結構。在本發明所述的實時搜索方法中，所述的分類顯示搜索信息包括生活淘寶、生活分類、生活商鋪、生活圈子以及生活應用，所述的生活淘寶下的二級目錄包括房產信息、生活服務、交友征婚、車輛買賣服務、寵物/寵物用品、跳蚤市場、求職簡歷、招聘信息、商務服務；所述的生活分類二級目錄包括不同城市的房產信息、跳蚤市場、車輛買賣與服務、票務優惠券、教育培訓；所述的生活商街的二級目錄包括不同城市的美食、購物、麗人、休閑、酒店、健身、旅游；所述的生活圈子二級目錄包括網頁、圖片、視頻；所述的生活應用二級目錄包括娛樂、游戲、工具；其中，所述的二級目錄下均具有三級目錄，所述的三級目錄為具體的程序。在本發明所述的實時搜索方法中，所述的提取模板包括網頁標識、網頁類型、內容類別、標題、關鍵詞、摘要、正文、相關鏈接。本發明公開了一種實時搜索的裝置，用于實現上述的方法，包括興趣點數據設定單元設定系統指定的興趣點數據；關聯數據抓取單元用于根據所述的興趣點數據從目標網站上抓取關聯數據至系統中；目標網站遍歷單元與所述的關聯數據抓取單元相連，用于根據預設的數據采集周期遍歷所述的目標網站；目標網站更新判斷單元與所述的目標網站遍歷單元相連，用于判斷所述的目標網站是否有更新的目標網站，所述的更新包括新出現的網頁，改變過的網頁；目標網站更新抓取單元與所述的目標網站更新判斷單元相連，用于抓取所述的更新的目標網站上的關聯數據至所述的系統并更新，實現同步采集，分類顯示搜索信息。在本發明所述的實時搜索裝置中，還包括提取模板生成單元及關聯數據結構判定單元，所述的提取模板生成單元與所述的興趣點數據設定單元相連，用于通過對大量數據的樣本分析，提煉出結構模型庫，自動生成提取模板；關聯數據結構判定單元與所述的提取模板生成單元及關聯數據抓取單元相連，用于預處理所述的興趣點數據，計算和所述的結構模型庫的相似度，來判定關聯數據的結構。本發明公開了一種實時搜索系統，包括搜索網站的搜索器，與所述的搜索器相連的用于控制所述的搜索器的控制器，與所述的控制器相連的原始數據庫，與所述的原始數據庫相連的索引器，與所述的索引器相連的索引數據庫，與所述的索引數據庫相連的檢索器，所述的檢索器與人機交互單元相連，還包括所述的檢索器包括權利要求5中所述的實時搜索的裝置。在本發明所述的實時搜索系統中，還包括用戶行為數據庫以及日志分析器，所述的用戶行為數據庫與所述的人機交互單元相連，所述的日志分析器與所述的原始數據庫以及索引數據庫及用戶行為日志數據庫分別相連，用于搜索內容不可預測的用戶查詢。在本發明所述的實時搜索系統中，所述的人機交互單元包括鍵盤/顯示器/觸摸屏。在本發明所述的實時搜索系統中，所述的實時搜索系統包括至少一個索引服務器，所述的索引服務器包括至少一個分片服務器，所述的索引服務器通過所述的分片服務器實現關聯數據的搜索。實施本發明的一種實時搜索方法、裝置和系統，具有以下有益的技術效果1.在搜索策略上采用了獨創的基于產品分類的優化路由算法，只采集系統指定的興趣點數據。這個算法的最大的好處，是無需遍歷大量無價值數據的路徑，通過對照我們預設的分類關聯路徑樹，自動將目標網站的路徑歸類成有效遍歷數，大大減少了垃圾數據的抓爬，極大提高了數據采集的速度。2.在預處理階段采用獨創的自動結構化數據抽取智能模板(DocView)技術，通過對大量數據的樣本分析，提煉出結構模型庫，自動生成提取模板。在數據預處理的時候，計算和結構模型庫的相似度，來判定對數據的結構。并且能夠根據歷史數據對變動過的網頁自動調整模板。3.準實時數據爬取技術，通過分布式爬蟲技術，做到比較實時的采集網上新出現的數據。

圖1是本發明實施例一種實時搜索方法流程圖；圖2是本發明實施例一種實時搜索裝置結構方框圖；圖3為本發明實施例一種實時搜索系統構造圖；圖4是本發明實施例一種實時搜索系統功能架構圖。
具體實施例方式為詳細說明本發明的技術內容、構造特征、所實現目的及效果，以下結合實施方式并配合附圖詳予說明。互聯網規模的幾何級數增長和萬維網的缺乏規范性，使網絡信息檢索與傳統信息檢索相比呈現出明顯的不同之處互聯網絡信息檢索面向的對象為海量數據；互聯網絡信息檢索所提供的信息內容包羅萬象，形式五花八門。為了能給用戶提供結構化的，直觀的數據，我們必須把采集下來的網頁進去去噪，過濾，凈化，主題信息結構化抽取等一系列數據處理。目前主流的搜索引擎在結構化數據提取領域都比較弱，百度和谷歌等通用搜索引擎都只對采集回來的數據做去標簽處理，通用搜索引擎的性質，決定了其不能滿足特殊領域、特殊人群的精準化信息需求服務。市場需求多元化決定了搜索引擎的服務模式必將出現細分，針對不同行業提供更加精確的行業服務模式。可以說通用搜索引擎的發展為垂直搜索引擎的出現提供了良好的市場空間，勢必將出現垂直搜索引擎在互聯網中占據部分市場的趨勢，也是搜索引擎行業細分化的必然趨勢。為了能更好的聚合信息，從海量信息里提取出結構化的數據，為用戶提供更好的用戶體驗。如今，通過人們對互聯網不斷地研究與發展，利用分類學原理誕生出了一種新的網絡信息傳播載體一分類信息網。分類信息又被稱之為分類廣告，就如同人們在報刊上查找招聘信息、租房信息、旅游信息、打折促銷廣告一樣，這些信息就是我們所指的分類信息。在信息社會，分類信息逐步受到人們的廣泛青睞。網絡分類信息的崛起，非常完美的解決了許多不便的重要問題。分類信息網不僅信息量大，更及時，而且不會丟失，還有更重要的一點是它利用搜索引擎，查找起來更方面、更快捷！分類信息網的出現更好的幫助人們解決了衣、食、住、行、娛樂、情感、教育、職業、商業等生活和工作方方面面所遇到的問題，也為人們的工作生活注入了新鮮的活力，不斷引領著現代新生活革命！本發明技術方案所述的搜索系統，取名為愛咕搜系統，其生活搜索是聚合互聯網
7上所有的本地生活信息和經驗，幫助每個中國人輕松實現更自由、更有品質的生活，愛咕生活搜索創新的“生活搜索+社交模式”，為3億網民和7億手機用戶提供了最方便有效的生活搜索服務。請參閱圖1，一種實時搜索方法，包括Si.設定系統指定的興趣點數據；Sll.通過對大量數據的樣本分析，提煉出結構模型庫，自動生成提取模板；提取模板(DocView模型)包括網頁標識、網頁類型、內容類別、標題、關鍵詞、摘要、正文、相關鏈接等要素。其中正文和相關鏈接要素屬于網頁的內容數據，而其他6項則屬于網頁的元數據。下面將對模型中的各個要素作詳細描述。網頁標識是對Web上網頁的唯一性標識，在DocView模型中使用網頁的URL作為網頁標識。網頁類型是根據網頁內容的表現形式進行劃分的，在本節中將網頁分為三類有主題網頁(topic)、Hub網頁(hub)、圖片網頁(pic)。其中，有主題網頁是指網頁中通過文字描述了一件或多件事物，是有一定主題的；如一張具體的新聞網頁就是典型的有主題網頁。Hub網頁是指專門用來提供網頁導向的網頁，因而是超鏈聚集的網頁；如門戶網站的首頁就是典型的Hub網頁。圖片網頁是指網頁的內容是通過圖片的形式體現的，其中文字很少，僅僅是對圖片的一個說明；如某個機構包含圖片的人員介紹網頁就是典型的圖片網頁。將網頁分為上述三個類型是因為三類網頁在用途和處理方法上存在較大的差別。其中Hub網頁與其它兩類網頁的區別在于網頁在Web上發揮的作用不同，Hub網頁通常不會具體的講述一件事物，而是提供關于相關信息的鏈接集。而圖片網頁與其它兩類網頁的區別在于處理的方法不同，由于圖片網頁的內容是通過圖片表達的而不是通過文字，因而，傳統信息處理領域的方法對圖片網頁是不夠有效的。三類網頁間的區別導致很多應用領域都會對它們作適當的區別。內容類別是從語義上對網頁的內容進行分類，它是計算機獲取網頁語義信息的一個直接手段，在Web上的研究領域中有著廣泛的使用。它是通過特定的分類器對網頁內容分類得到的，依賴于一定的分類體系。標題、關鍵詞和摘要是概括描述Web文檔內容的重要的元數據，對于Web信息檢索等領域的工作有非常重要的作用。正文是原始網頁中真正描述主題的部分，因此，在某些具體應用中用正文代替原始網頁更為合理。相關鏈接是指在本網頁中指向與正文內容相關的網頁的鏈接，而非廣告等噪音鏈接。將正文和相關超鏈重新組合就得到了凈化后的網頁。S12.預處理所述的興趣點數據，計算和所述的結構模型庫的相似度，來判定關聯數據的結構。S2.根據所述的興趣點數據從目標網站上抓取關聯數據至系統中；S3.根據預設的數據采集周期遍歷所述的目標網站；愛咕搜系統使用的是準實時搜索方案，首先系統會定期搜集，每次搜集替換上一次的內容，我們稱之為“批量搜集”。由于每次都是重新來一次，對于大規模搜索引擎來說，每次搜集的時間通常會花幾周。而由于這樣做開銷較大，通常兩次搜集的間隔時間也不會很短(例如Google在一段時間曾是每隔觀天來一次)。這樣做的好處是系統實現比較簡單，主要缺點是“時新性”(freshness)不高，還有重復搜集所帶來的額外帶寬的消耗，系統目前的定期采集周期是15天。S4.判斷所述的目標網站是否有更新的目標網站，所述的更新包括新出現的網頁，改變過的網頁；為了解決時效性不高的問題，愛咕搜系統使用增量搜集方案，開始時搜集一批，往后只是(1)搜集新出現的網頁，(2)搜集那些在上次搜集后有過改變的網頁，(3)發現自從上次搜集后已經不再存在了的網頁，并從庫中刪除。由于除新聞網站外，許多網頁的內容變化并不是很經常的(有研究指出50%網頁的平均生命周期大約為50天[Cho and Garcia-Molina，2000]，[Cho，2002])，這樣做每次搜集的網頁量不會很大，同時可以做到比較實時的采集網上新出現的數據，從目前系統數據來看，我們的分布式爬蟲基本可以做到1小時內新的數據能同步采集，對于某些實時性更高的需求，可以做到分鐘級別的采集。S5.抓取所述的更新的目標網站上的關聯數據至所述的系統并更新，實現同步采集，分類顯示搜索信息。所述的分類顯示搜索信息包括生活淘寶、生活分類、生活商鋪、生活圈子以及生活應用。本方法中愛咕搜引擎自主研發了智能模板提取模板(DocView)模型用來對采集來的數據進行去噪和結構化信息提取。DocView模型特點可對任意的正常網頁進行抽取，完全自動化，不用對具體網站事先生成模板，對每個網頁自動實時得生成抽取規則，完全不需要人工干預。智能抽取準確率高，不是機械的匹配，采用智能分析技術，準確率能達到98%以上。能保證較快處理速度，由于采用頁面的智能分析技術，先去除了垃圾塊，降低分析的壓力，是處理速度大大提高。通用性較好，易于維護，只需設定參數、配置相應的特征就能改進相應的抽取性能；一般的非專業人員經過簡單培訓就能維護。進入本搜索引擎，系統會彈出一個搜索說明，告知用戶可以搜索“房產信息、生活服務、交友征婚、車輛買賣服務、寵物以及寵物用品、跳蚤市場、求職簡歷、招聘信息、熱門行業、教育培訓”等等。本搜索引擎包括五大類生活服務，讓用戶分享各類生活服務，包括生活淘寶、生活分類、生活商街、生活圈子以及生活應用，以滿足用戶在內容信息層面的基本需求為目標的搜索服務，例如生活、購物、旅游、新聞、網頁、軟件、圖片、音樂、視頻、地圖搜索等，將搜索基礎服務打造成為基本需求層面的、標準統一、開放性的服務產品集群，可橫向自由擴展，分階段、有序地實施，為增值服務提供能力支撐。其中，1.點擊生活淘寶按鈕，則進入各類生活買賣信息搜索，生活淘寶功能模塊包括垂直實生活本索、內容交互、站外分享等；如可顯示“大梅沙海景房200元/日，搶購中”之類的酒店服務，如用戶可以網站發貼求家教的信息等等，該搜索引擎支持不同的城市的生活服務，支持不同的時間選項進行抓取搜索信息，支持微博的功能，可以對感興趣的用戶進行關注。2.點擊生活分類按鈕，則進入各類生活分類信息搜索，生活分類功能模塊包括本地化分類發布、信息展示、站內本地化搜索等；如可顯示“深圳房產信息”、“深圳跳蚤市場”、“深圳教育培訓”等菜單，該該搜索引擎支持不同的城市的生活分類服務，支持發布信息以及刪除信息。3.點擊生活商街按鈕，則進入各類生活商鋪信息搜索，生活商街功能模塊包括本地生活商鋪搜索、商鋪添加發布、商鋪點評等；該該搜索引擎支持不同的城市的生活商街服務，支持發布信息以及刪除信息。4.點擊生活圈子按鈕，則進入各類生活圈子信息搜索，生活圈子功能模塊包括生活信息收藏討論分享、網站收藏、圖片收藏等；該該搜索引擎支持不同的城市的生活圈子服務，支持發布信息以及刪除信息。5.點擊生活應用按鈕，則進入各類生活應用信息搜索，生活應用功能模塊包括生活應用分享、生活應用添加等。如用戶可進行彩票查詢，列車時刻查詢等服務，同樣，該搜索引擎支持不同的城市的生活服務，支持不同的時間選項進行抓取搜索信息，支持微博的功能，可以對感興趣的用戶進行關注。請參閱圖2、一種實時搜索的裝置1，用于實現上述的方法，包括興趣點數據設定單元10、提取模板生成單元15、關聯數據結構判定單元20、關聯數據抓取單元25、目標網站遍歷單元30、目標網站更新判斷單元40、目標網站更新抓取單元50。興趣點數據設定單元10 設定系統指定的興趣點數據；提取模板生成單元15與興趣點數據設定單元10相連，用于通過對大量數據的樣本分析，提煉出結構模型庫，自動生成提取模板；關聯數據結構判定單元20與提取模板生成單元15及關聯數據抓取單元25相連，用于預處理所述的興趣點數據，計算和所述的結構模型庫的相似度，來判定關聯數據的結構。關聯數據抓取單元25:用于根據所述的興趣點數據從目標網站上抓取關聯數據至系統中；目標網站遍歷單元30 與所述的關聯數據抓取單元25相連，用于根據預設的數據采集周期遍歷所述的目標網站；目標網站更新判斷單元40 與目標網站遍歷單元30相連，用于判斷所述的目標網站是否有更新的目標網站，所述的更新包括新出現的網頁，改變過的網頁；目標網站更新抓取單元50 與目標網站更新判斷單元40相連，用于抓取所述的更新的目標網站上的關聯數據至所述的系統并更新，實現同步采集。請參閱圖3、一種實時搜索系統，包括搜索網站的搜索器100，與搜索器100相連的用于控制所述的搜索器100的控制器110，與控制器110相連的原始數據庫120，與原始數據庫120相連的索引器130，與索引器130相連的索引數據庫140，與索引數據庫140相連的檢索器150，檢索器150與人機交互單元160相連，檢索器150包括上述的實時搜索的裝置1及用戶行為數據庫170以及日志分析器180，用戶行為數據庫170與人機交互單元 160相連，日志分析器180與所述的原始數據庫120以及索引數據庫140及用戶行為日志數據庫170分別相連，用于搜索內容不可預測的用戶查詢。
10
其中，人機交互單元160包括鍵盤/顯示器/觸摸屏，實時搜索系統包括至少一個索引服務器，所述的索引服務器包括至少一個分片服務器，所述的索引服務器通過所述的分片服務器實現關聯數據的搜索。本系統是基于Iucene構建的分布式實時索引系統，系統中包含一個或多個 master節點，我們稱為索引服務器(indexserver)，包含一個或多個data節點，我們稱為分片服務器(shardserver)，系統支持建立多個索引，我們稱為index，每個索引在系統中會被分割成一個或多個索引分片，我們稱為shard，shard按其中包含數據startkey和endkey 進行劃分，每個index的眾多shard會被分布在多個shardserver中，index禾口 shard的所有信息由indexserver維護。因此indexserver是整個集群的中樞，一旦失效整個集群都不可用，所以需要引入防止單點失效機制，這個機制由zookeeper支持，即系統的實時落到實處就是shard的實時。indexbase保存了系統所有shard的分布信息，當新數據請求找不到對應的shard 時，會創建新的shard，那么這個shard該在哪里創建呢？這便涉及到一個負載均衡的問題，我們的目標是讓系統中每個節點的數據量盡可能的均勻。Indexkise中保存了所有節點的信息，其中包含了每個節點上的數據量，這個數據量是節點上所有shard的數據量總和，每次客戶端請求shard時，都會更新這個值，增數據則加，刪數據則減。這樣一來負載均衡就比較好做了，每次新創建shard時，指定該shard存放在數據量最小的那個節點上，客戶端取得shard信息后，將會根據shard指示的信息到相應位置創建相應的shard。另外在做數據冗余備份時也是根據節點數據量來創建一個shard的備份shard 的。愛咕搜垂直搜索爬蟲是以一定的策略在Web上搜集和發現信息，在對信息進行處理和組織后，為用戶提供某些信息查詢服務的應用，主要由三大部分組成抓取系統，索引系統和搜索系統。抓取系統也就是蜘蛛程序，負責從信息源抓取數據，蜘蛛程序通常是基于預先構造的模板工作的，無模板的蜘蛛程序只能處理結構相對簡單的信息，抓取系統涉及的關鍵技術點有爬行路徑分析、增量抓取與全抓取、信息構造完整性、信息唯一性識別、多網頁信息整合、自動標引等。索引系統把抓來的信息建立類似書目的數據文件，以便于實現高速檢索。索引系統涉及的關鍵技術點有分詞技術、預評分和后評分、增量索引與全索引、排序技術、熱點詞高速緩存、標準檢索語句解析等。搜索系統提供搜索功能的網站。愛咕搜引擎的數據不僅包括內容不可預測的用戶查詢，還要包括在數量上動態變化的海量網頁，并且這些網頁不會主動送到系統來，而是需要由系統去抓取。在網絡比較暢通的情況下，從網上下載一篇網頁大約需要1秒鐘左右，因此如果在用戶查詢的時候即時去網上抓來成千上萬的網頁，一個個分析處理，和用戶的查詢匹配，不可能滿足搜索引擎的響應時間要求。不僅如此，這樣做的系統效益也不高(會重復抓取太多的網頁)；面對大量的用戶查詢，不可能想象每來一個查詢，系統就到網上“搜索”一次。目前某些引擎(谷姐，雨林木風116)的聚合搜索就是使用了即時搜索，但那是一種偽搜索，他們只是調用了某些搜索引擎的搜索接口，與本發明所述的一種實時搜索系統技術方案是不同的。愛咕生活分類垂直搜索特點在于人們在互聯網上發布簡明扼要的分類廣告，包括日常生活所需要的各種服務和產品，供有需求的互聯網用戶免費瀏覽。常見的分類信息形式有房屋出租、工作招聘，二手轉讓、票卡買賣、同城交友，等等。分類信息網站的瀏覽量巨大其優勢在于便捷性網民在網上獲取分類信息是主動的，只要對某樣產品或服務感興趣，僅需輕按鼠標就能進一步了解更多、詳細的信息，從而使網民能夠按照自己的選擇親身體驗產品、服務。精準性愛咕搜索分類信息是典型有自己閱讀率的廣告，在分類信息上，可以通過訪客流量統計系統精確統計出每條分類信息的瀏覽次數，這些量化的銷售數據有助于廣告主正確評估廣告效果，審定廣告投放策略。海量性分類信息講究規模效應，網絡分類信息的信息容量幾乎無限，尤其是網絡分類信息還利用超級鏈接，可以使用詳細的分層類目，構建龐大的數據庫，提供最詳盡的廣告fn息。時效性分類信息在網絡上直接進行編輯發布，第一時間展示在互聯網上，第一時間讓目標用戶主動搜索到。請參閱圖4，本發明的功能架構圖，根據此架構圖，本搜索系統的用法在于用戶點開網址進入主頁，主頁上方會顯示五大功能模塊，即生活淘寶、生活分類、生活商鋪、生活圈子以及生活應用。鼠標放在搜索引擎處，會彈出一個對話框提示用戶搜索范圍可以是“房產信息、生活服務、交友征婚、車輛買賣服務、寵物/寵物用品、跳蚤市場、求職簡歷、招聘信息、商務服務”，但是，用戶也可以輸入與上述的搜索范圍不同的查詢內容進入本系統。用戶也可以點主頁上的五大功能模塊進入不同的二級頁面，二級頁面特征在于左邊具有與主頁的五大功能模塊相對應的搜索模塊，即同樣具有“生活淘寶、生活分類、生活商鋪、生活圈子以及生活應用”。頁面中間部分為系統抓取到的搜索信息，如“求短期租房，188元，位于大梅沙”，“招網頁設計工程師，月薪2500元，電話:########”之類，頁面的右邊部分顯示注冊過的用戶，用于微博加關注，同時包括部分的搜索子目錄，如“租房，合租房，求租房，二手房，日租房，寫字樓，廠房“等等。另外本系統的用戶不僅可以搜索需要的信息，還可以通過注冊，免費發布信息以便于加強溝通，信息交流。生活淘寶下的二級目錄包括房產信息、生活服務、交友征婚、車輛買賣服務、寵物 /寵物用品、跳蚤市場、求職簡歷、招聘信息、商務服務；如果點開任一二級目錄，可進入該二級目錄下的三級目錄，如點房產信息時，信息會彈出對話框，給用戶的選項是“租房，合租房，求租房，二手房，日租房，寫字樓，廠房。”用戶可從中選擇，也可以輸入與該所有的選項不同的輸入內容而進入搜索。生活分類二級目錄包括不同城市的房產信息、跳蚤市場、車輛買賣與服務、票務優惠券、教育培訓，特點幫助人們解決了生活中查找買賣，招聘信息、租房信息、旅游信息、二手產品促銷等信息發布。生活商街的二級目錄包括不同城市的美食、購物、麗人、休閑、酒店、健身、旅游；該服務便于用戶查找到最方便的生活商街，如用戶住在A區，他可以查找A區附近的美食具體處于什么位置，周邊的健身房有什么項目等等。特點幫助人們解決了衣、食、住、行、娛樂、商業等生活信息查找解決生活中所遇到的問題生活圈子二級目錄包括網頁、圖片、視頻，特點用戶將發現互聯網有趣資源，如網站，圖片，視頻，等收藏管理，同時可以互動分享給其他用戶。此處需要說明的是網頁是用戶感興趣的網頁集合，如用戶一般上的網站是新浪、百度、搜狐，則用戶可以將這三個網頁都加入，方便開啟。圖片為用戶加載的感興趣的圖片，用戶加載后，會留下圖片，以及上傳的用戶名及時間，便于分享。視頻為用戶加載的感興趣的視頻，如優酷的某一片段，土豆的某一片段等等，所有的視頻均可以同時放映。所述的生活應用二級目錄包括娛樂、游戲、工具，特點用戶將添加分享應用資源，如生活方方面面小應用可以一站式解決用戶需求，如在線音樂，在列車時刻，在線游戲，在線天氣，在線電臺在線電影，等生活用分享。娛樂類包括音樂盒子、奇藝高清等等游戲類包括憤怒的小鳥、廚房菜刀等等其中，所述的二級目錄下均具有三級目錄，所述的三級目錄為具體的程序，具體是點開音樂盒子，會播放音樂盒子中放置的音樂。總之，愛咕生活搜索憑借國內領先的垂直搜索技術，為生活信息用戶提供國內租房、機票、酒店、旅游度假和火車票的專業搜索服務，并利用先進的數據挖掘和智能推薦等技術手段，通過實時整合、辨識、處理海量數據，為用戶提供最新、最準確的、有價值的生活數據，從而幫助用戶高效地比較選擇適合自己的生活信息。同時繼“愛咕生活搜索”之后，愛咕生活搜索數據開放平臺又引入“生活商鋪” “生活分享"‘生活應用”的數據資源，并在系統中融入了 LBS(基于位置的服務)功能，旨在滿足用戶隨時隨地的生活需求，為用戶提供更加人性化的數據解決方案，無論你身在何時何地，衣、食、住、行各類信息都盡在你的掌握之中，“愛咕搜”是以生活信息搜索，發布二手分類信息，及美食、購物、休閑娛樂、麗人、健身、互聯網資源收藏分享、生活應用等內容為主，并提供便民服務及優惠信息的本地生活信息搜索和分享平臺。通過開放的互聯網平臺挖掘數量龐大的垂直信息，然后為用戶提供一條全新的簡單可靠的信息獲取途徑。二者的結合，將引領一種全新的搜索習慣，用戶不再需要登錄任何專門的站點，也不用經歷層層導航的篩選，只需輸入其想去的店鋪或要查找的信息，愛咕搜移動搜索就會告訴你店鋪的地點、營業時間乃至人均消費等相關信息，一切就是這么簡單。實施本發明的一種實時搜索方法、裝置和系統，具有以下有益的技術效果1.在搜索策略上采用了獨創的基于產品分類的優化路由算法，只采集系統指定的興趣點數據。這個算法的最大的好處，是無需遍歷大量無價值數據的路徑，通過對照我們預設的分類關聯路徑樹，自動將目標網站的路徑歸類成有效遍歷數，大大減少了垃圾數據的抓爬，極大提高了數據采集的速度。
2.在預處理階段采用獨創的自動結構化數據抽取智能模板(DocView)技術，通過對大量數據的樣本分析，提煉出結構模型庫，自動生成提取模板。在數據預處理的時候，計算和結構模型庫的相似度，來判定對數據的結構。并且能夠根據歷史數據對變動過的網頁自動調整模板。3.準實時數據爬取技術，通過分布式爬蟲技術，做到比較實時的采集網上新出現的數據。上面結合附圖對本發明的實施例進行了描述，但是本發明并不局限于上述的具體實施方式
，上述的具體實施方式
僅僅是示意性的，而不是限制性的，本領域的普通技術人員在本發明的啟示下，在不脫離本發明宗旨和權利要求所保護的范圍情況下，還可做出很多形式，這些均屬于本發明的保護之內。
權利要求
1.一種實時搜索的方法，其特征在于，包括51.設定系統指定的興趣點數據；52.根據所述的興趣點數據從目標網站上抓取關聯數據至系統中；53.根據預設的數據采集周期遍歷所述的目標網站；54.判斷所述的目標網站是否有更新的目標網站，所述的更新包括新出現的網頁、改變過的網頁；若否，返回步驟S2，若是，進入步驟S5 ；55.抓取所述的更新的目標網站上的關聯數據至所述的系統并更新，實現同步采集并分類顯示搜索信息。
2.根據權利要求1所述的實時搜索的方法，其特征在于，所述的步驟Sl至步驟S2之間還包括下列步驟511.通過對大量數據的樣本分析，提煉出結構模型庫，自動生成提取模板；512.預處理所述的興趣點數據，計算和所述的結構模型庫的相似度，來判定關聯數據的結構。
3.根據權利要求1所述的實時搜索的方法，其特征在于，所述的分類顯示搜索信息包括生活淘寶、生活分類、生活商街、生活圈子以及生活應用，所述的生活淘寶下的二級目錄包括房產信息、生活服務、交友征婚、車輛買賣服務、寵物/寵物用品、跳蚤市場、求職簡歷、招聘信息、商務服務；所述的生活分類二級目錄包括不同城市的房產信息、跳蚤市場、車輛買賣與服務、票務優惠券、教育培訓；所述的生活商街的二級目錄包括不同城市的美食、購物、麗人、休閑、酒店、健身、旅游；所述的生活圈子二級目錄包括網頁、圖片、視頻；所述的生活應用二級目錄包括娛樂、游戲、工具；其中，所述的二級目錄下均具有三級目錄，所述的三級目錄為具體的程序。
4.根據權利要求2所述的實時搜索的方法，其特征在于，所述的提取模板包括網頁標識、網頁類型、內容類別、標題、關鍵詞、摘要、正文、相關鏈接。
5.一種實時搜索的裝置，用于實現權利要求1所述的方法，其特征在于，包括興趣點數據設定單元設定系統指定的興趣點數據；關聯數據抓取單元用于根據所述的興趣點數據從目標網站上抓取關聯數據至系統中；目標網站遍歷單元與所述的關聯數據抓取單元相連，用于根據預設的數據采集周期遍歷所述的目標網站；目標網站更新判斷單元與所述的目標網站遍歷單元相連，用于判斷所述的目標網站是否有更新的目標網站，所述的更新包括新出現的網頁，改變過的網頁；目標網站更新抓取單元與所述的目標網站更新判斷單元相連，用于抓取所述的更新的目標網站上的關聯數據至所述的系統并更新，實現同步采集分類顯示搜索信息。
6.根據權利要求5所述的實時搜索的裝置，其特征在于，還包括提取模板生成單元及關聯數據結構判定單元，所述的提取模板生成單元與所述的興趣點數據設定單元相連，用于通過對大量數據的樣本分析，提煉出結構模型庫，自動生成提取模板；關聯數據結構判定單元與所述的提取模板生成單元及關聯數據抓取單元相連，用于預處理所述的興趣點數據，計算和所述的結構模型庫的相似度，來判定關聯數據的結構。
7.一種實時搜索的系統，包括搜索網站的搜索器，與所述的搜索器相連的用于控制所述的搜索器的控制器，與所述的控制器相連的原始數據庫，與所述的原始數據庫相連的索引器，與所述的索引器相連的索引數據庫，與所述的索引數據庫相連的檢索器，所述的檢索器與人機交互單元相連，其特征在于，所述的檢索器中包括權利要求5中所述的實時搜索的裝置。
8.根據權利要求7所述的實時搜索的系統，其特征在于，還包括用戶行為數據庫以及日志分析器，所述的用戶行為數據庫與所述的人機交互單元相連，所述的日志分析器與所述的原始數據庫以及索引數據庫及用戶行為日志數據庫分別相連，用于搜索內容不可預測的用戶查詢。
9.根據權利要求7所述的實時搜索的系統，其特征在于，所述的人機交互單元包括鍵盤/顯示器/觸摸屏。
10.根據權利要求7所述的實時搜索的系統，其特征在于，所述的實時搜索系統包括至少一個索引服務器，所述的索引服務器包括至少一個分片服務器，所述的索引服務器通過所述的分片服務器實現關聯數據的搜索。
全文摘要
本發明公開了一種實時搜索的方法，包括S1.設定系統指定的興趣點數據；S2.根據所述的興趣點數據從目標網站上抓取關聯數據至系統中；S3.根據預設的數據采集周期遍歷所述的目標網站；S4.判斷所述的目標網站是否有更新的目標網站，所述的更新包括新出現的網頁，改變過的網頁；若否，返回步驟S2，若是，進入步驟S5；S5.抓取所述的更新的目標網站上的關聯數據至所述的系統并更新，實現同步采集。本發明還公開了一種實時搜索的裝置和系統。本發明實時搜索方法、裝置及系統能實時搜索即時信息，速度快，占用資源少。
文檔編號G06F17/30GK102446225SQ201210006860
公開日2012年5月9日申請日期2012年1月11日優先權日2012年1月11日
發明者劉曉剛申請人:深圳市愛咕科技有限公司

完整全部詳細技術資料下載