專利名稱:在線參引的收集和記分的制作方法
在線參引的收集和記分
背景技術(shù):
通常,搜索引擎優(yōu)化是網(wǎng)絡(luò)管理員應(yīng)用來提高給定網(wǎng)頁或者其他互聯(lián)網(wǎng)站點(diǎn)的業(yè) 務(wù)量和業(yè)務(wù)質(zhì)量的過程。典型技術(shù)包括標(biāo)題標(biāo)簽中的關(guān)鍵字、元標(biāo)簽(meta tag)中的關(guān)鍵 字、正文文本中的關(guān)鍵字、向內(nèi)鏈接中的錨文本、站點(diǎn)年齡、站點(diǎn)結(jié)構(gòu)、站點(diǎn)內(nèi)部鏈接結(jié)構(gòu)中 的鏈接廣泛度、可索引文本/網(wǎng)頁內(nèi)容量、站點(diǎn)鏈接數(shù)量、站點(diǎn)鏈接的廣泛度/相關(guān)度和向 內(nèi)鏈接標(biāo)簽的主題相關(guān)度。基于網(wǎng)絡(luò)管理員試圖優(yōu)化的搜索引擎,有時(shí)候采用另外的技術(shù)。 由于搜索引擎算法和度量是專用的(proprietary),搜索引擎優(yōu)化技術(shù)廣泛用于提高搜索 引擎結(jié)果頁面上的網(wǎng)頁或者其他互聯(lián)網(wǎng)站點(diǎn)的可視性。搜索引擎營銷是互聯(lián)網(wǎng)營銷的一種形式,所述互聯(lián)網(wǎng)營銷包括搜索引擎優(yōu)化 (SEO)、付費(fèi)收錄和付費(fèi)鏈接。付費(fèi)收錄和付費(fèi)鏈接是付費(fèi)互聯(lián)網(wǎng)廣告的形式,付費(fèi)互聯(lián)網(wǎng) 廣告將廣告置于特定關(guān)鍵字搜索的結(jié)果頁面上。付費(fèi)收錄和付費(fèi)鏈接根據(jù)諸如關(guān)鍵字或者 搜索項(xiàng)的因素而在價(jià)格上發(fā)生變化。在線廣告是廣告的一種形式,其影響互聯(lián)網(wǎng)或者環(huán)球網(wǎng)傳送消息。在線廣告包括 文本廣告、橫幅式廣告、網(wǎng)頁直立式廣告、浮動(dòng)廣告、擴(kuò)展式廣告、禮貌廣告、墻紙式廣告、惡 作劇式廣告、彈出式廣告、隱藏式彈出廣告、視頻廣告、地圖廣告、移動(dòng)廣告和許多其他的在 線廣告形式。在此要求保護(hù)的主題不限于克服了任何缺點(diǎn)或者只在如上述的環(huán)境下工作的實(shí) 施例。上述背景技術(shù)只是用于說明本文介紹的一些實(shí)施例可能應(yīng)用的一個(gè)示例技術(shù)領(lǐng)域。
發(fā)明內(nèi)容
此發(fā)明內(nèi)容用于以簡(jiǎn)單形式介紹下面在具體實(shí)施方式
中進(jìn)一步描述的各種方案 的選擇。此發(fā)明內(nèi)容并非旨在確定所要保護(hù)的主題的關(guān)鍵特征或者必要特征,也不是旨在 幫助確定要求保護(hù)的主題的范圍。總的來說,本發(fā)明的示例實(shí)施例涉及實(shí)體的在線參引(online reference)的收集 和記分。一個(gè)示例實(shí)施例包括用于對(duì)實(shí)體的在線參引建立索引的方法。該方法包括確定要 被搜索以得到實(shí)體的參引的、互聯(lián)網(wǎng)的一個(gè)或多個(gè)通道,并且確定在所述一個(gè)或多個(gè)通道 的每一個(gè)中要評(píng)估的一個(gè)或多個(gè)信號(hào)。該方法也包括爬取(crawling)互聯(lián)網(wǎng)以得到實(shí)體 的在線參引,其中爬取互聯(lián)網(wǎng)包括搜索互聯(lián)網(wǎng)的一個(gè)或多個(gè)通道以獲得實(shí)體的參引,并且 評(píng)估所述一個(gè)或多個(gè)信號(hào)。該方法進(jìn)一步包括構(gòu)建所述參引的反向索引,其中所述反向索 弓丨基于在其中找到參弓I的每一個(gè)通道和被評(píng)估用于參弓I的一個(gè)或多個(gè)信號(hào)。另一個(gè)實(shí)施例包括用于對(duì)實(shí)體的在線參引建立索引的系統(tǒng)。該系統(tǒng)包括深度索引 引擎(de印index engine),其中深度索引引擎被配置用于裝配參數(shù)以爬取互聯(lián)網(wǎng)并且將 要執(zhí)行的爬取插入到工作隊(duì)列中。該系統(tǒng)也包括一個(gè)或多個(gè)工作節(jié)點(diǎn)(worker node),其中 所述工作節(jié)點(diǎn)被配置用于執(zhí)行由深度索引引擎裝配的互聯(lián)網(wǎng)爬取。該系統(tǒng)進(jìn)一步包括一個(gè) 或多個(gè)協(xié)調(diào)器,其中所述協(xié)調(diào)器被配置用于針對(duì)所述一個(gè)或多個(gè)工作節(jié)點(diǎn)從工作隊(duì)列中發(fā) 起工作。
本發(fā)明的示例實(shí)施例的這些和其他方面根據(jù)下面的描述和所附權(quán)利要求將變得非常清楚。
為了進(jìn)一步澄清本發(fā)明的一些實(shí)施例的各個(gè)方面,將參考在附圖中示出的特定實(shí) 施例對(duì)發(fā)明做更加具體描述。應(yīng)當(dāng)理解,這些附圖僅圖示本發(fā)明的典型實(shí)施例,因此不應(yīng)視 為限制它的范圍。本發(fā)明將被通過利用附圖進(jìn)行具體詳細(xì)地描述和說明,其中圖1示出用于對(duì)實(shí)體的在線參引建立索引的示例系統(tǒng)的實(shí)施例;圖2A-2C示出可以用于圖1的系統(tǒng)中的工作節(jié)點(diǎn)的各種配置;圖3示出使用頁面搜索來找到要被搜索以得到在線參引的合適網(wǎng)頁的方法的各 個(gè)方面;圖4示出解析搜索引擎結(jié)果頁面的方法的各個(gè)方面;圖5示出用于提供在反向索引內(nèi)的結(jié)果的方法的實(shí)例;圖6A-6C示出提供結(jié)果給用戶的各個(gè)實(shí)例;和圖7示出用于對(duì)實(shí)體的在線參引建立索引的示例方法的流程圖。
具體實(shí)施例方式下面將參考附圖,其中相同的結(jié)構(gòu)使用相同附圖標(biāo)記。應(yīng)當(dāng)理解,附圖是對(duì)本發(fā)明 的一些實(shí)施例的圖示以及原理說明,而不是限制本發(fā)明,也不必按比例繪制。首先參見圖1,其示出了用于對(duì)實(shí)體的在線參引建立索引的系統(tǒng)105的實(shí)施例。其 在線參引被建立索引的實(shí)體可以包括個(gè)人、公司、商標(biāo)、產(chǎn)品、型號(hào)或者互聯(lián)網(wǎng)上任何地方 引用的任何其他實(shí)體。參引可以包括有機(jī)參引(organicreference)、在線廣告、新聞條目或 者實(shí)體的任何其他參引。具體地,系統(tǒng)105可以用于識(shí)別實(shí)體的在線參引,其中基于客戶的 請(qǐng)求確定在線參引的類型和實(shí)體。例如,響應(yīng)于接收來自客戶的要對(duì)競(jìng)爭(zhēng)對(duì)手的在線廣告 建立索引的請(qǐng)求,系統(tǒng)105可以用于執(zhí)行索引。系統(tǒng)105包括深度索引引擎110。深度索引引擎110被配置用于將爬取網(wǎng)絡(luò)112 的參數(shù)裝配為搜索工作。網(wǎng)絡(luò)112示例地包括互聯(lián)網(wǎng),該互聯(lián)網(wǎng)包括在多個(gè)廣域網(wǎng)和/或 局域網(wǎng)之間的邏輯和物理連接形成的全球互聯(lián)網(wǎng)并且可選地包括環(huán)球網(wǎng)(“ffeb”),該環(huán)球 網(wǎng)包括經(jīng)互聯(lián)網(wǎng)訪問的互聯(lián)超文本文件的系統(tǒng)。作為替換或附加地,網(wǎng)絡(luò)112包括一個(gè)或 多個(gè)蜂窩RF網(wǎng)絡(luò)和/或一個(gè)或多個(gè)有線和/或無線網(wǎng)絡(luò),諸如但不限于802. XX網(wǎng)絡(luò)、藍(lán)牙 接入點(diǎn)、無線接入點(diǎn)、IP網(wǎng)絡(luò)等。網(wǎng)絡(luò)112也包括使一種類型的網(wǎng)絡(luò)與另一種類型的網(wǎng)絡(luò) 接口的服務(wù)器。深度索引引擎110裝配的參數(shù)可以包括一個(gè)或多個(gè)通道(channel)。這些通道是 在要搜索的互聯(lián)網(wǎng)/網(wǎng)絡(luò)112內(nèi)的特定媒體。在一些實(shí)施例中,通道可以包括有機(jī)搜索、 頁面搜索、鏈接廣告網(wǎng)絡(luò)、橫幅式廣告、上下文廣告、電子郵件、博客、社交網(wǎng)絡(luò)、社會(huì)新聞 (social news)、聯(lián)盟網(wǎng)絡(luò)營銷、移動(dòng)廣告、媒體廣告、視頻廣告、論壇、新聞?wù)军c(diǎn)、富媒體、社 會(huì)書簽、付費(fèi)搜索和網(wǎng)游植入廣告。然而,所述通道不限于上述內(nèi)容,而是可以包括要搜索 的互聯(lián)網(wǎng)的任何相關(guān)領(lǐng)域,不論是現(xiàn)在已經(jīng)存在的還是將來創(chuàng)造出來的。有機(jī)搜索指的是搜索引擎結(jié)果頁面中的那些按照它們與搜索項(xiàng)的相關(guān)度而不是它們的廣告來呈現(xiàn)的列表。頁面搜索指的是搜索引擎結(jié)果頁面中的與呈現(xiàn)原因無關(guān)的列 表。鏈接廣告網(wǎng)絡(luò)指的是自動(dòng)插入網(wǎng)頁的廣告——如果其包含相關(guān)主題。橫幅式廣告指的 是放在特定網(wǎng)頁上、特定位置中的廣告。上下文廣告指的是當(dāng)出現(xiàn)某些關(guān)鍵字或者其他標(biāo) 識(shí)而放置的廣告,例如關(guān)鍵字廣告。E-mail (電子郵件或者email)指的是利用數(shù)字通信系 統(tǒng)生成、發(fā)送或者存儲(chǔ)主要基于文本的人際間通信的方法。博客指的是一種網(wǎng)頁類型,通常 由個(gè)人利用定期輸入評(píng)論、事件描述或者諸如圖形或視頻的其他素材來維護(hù)。社交網(wǎng)絡(luò)指 的是由節(jié)點(diǎn)(其通常為個(gè)人或機(jī)構(gòu))組成的社會(huì)結(jié)構(gòu),所述節(jié)點(diǎn)由一個(gè)或多個(gè)特定類型的 相關(guān)性連系,所述相關(guān)性是諸如價(jià)值、愿景、想法、金融交易、友誼、親屬關(guān)系、厭惡、沖突或 者貿(mào)易。社會(huì)新聞指的是如下網(wǎng)頁其中用戶對(duì)新聞報(bào)道或者其他鏈接進(jìn)行提交和投票、從 而確定提供哪些鏈接。聯(lián)盟網(wǎng)絡(luò)營銷包括使用網(wǎng)頁來將業(yè)務(wù)推送到由第一個(gè)網(wǎng)頁所有者的 聯(lián)營機(jī)構(gòu)維護(hù)的不同網(wǎng)頁。移動(dòng)廣告包括在無線設(shè)備上提供的個(gè)性化廣告。媒體廣告包括 在以一種類型的媒體或者通信裝置中以在線、出版、視頻或者任何其他格式放置的廣告。視 頻廣告是以視頻格式提供的廣告。論壇或者留言版是以用戶生成內(nèi)容為特征的在線討論站 點(diǎn)。新聞?wù)军c(diǎn)是以報(bào)告包括一般新聞和專題新聞的新聞為主要目的的網(wǎng)頁。富媒體或者交 互媒體是允許接收者主動(dòng)參與的媒體。社會(huì)書簽涉及網(wǎng)絡(luò)用戶存儲(chǔ)、組織、搜索和管理網(wǎng)絡(luò) 上的網(wǎng)頁的書簽并且私下地保存書簽、將書簽與公眾共享、將書簽與指定的人或者群組共 享、將書簽在某些網(wǎng)絡(luò)內(nèi)共享或者將網(wǎng)絡(luò)與專用和公共訪問的任何其他組合共享的方法。 付費(fèi)搜索是一種類型的上下文廣告,其中網(wǎng)站所有者通常基于點(diǎn)擊率或者廣告瀏覽支付廣 告費(fèi)用,使他們的網(wǎng)站搜索結(jié)果顯示在搜索引擎結(jié)果頁面上的頂部位置。網(wǎng)游植入廣告是 放置于視頻游戲內(nèi)的在線廣告或者游戲控制臺(tái)上的廣告。返回圖1,深度索引引擎110裝配的參數(shù)也可以包括要評(píng)估的一個(gè)或多個(gè)信號(hào)。所 述信號(hào)包括關(guān)于實(shí)體的參引的信息。例如,置于網(wǎng)頁頂部的廣告更容易看到,因此通常比放 置在網(wǎng)頁底部的廣告更貴并且被認(rèn)為更加有效。因此,如果要索引的參引包括在線廣告,廣 告位置是可以被識(shí)別以進(jìn)行索引的信號(hào)。可替換地或附加地,要評(píng)估的信號(hào)可以包括以下 中的一個(gè)或多個(gè)給定網(wǎng)頁上的參引的頻率,網(wǎng)頁上的參引的位置,爬取的日歷日期,網(wǎng)頁 發(fā)布的日歷日期,爬取的時(shí)間,網(wǎng)頁發(fā)布的時(shí)間,上下文驅(qū)動(dòng)的網(wǎng)頁索引,下載網(wǎng)頁的時(shí)間, 與網(wǎng)頁的網(wǎng)頁瀏覽器兼容性,網(wǎng)頁的網(wǎng)頁插件(Web插件)兼容性等。附加地或者可替換地, 要評(píng)估的電子郵件消息內(nèi)的信號(hào)可以包括接收的電子郵件消息的頻率、電子郵件消息的向 外鏈接、接收的電子郵件消息的日歷日期、接收的電子郵件消息的日歷日期、接收的電子郵 件消息的時(shí)間等。上下文驅(qū)動(dòng)的網(wǎng)頁索引信號(hào)可以進(jìn)一步包括網(wǎng)頁內(nèi)的鏈接和/或圍繞網(wǎng) 頁的發(fā)布和主題的當(dāng)前事件。然而,要評(píng)估的信號(hào)不限于上述內(nèi)容,而是可以包括關(guān)于不論 是現(xiàn)在已經(jīng)存在的或者將來創(chuàng)造的、對(duì)實(shí)體的參引的任何相關(guān)信息。也應(yīng)當(dāng)注意,除非有特 殊規(guī)定,在此使用的“網(wǎng)頁”指的是任何在線發(fā)布,包括域、子域、網(wǎng)上發(fā)布、統(tǒng)一資源標(biāo)識(shí)符 (URI)、統(tǒng)一資源定位符(URL)和非永久發(fā)布諸如電子郵件和聊天。繼續(xù)參見圖1,深度索引引擎110創(chuàng)建、定義和/或確定工作,并且將工作(對(duì)于搜 索工作,包括每一個(gè)搜索工作的裝配參數(shù))插入到工作隊(duì)列115中。向工作隊(duì)列115的插 入可以通過直接插入或者通過經(jīng)協(xié)調(diào)器120發(fā)送工作或者通過用于從深度索引引擎110將 工作發(fā)送到工作隊(duì)列115的任何其他方法進(jìn)行。在一些實(shí)施例中,工作隊(duì)列115維護(hù)要執(zhí) 行的工作并且將工作提供給工作節(jié)點(diǎn)125以執(zhí)行。
工作隊(duì)列115中的工作包括但不限于搜索工作,例如爬取互聯(lián)網(wǎng)。在一些實(shí)施例 中,一旦互聯(lián)網(wǎng)已經(jīng)被爬取就獲得數(shù)據(jù)。通常,數(shù)據(jù)指的是深度索引引擎已經(jīng)規(guī)定為相關(guān)的 任何信息。在一些實(shí)施例中,數(shù)據(jù)可以包括關(guān)于被搜索的通道的信息和被評(píng)估的信號(hào)。在 其他實(shí)施例中,數(shù)據(jù)可以包括下載網(wǎng)頁以進(jìn)一步處理,如下面討論的那樣。在進(jìn)一步的實(shí)施 例中,數(shù)據(jù)可以包括要解析的搜索結(jié)果,如下面討論的那樣。在一些實(shí)施例中,一旦獲得數(shù)據(jù),必須對(duì)數(shù)據(jù)進(jìn)行處理。深度索引引擎110可以將 此類處理工作插入到工作隊(duì)列115中。在一些實(shí)施例中,數(shù)據(jù)處理可以包括評(píng)估信號(hào)。在其 他實(shí)施例中,數(shù)據(jù)處理可以包括解析搜索結(jié)果,如下面討論的那樣。在進(jìn)一步的實(shí)施例中, 處理可以包括評(píng)估參引以得到正面或負(fù)面含義。例如,可以處理關(guān)于產(chǎn)品的博客條目以確 定該條目對(duì)于產(chǎn)品通常是正面的或者負(fù)面的。在其他實(shí)施例中,一旦獲得數(shù)據(jù),可能需要壓縮數(shù)據(jù),這是可以由深度索引引擎 110插入到工作隊(duì)列115中的另一工作。在一些實(shí)施例中,數(shù)據(jù)壓縮可以包括保存數(shù)據(jù)以在 之后處理。在其他實(shí)施例中,數(shù)據(jù)壓縮可以包括解析網(wǎng)頁以得到相關(guān)信號(hào)并且僅保存涉及 到相關(guān)信號(hào)的網(wǎng)頁部分。應(yīng)當(dāng)理解,利用本公開內(nèi)容的優(yōu)點(diǎn),深度索引引擎110可以將需要 執(zhí)行的任何工作(包括收集和/或處理數(shù)據(jù))插入到工作隊(duì)列115中。在一些實(shí)施例中,系統(tǒng)105包括工作節(jié)點(diǎn)125。工作節(jié)點(diǎn)125包括執(zhí)行已經(jīng)由深度 索引引擎110插入到工作隊(duì)列115中的工作的節(jié)點(diǎn)。在一些實(shí)施例中,工作節(jié)點(diǎn)125執(zhí)行 的工作包括爬取Web并且執(zhí)行相關(guān)搜索、壓縮數(shù)據(jù)、處理數(shù)據(jù)、構(gòu)建反向索引、計(jì)算搜索引 擎優(yōu)化分?jǐn)?shù)或者已經(jīng)被插入到工作隊(duì)列115中的任何其他工作。在一些實(shí)施例中,每一個(gè) 工作節(jié)點(diǎn)125可以是配置用于執(zhí)行插入到工作隊(duì)列115中的任何工作的一般工作節(jié)點(diǎn)。在 其他實(shí)施例中,工作節(jié)點(diǎn)125可以是專用工作節(jié)點(diǎn),每一個(gè)專用工作節(jié)點(diǎn)執(zhí)行單一工作。在 進(jìn)一步的實(shí)施例中,工作節(jié)點(diǎn)125可以是一般工作節(jié)點(diǎn)和專用工作節(jié)點(diǎn)的任何組合。在一些實(shí)施例中,工作節(jié)點(diǎn)125被進(jìn)一步配置用于仿真互聯(lián)網(wǎng)的人類用戶的活 動(dòng)。在一些實(shí)施例中,仿真互聯(lián)網(wǎng)的人類用戶的活動(dòng)包括模仿和/或提供與人類用戶典型 相關(guān)的一個(gè)或多個(gè)屬性,包括下面中的一個(gè)或多個(gè)地理位置、瀏覽的特定時(shí)間、年齡、收入 水平、電子郵件地址或者人類用戶的其他人口特征。例如,工作節(jié)點(diǎn)125可以被配置用于通 過多個(gè)互聯(lián)網(wǎng)服務(wù)提供商連接到互聯(lián)網(wǎng)以仿真不同地理位置的互聯(lián)網(wǎng)人類用戶。可替換地 或者附加地,工作節(jié)點(diǎn)125可以被配置用于在特定時(shí)間連接到互聯(lián)網(wǎng)。可替換地或者附加 地,工作節(jié)點(diǎn)125可以配置用于在某些網(wǎng)站輸入對(duì)應(yīng)于人類用戶的特定人口特征的年齡、 收入水平等。可替換或者附加地,工作節(jié)點(diǎn)125可以被配置用于在某些網(wǎng)站輸入電子郵件 地址。在本發(fā)明的一些實(shí)施例中,仿真互聯(lián)網(wǎng)的人類用戶的活動(dòng)考慮到更為相關(guān)的搜索結(jié) 果,因?yàn)樗阉鲄⒁P(guān)心如何將這種參引提供給互聯(lián)網(wǎng)用戶。圖2A示出了工作節(jié)點(diǎn)205的配置的一個(gè)實(shí)例,其中工作節(jié)點(diǎn)205例如在搜索工作 的執(zhí)行中爬取互聯(lián)網(wǎng)。工作節(jié)點(diǎn)205直接連接到網(wǎng)頁210。然后通過觀察合適的通道,工 作節(jié)點(diǎn)205可搜索對(duì)在網(wǎng)頁210內(nèi)和/或在附加網(wǎng)頁內(nèi)的實(shí)體的在線參引。在一些實(shí)施例 中,工作節(jié)點(diǎn)205也可定位和/或評(píng)估合適信號(hào)來獲得信號(hào)信息以供之后評(píng)估,如在上面概 述的、在搜索工作內(nèi)由圖1的深度索引引擎110所指示的那樣。在這個(gè)和其他實(shí)施例中,工 作節(jié)點(diǎn)205可以在連接到網(wǎng)頁210時(shí)評(píng)估合適的信號(hào)。圖2B示出了工作節(jié)點(diǎn)205的配置的一個(gè)實(shí)例,其中工作節(jié)點(diǎn)220在搜索工作的執(zhí)行中爬取互聯(lián)網(wǎng)。在這個(gè)實(shí)例中,工作節(jié)點(diǎn)220使用代理225連接到網(wǎng)頁230。在計(jì)算機(jī)網(wǎng) 絡(luò)中,代理是服務(wù)器(例如,計(jì)算機(jī)系統(tǒng)或者應(yīng)用程序),該服務(wù)器作為來自于客戶的、從其 他服務(wù)器尋求資源的請(qǐng)求的介質(zhì)。客戶連接到代理,請(qǐng)求可從不同服務(wù)器得到的一些服務(wù) 諸如文件、連接、網(wǎng)頁或者其他資源。在一些實(shí)施例中,通過代理225連接到網(wǎng)頁230的工 作節(jié)點(diǎn)220可允許工作節(jié)點(diǎn)220表現(xiàn)為來自與實(shí)際不同的地理起點(diǎn)。圖2C示出了工作節(jié)點(diǎn)240的另一個(gè)實(shí)例,其中工作節(jié)點(diǎn)240在搜索工作的執(zhí)行中 爬取互聯(lián)網(wǎng)。在這個(gè)實(shí)例中,工作節(jié)點(diǎn)240通過代理245連接到互聯(lián)網(wǎng),并且通過反向鏈 接(baCklink)255定位網(wǎng)頁250。反向鏈接255是對(duì)網(wǎng)站或者網(wǎng)頁250的導(dǎo)入鏈接。網(wǎng)頁 250的反向鏈接255可具有顯著的個(gè)人、文化或者語義方面的重要性,因?yàn)樗鼈兛梢灾甘菊l 在關(guān)注網(wǎng)頁250。反向鏈接255可以包括從另一個(gè)網(wǎng)頁到網(wǎng)頁250的任何鏈接。反向鏈接 255也稱為導(dǎo)入鏈接、入站鏈接、入內(nèi)鏈接和向里鏈接。反向鏈接255有時(shí)用作網(wǎng)頁250的 廣泛度的度量,并且?guī)讉€(gè)搜索引擎提供網(wǎng)頁250的反向鏈接255的信息。在一些實(shí)施例中, 反向鏈接255用來幫助找到實(shí)體的在線參引或者用來評(píng)估參引。返回圖1,在一些實(shí)施例中,系統(tǒng)105也包括一個(gè)或多個(gè)協(xié)調(diào)器120。協(xié)調(diào)器120可 以從深度索引引擎110接收工作并且將它們插入到工作隊(duì)列115中,如上所述的那樣。協(xié) 調(diào)器120也可以按照完成工作的需要,將工作從工作隊(duì)列115中移除并且將它們提供給工 作節(jié)點(diǎn)125。協(xié)調(diào)器120也可以跟蹤正在由哪些工作節(jié)點(diǎn)125執(zhí)行哪些工作以優(yōu)化工作節(jié) 點(diǎn)125的性能(例如,確保專用節(jié)點(diǎn)在完成它們的當(dāng)前任務(wù)之后具有可用工作)。系統(tǒng)105的模塊或者單獨(dú)部件包括深度索引引擎110、工作隊(duì)列115、工作節(jié)點(diǎn)125 和協(xié)調(diào)器120可以用硬件、軟件或它們的任意組合來實(shí)現(xiàn)。如果以軟件實(shí)現(xiàn),系統(tǒng)105的模 塊存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)中,所述介質(zhì)根據(jù)需要被訪問以執(zhí)行它們的功能。此外,如果以軟 件實(shí)現(xiàn),可以由處理器、現(xiàn)場(chǎng)可編程門陣列(FPGA)或者能夠執(zhí)行軟件指令或其他邏輯功能 的任何其他邏輯器件來執(zhí)行分配給各模塊的任務(wù)。圖3示出使用頁面搜索來找到要被搜索以得到在線參引的合適網(wǎng)頁的方法的各 個(gè)方面。圖3的方法可以由工作節(jié)點(diǎn)305結(jié)合關(guān)鍵字?jǐn)?shù)據(jù)庫310來執(zhí)行。關(guān)鍵字?jǐn)?shù)據(jù)庫 310包括要在頁面搜索中使用的一個(gè)或多個(gè)關(guān)鍵字。在一些實(shí)施例中,圖1的深度索引引擎 110可以編譯關(guān)鍵字?jǐn)?shù)據(jù)庫310。在其他實(shí)施例中,圖1中的工作節(jié)點(diǎn)125可以在頁面搜索 之前編譯關(guān)鍵字?jǐn)?shù)據(jù)庫310返回圖3,工作節(jié)點(diǎn)305從關(guān)鍵字?jǐn)?shù)據(jù)庫310獲得關(guān)鍵字(315)。然后,工作節(jié)點(diǎn) 305查詢搜索引擎以進(jìn)行頁面搜索(320)。搜索引擎可以是用來執(zhí)行搜索的、不論是現(xiàn)在已 經(jīng)存在的或者將來創(chuàng)造的、任何公共或者專用搜索引擎。可以對(duì)每一個(gè)關(guān)鍵字使用多個(gè)搜 索引擎來編譯結(jié)果,或者可以如針對(duì)各實(shí)體所優(yōu)選的那樣使用單個(gè)搜索引擎。一旦進(jìn)行了搜索,工作節(jié)點(diǎn)305收集搜索引擎結(jié)果頁面(325)。結(jié)果頁面可以被收 集(325)作為要由工作節(jié)點(diǎn)305處理或者要被插入到工作隊(duì)列中以由其他工作節(jié)點(diǎn)處理的 文本。搜索引擎結(jié)果頁面也能夠以原始格式來收集或者只是鏈接本身被收集(325),所述鏈 接本身被保留有插入到工作隊(duì)列中以由工作節(jié)點(diǎn)進(jìn)行附加網(wǎng)頁爬取的鏈接。然而,不論是 現(xiàn)在已經(jīng)有的還是將來創(chuàng)造的收集搜索引擎結(jié)果頁面的任何方法都是專注于收集搜索引 擎結(jié)果頁面325。在收集搜索引擎結(jié)果頁面之后,搜索引擎結(jié)果頁面被解析(330)以得到相關(guān)信息。結(jié)果頁面可以由工作節(jié)點(diǎn)305解析(330)或者可以被插入到工作隊(duì)列中以由其他工作 節(jié)點(diǎn)解析。被認(rèn)為是相關(guān)的信息可以由圖1的深度索引引擎110之前裝配的參數(shù)確定。例 如,如果希望的話,可以僅考慮有機(jī)搜索結(jié)果。可替換地,如果在線參引限于搜索引擎內(nèi)的 付費(fèi)廣告的話,可以僅考慮付費(fèi)結(jié)果。在一些實(shí)施例中,搜索結(jié)果的排名可與索引相關(guān),而 在其他實(shí)施例中,排名可能與索引相關(guān)很小或者不相關(guān)。圖4示出解析搜索引擎結(jié)果頁面以獲得實(shí)體的參引的方法的各個(gè)方面,搜索引擎 結(jié)果頁面如從圖3示出的關(guān)鍵字搜索獲得的搜索引擎結(jié)果頁面。在一些實(shí)施例中,圖4的 方法由一個(gè)或多個(gè)工作節(jié)點(diǎn)執(zhí)行。圖4的方法以將搜索引擎結(jié)果頁面解析為一個(gè)或多個(gè)與通道相關(guān)的組、諸如有機(jī) 結(jié)果和付費(fèi)廣告而開始。為了該實(shí)例的目的,不同地處理有機(jī)結(jié)果和付費(fèi)廣告,盡管在其他 實(shí)施例中它們可以被相同或不同地處理。工作節(jié)點(diǎn)解析(410)有機(jī)結(jié)果,以確定G15)參 引實(shí)體的搜索引擎結(jié)果頁面的有機(jī)結(jié)果中的一個(gè)或多個(gè)信號(hào),所述一個(gè)或多個(gè)信號(hào)包括例 如參引實(shí)體的相應(yīng)搜索引擎結(jié)果的描述、標(biāo)題、URL和/或排名。這些信號(hào)可以幫助確定搜 索引擎結(jié)果的相關(guān)度,也幫助確定將來要搜索的一個(gè)或多個(gè)網(wǎng)頁420。網(wǎng)頁420然后可以被 解析以得到實(shí)體的參引。工作節(jié)點(diǎn)也可以解析(425)付費(fèi)廣告結(jié)果以確定(430)搜索引擎結(jié)果頁面的付費(fèi) 廣告結(jié)果中的、參引實(shí)體的一個(gè)或多個(gè)信號(hào),所述一個(gè)或多個(gè)信號(hào)包括例如參引實(shí)體的、搜 索引擎結(jié)果頁面中的相應(yīng)付費(fèi)廣告的位置和/URL。通常突出位置被認(rèn)為是更加有效,因而 通常比付費(fèi)廣告的非突出位置更貴。因此,在搜索引擎結(jié)果頁面和/或其他網(wǎng)頁中付費(fèi)廣 告的位置給出了為廣告支付多少費(fèi)用以及在搜索的關(guān)鍵字和營銷者放置廣告之間的關(guān)聯(lián) 的相關(guān)度的指示。借助有機(jī)搜索結(jié)果,由付費(fèi)廣告指向的網(wǎng)頁435可以被確定并且其本身 被解析以得到對(duì)實(shí)體的附加參引。同時(shí)參考圖3和圖4,應(yīng)當(dāng)注意,在這個(gè)實(shí)例中,執(zhí)行搜索的相同節(jié)點(diǎn)不需要訪問 最終被搜索以得到在線參引的網(wǎng)頁。例如,一個(gè)工作節(jié)點(diǎn)可以從關(guān)鍵字?jǐn)?shù)據(jù)庫310獲得 (315)關(guān)鍵字,查詢(320)搜索引擎并且收集(325)結(jié)果。第二工作節(jié)點(diǎn)可以解析(330, 405)結(jié)果網(wǎng)頁,確定010,425)哪些結(jié)果是有機(jī)的,哪些結(jié)果是付費(fèi)的。第三工作節(jié)點(diǎn)可 以確定(415)有機(jī)結(jié)果的合適信號(hào),而第四工作節(jié)點(diǎn)可以確定(430)付費(fèi)結(jié)果的合適信號(hào)。 然后網(wǎng)頁420,435可以插入到工作隊(duì)列中以由附加工作節(jié)點(diǎn)爬取。在其他實(shí)施例中,可以 采用比四個(gè)工作節(jié)點(diǎn)更少或更多的節(jié)點(diǎn)來執(zhí)行圖3和圖4的步驟。返回圖1,一旦系統(tǒng)105完成在線參引的搜索,系統(tǒng)可以將結(jié)果提供給用戶。在 一些實(shí)施例中,可以生成反向索引130,其列出實(shí)體的在線參引,并且根據(jù)一組準(zhǔn)則諸如成 本-效果、可視性或其他準(zhǔn)則對(duì)它們進(jìn)行排名。當(dāng)搜索引擎把包含給定字的所有文件列成 表時(shí),其稱為反向索引。這與常規(guī)索引相反,常規(guī)索引包含文件內(nèi)的所有字的位置。在其他實(shí)施例中,結(jié)果可以作為原始數(shù)據(jù)來提供。例如,結(jié)果可以被作為特定網(wǎng)頁 的點(diǎn)擊量、即網(wǎng)頁的業(yè)務(wù)歷史記錄來提供,或者作為特定關(guān)鍵字或者關(guān)鍵字組的有機(jī)搜索 結(jié)果排名來提供。在另外的實(shí)施例中,結(jié)果可以被作為特定媒體中的評(píng)述(mention)來提 供。例如,結(jié)果可以作為博客內(nèi)的評(píng)述量來提供。可替換地或者附加地,結(jié)果可以進(jìn)一步被 細(xì)分。例如,博客評(píng)述可以被細(xì)分為正面評(píng)述和負(fù)面評(píng)述。圖5示出用于提供在反向索引內(nèi)的結(jié)果的方法的一個(gè)實(shí)例。在這個(gè)實(shí)例中,結(jié)果具有為已經(jīng)被爬取的網(wǎng)頁生成(505)的搜索引擎優(yōu)化(SEO)分?jǐn)?shù)。換言之,基于一些預(yù)定 準(zhǔn)則(如在搜索引擎結(jié)果內(nèi)的位置)來提供結(jié)果。搜索引擎結(jié)果可以包括有機(jī)搜索、付費(fèi) 搜索或這二者。此外,SEO分?jǐn)?shù)可以考慮對(duì)來自特定搜索引擎的搜索結(jié)果賦予更大的權(quán)重。 例如,更加流行的搜索引擎的結(jié)果中的高位置可以比不太流行的搜索引擎的結(jié)果更多地影 響SEO分?jǐn)?shù)。可替換地或附加地,根據(jù)圖5的方法生成的反向索引可以包括廣告分?jǐn)?shù)。在一些 實(shí)施例中,廣告分?jǐn)?shù)可以用來指出廣告的成本-效果。例如,如果第一廣告產(chǎn)生第二廣告的 業(yè)務(wù)的50%,但是第一廣告的成本僅是第二廣告的10%,則可以給予第一廣告更高的廣告 分?jǐn)?shù)以指出它在產(chǎn)生業(yè)務(wù)中具有更好的成本-效果。圖5的方法進(jìn)一步包括確定(510)其中網(wǎng)頁進(jìn)行排名的關(guān)鍵字,即當(dāng)被搜索時(shí)返 回網(wǎng)頁的關(guān)鍵字。在一些實(shí)施例中,確定(510)其中網(wǎng)頁進(jìn)行排名的關(guān)鍵字可以通過從關(guān) 鍵字?jǐn)?shù)據(jù)庫515獲得可能的關(guān)鍵字并且執(zhí)行關(guān)鍵字搜索來進(jìn)行。在其他實(shí)施例中,關(guān)鍵字 可以是關(guān)心的關(guān)鍵字并且關(guān)鍵字搜索的結(jié)果可以具有生成的SEO分?jǐn)?shù)。在另外的實(shí)施例 中,可以用所希望的任何其他方式來編譯關(guān)鍵字?jǐn)?shù)據(jù)庫以優(yōu)化索引。一旦搜索了關(guān)鍵字,則確定(520) 了網(wǎng)頁的有機(jī)排名。然后,將加權(quán)乘法器應(yīng)用 (525)于有機(jī)排名,其中加權(quán)乘法器可以基于有機(jī)排名。即,加權(quán)乘法器對(duì)于每一個(gè)排名是 不同的(即,不是恒定的)。在一些實(shí)施例中,加權(quán)乘法器考慮(530)有機(jī)排名的點(diǎn)擊分析 的分布。即,乘法器考慮跟隨鏈接到URL的用戶數(shù)量。例如,由于某種原因,搜索會(huì)出現(xiàn)對(duì) 于大多數(shù)用戶而言無關(guān)的結(jié)果。即使結(jié)果的排名很高,也可以調(diào)整乘法器來反映跟隨鏈接 的用戶數(shù)量少。根據(jù)加權(quán)乘法器和有機(jī)排名,可以產(chǎn)生(535)SE0分?jǐn)?shù)。SEO分?jǐn)?shù)允許基于 預(yù)定準(zhǔn)則來分析參引的相關(guān)度。圖6A示出將結(jié)果提供給用戶的實(shí)例。在這個(gè)實(shí)例中,以圖表615的形式提供結(jié)果。 例如,可以根據(jù)客戶的請(qǐng)求來產(chǎn)生圖表615,其中該客戶希望看到他自己的網(wǎng)頁和他的競(jìng)爭(zhēng) 對(duì)手的網(wǎng)頁的有機(jī)排名如何隨著時(shí)間而變化。圖表615具有代表不同網(wǎng)頁的有機(jī)排名的多 條線。第一條線610代表客戶的網(wǎng)頁的有機(jī)排名和有機(jī)排名在一周時(shí)間間隔上的變化。第 二條線615代表第一競(jìng)爭(zhēng)對(duì)手的網(wǎng)頁的有機(jī)排名和有機(jī)排名在一周時(shí)間間隔上的變化。第 三條線620代表第二競(jìng)爭(zhēng)對(duì)手的網(wǎng)頁的有機(jī)排名和有機(jī)排名在一周時(shí)間間隔上的變化。在一些實(shí)施例中,圖表615可以限于客戶的有機(jī)排名歷史記錄。在其他實(shí)施例中, 圖表615可以限于競(jìng)爭(zhēng)對(duì)手的有機(jī)排名歷史記錄,并且可以不包括客戶的有機(jī)排名歷史記 錄。根據(jù)客戶的規(guī)定,圖表615可以包括多于或少于兩個(gè)競(jìng)爭(zhēng)對(duì)手的有機(jī)排名歷史記錄。此 外,競(jìng)爭(zhēng)對(duì)手能夠以任何方式被確定。例如,只示出最大競(jìng)爭(zhēng)對(duì)手或者確定特別關(guān)心的某些 競(jìng)爭(zhēng)對(duì)手。圖6B示出將結(jié)果提供給用戶的附加實(shí)例。圖6B的圖表640提供社會(huì)媒體通道中 的對(duì)網(wǎng)頁的評(píng)述。所述評(píng)述可以包括對(duì)網(wǎng)頁、產(chǎn)品或者其他實(shí)體的各種參引。圖表640的 χ軸645包括搜索的通道。圖表640的y軸650表示系統(tǒng)發(fā)現(xiàn)的評(píng)述數(shù)量。在一些實(shí)施例 中,評(píng)述數(shù)量可以包括評(píng)述的絕對(duì)數(shù)目。在其他實(shí)施例中,評(píng)述數(shù)量可以是評(píng)述的相對(duì)數(shù) 量。例如,網(wǎng)頁的評(píng)述數(shù)量可以與競(jìng)爭(zhēng)對(duì)手的網(wǎng)頁評(píng)述數(shù)量比較。圖6C示出將結(jié)果提供給用戶的另一個(gè)實(shí)例。圖6C的圖表670是將至用戶的網(wǎng)頁 的反向鏈接質(zhì)量提供給用戶的餅形圖。在一些實(shí)施例中,可以使用網(wǎng)頁級(jí)別值(0到定質(zhì)量。網(wǎng)頁級(jí)別(Pagerank)是一種鏈接分析算法,該鏈接分析算法將數(shù)字權(quán)重分配給超 鏈接的一組文件的每一個(gè)元素(諸如Web),目的是測(cè)量該組內(nèi)每一個(gè)元素的相對(duì)重要性。 在一些實(shí)施例中,與具有帶有較低網(wǎng)頁級(jí)別值0和1的來自多個(gè)域的數(shù)百個(gè)反向鏈接相比, 更有利的是具有帶有高網(wǎng)頁級(jí)別值6或者更高網(wǎng)頁級(jí)別值的、來自單個(gè)(或者幾個(gè))域的 向內(nèi)鏈接(反向鏈接)。圖表670的第一區(qū)域675指示具有網(wǎng)頁級(jí)別值7到10的來自網(wǎng)頁的反向鏈接,或 優(yōu)質(zhì)的反向鏈接。圖表670的第二區(qū)域680指示具有網(wǎng)頁級(jí)別值3到6的來自網(wǎng)頁的反向 鏈接,或合格反向鏈接。圖表670的第三區(qū)域685指示具有網(wǎng)頁級(jí)別值0到2的來自網(wǎng)頁 的反向鏈接,或一般反向鏈接。反向鏈接質(zhì)量可以利用其他方法來評(píng)估并且不限于網(wǎng)頁級(jí) 別。應(yīng)當(dāng)理解,圖6A-6C的圖表僅僅是根據(jù)本發(fā)明的一些實(shí)施例能夠被生成以將結(jié)果 提供給用戶的示例圖表。實(shí)際上,可以通過產(chǎn)生其他類型圖表或者根本不產(chǎn)生任何圖表來 將結(jié)果提供給用戶。再參見圖7,公開了用于對(duì)實(shí)體的在線參引建立索引的示例方法700。其在線參引 被建立索引的實(shí)體可以包括個(gè)人、公司、商標(biāo)、產(chǎn)品、型號(hào)或互聯(lián)網(wǎng)上在任何地方參引的任 何其他實(shí)體。參引可以包括有機(jī)參引、在線廣告、新聞條目或?qū)嶓w的任何其他參引。特別地, 方法700可以用來確定實(shí)體的在線參引,其中基于客戶的請(qǐng)求確定在線參引類型和實(shí)體。 例如,客戶可以要求對(duì)競(jìng)爭(zhēng)對(duì)手的在線廣告建立索引,并且方法700可以用來執(zhí)行索引。可 替換或者附加地,方法700可以用來確定實(shí)體的在線參引,其中在線參引類型或?qū)嶓w中的 之一或二者不是由于客戶要求而被確定。方法700包括確定(705)要搜索的通道。如上所述,通道是要搜索的互聯(lián)網(wǎng)內(nèi)的 特定媒體。在一些實(shí)施例中,通道可以包括有機(jī)搜索、頁面搜索、鏈接廣告網(wǎng)絡(luò)、橫幅式廣 告、上下文廣告、電子郵件、博客、社交網(wǎng)絡(luò)、社會(huì)新聞、聯(lián)盟網(wǎng)絡(luò)營銷、移動(dòng)廣告、媒體廣告、 視頻廣告、論壇、新聞?wù)军c(diǎn)、富媒體、社會(huì)書簽、付費(fèi)搜索和網(wǎng)游植入廣告。然而,通道不限于 上述內(nèi)容,而是可以包括不論是現(xiàn)在已經(jīng)有的或者將來創(chuàng)造的、要搜索的互聯(lián)網(wǎng)的任何相 關(guān)領(lǐng)域。方法700進(jìn)一步包括確定(710)要評(píng)估的信號(hào)。所述信號(hào)包括關(guān)于對(duì)實(shí)體的參引 的相關(guān)信息。例如,放置在網(wǎng)頁頂部的廣告是更加可視的,因此通常更加貴并且被認(rèn)為更加 有效。因此,如果要索引的參引包括在線廣告,廣告位置是可以被確定用于索引的信號(hào)。可 替換地或附加地,要評(píng)估的信號(hào)可以包括給定網(wǎng)頁上的參引的頻率、網(wǎng)頁上的參引的位置、 爬取的日歷日期、網(wǎng)頁發(fā)布的日歷日期、爬取的時(shí)間、網(wǎng)頁發(fā)布的時(shí)間、上下文驅(qū)動(dòng)的網(wǎng)頁 索引、下載網(wǎng)頁的時(shí)間、網(wǎng)頁的網(wǎng)絡(luò)瀏覽器兼容性、網(wǎng)頁的網(wǎng)頁插件兼容性等。可替換地或 附加地,要評(píng)估的電子郵件消息內(nèi)的信號(hào)可以包括接收的電子郵件消息的頻率、電子郵件 消息上的向外鏈接、接收的電子郵件消息的日歷日期、接收的電子郵件消息的時(shí)間等。上下 文驅(qū)動(dòng)的網(wǎng)絡(luò)索引可以進(jìn)一步包括網(wǎng)頁內(nèi)的鏈接、圍繞網(wǎng)頁的發(fā)布和主題的當(dāng)前事件。然 而,要評(píng)估的信號(hào)不限于上述內(nèi)容,而是可以包括不論是現(xiàn)在已經(jīng)存在的還是將來創(chuàng)造的、 關(guān)于對(duì)實(shí)體的參引的任何相關(guān)信息。方法700也包括爬取(715)網(wǎng)絡(luò)、互聯(lián)網(wǎng)或其他網(wǎng)絡(luò)(如圖1的網(wǎng)絡(luò)112),以獲得 對(duì)實(shí)體的在線參引。爬取(715)環(huán)球網(wǎng)/互聯(lián)網(wǎng)/網(wǎng)絡(luò)112可以通過到網(wǎng)頁的直接連接,可包括使用代理服務(wù)器,可使用反向鏈接來確定合適網(wǎng)頁或者可以包括定位和評(píng)估網(wǎng)頁的 任何其他方法。爬取(71 環(huán)球網(wǎng)/互聯(lián)網(wǎng)/網(wǎng)絡(luò)112也可包括仿真互聯(lián)網(wǎng)的人類用戶的 活動(dòng)。例如,爬取(71 環(huán)球網(wǎng)可以通過多個(gè)互聯(lián)網(wǎng)服務(wù)提供商進(jìn)行,以仿真不同地理位置 的互聯(lián)網(wǎng)人類用戶。仿真互聯(lián)網(wǎng)的人類用戶的活動(dòng)可給出更加相關(guān)的搜索結(jié)果,因?yàn)樗鼈?考慮到如何將這些參引提供給互聯(lián)網(wǎng)用戶。方法700進(jìn)一步包括構(gòu)建(720)結(jié)果的反向索引。例如,可以構(gòu)建(720)的反向 索引引用實(shí)體的在線參引,并且根據(jù)一組預(yù)定的準(zhǔn)則對(duì)它們排名。構(gòu)建(720)反向索引可 以可選地包括執(zhí)行趨勢(shì)分析。趨勢(shì)分析示出在線參引如何隨時(shí)間變化。例如,圖6A的圖表 605示出客戶網(wǎng)頁、第一競(jìng)爭(zhēng)對(duì)手的網(wǎng)頁和第二競(jìng)爭(zhēng)對(duì)手的網(wǎng)頁的有機(jī)排名如何隨時(shí)間變 化。這樣,包括在圖6A的圖表605中的數(shù)據(jù)可以代表趨勢(shì)分析的特定類型。可替換地或附加地,構(gòu)建(720)反向索引可以包括生成SEO分?jǐn)?shù)。SEO分?jǐn)?shù)允許 用戶(如請(qǐng)求索引的客戶)基于一個(gè)或多個(gè)預(yù)定準(zhǔn)則(如成本-效果)來查看參引的相關(guān) 度。在一些實(shí)施例中,可以使用系統(tǒng)、如圖1描述的系統(tǒng)來執(zhí)行方法700。用來執(zhí)行所 述方法的系統(tǒng)的模塊或單個(gè)部件可以用硬件、軟件或它們的任意組合來實(shí)現(xiàn)。如果以軟件 來實(shí)現(xiàn),則系統(tǒng)的模塊存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)中,計(jì)算機(jī)可讀介質(zhì)根據(jù)需要而被訪問以執(zhí) 行它們的功能。此外,如果以軟件實(shí)現(xiàn),分配給每一個(gè)模塊的任務(wù)可以由處理器、現(xiàn)場(chǎng)可編 程門陣列(FPGA)或者能夠執(zhí)行軟件指令或其他邏輯功能的任何其他邏輯器件執(zhí)行。在此描述的實(shí)施例可包括使用包含各種計(jì)算機(jī)硬件和/或軟件模塊的專用計(jì)算 機(jī)或通用計(jì)算機(jī),如下文將詳細(xì)介紹的那樣。本發(fā)明范圍內(nèi)的實(shí)施例也可包括用于執(zhí)行或者具有計(jì)算機(jī)可執(zhí)行指令或存儲(chǔ)在 其上的數(shù)據(jù)結(jié)構(gòu)的物理計(jì)算機(jī)可讀介質(zhì)和/或無形計(jì)算機(jī)可讀介質(zhì)。這樣的物理計(jì)算機(jī)可 讀介質(zhì)和/或無形計(jì)算機(jī)可讀介質(zhì)可以是可由通用或?qū)S糜?jì)算機(jī)訪問的任何可用介質(zhì)。例 如(不是用于限制),這樣的物理計(jì)算機(jī)可讀介質(zhì)可以包括RAM、ROM、EFPROM、CD-ROM或者 其他光盤存儲(chǔ)、磁盤存儲(chǔ)或其他磁性存儲(chǔ)器件、或任何其他如下物理介質(zhì)所述物理介質(zhì)可 以用來承載或存儲(chǔ)形式為計(jì)算機(jī)可執(zhí)行指令或數(shù)據(jù)結(jié)構(gòu)的期望程序代碼裝置,并且可以由 通用或?qū)S糜?jì)算機(jī)訪問。在通用或?qū)S糜?jì)算機(jī)內(nèi),無形計(jì)算機(jī)可讀介質(zhì)可以包括電磁裝置, 用于例如通過計(jì)算機(jī)內(nèi)的電路從計(jì)算機(jī)的一個(gè)部分向另一個(gè)部分傳送數(shù)據(jù)信號(hào)。當(dāng)通過網(wǎng)絡(luò)或另一個(gè)到計(jì)算機(jī)的通信連接(硬連線、無線或硬連線和無線的組 合)傳送或提供信息時(shí),用于發(fā)送和接收計(jì)算機(jī)可執(zhí)行指令、數(shù)據(jù)結(jié)構(gòu)和/或數(shù)據(jù)信號(hào)的硬 連線器件(例如導(dǎo)線、電纜、光纖、電子電路、化學(xué)物品等)應(yīng)當(dāng)恰當(dāng)?shù)匾暈槲锢碛?jì)算機(jī)可讀 介質(zhì),而用于發(fā)送和/或接收計(jì)算機(jī)可執(zhí)行指令、數(shù)據(jù)結(jié)構(gòu)和/或數(shù)據(jù)信號(hào)的無線載體或無 線介質(zhì)(例如無線電通信、衛(wèi)星通信、紅外通信等)應(yīng)當(dāng)恰當(dāng)?shù)匾暈闊o形計(jì)算機(jī)可讀介質(zhì)。 上述的組合也應(yīng)當(dāng)包括在計(jì)算機(jī)可讀介質(zhì)的范圍之內(nèi)。計(jì)算機(jī)可執(zhí)行指令例如包括導(dǎo)致通用計(jì)算機(jī)、專用計(jì)算機(jī)或?qū)S锰幚硌b置執(zhí)行某 些功能或功能組的指令、數(shù)據(jù)和/或數(shù)據(jù)信號(hào)。雖然沒有要求,在此,已經(jīng)在計(jì)算機(jī)可執(zhí)行 指令的一般上下文中(如程序模塊、由計(jì)算機(jī)執(zhí)行、在網(wǎng)絡(luò)環(huán)境和/或非網(wǎng)絡(luò)環(huán)境中)描述 了本發(fā)明的各方面。通常,程序模塊包括執(zhí)行特定任務(wù)或?qū)嵤┨囟ǔ橄髢?nèi)容類型的內(nèi)容結(jié) 構(gòu)、例程、程序、對(duì)象和部件。計(jì)算機(jī)可執(zhí)行指令、關(guān)聯(lián)的內(nèi)容結(jié)構(gòu)和程序模塊代表執(zhí)行在此公開的方法的各個(gè)方面的程序代碼的實(shí)例。實(shí)施例也可包括用于使用在本發(fā)明的系統(tǒng)中的計(jì)算機(jī)程序產(chǎn)品,所述計(jì)算機(jī)程序 產(chǎn)品具有存儲(chǔ)有計(jì)算機(jī)可讀程序代碼的物理計(jì)算機(jī)可讀介質(zhì),所述計(jì)算機(jī)可讀程序代碼包 括計(jì)算機(jī)可執(zhí)行指令,當(dāng)該計(jì)算機(jī)可執(zhí)行指令被處理器執(zhí)行時(shí)導(dǎo)致系統(tǒng)執(zhí)行本發(fā)明的方法。在不背離本發(fā)明基本特征的精神的情況下,本發(fā)明可以其他特定形式來實(shí)施。所 描述的實(shí)施例在各方面被認(rèn)為僅僅是說明性的而不是限制性的。因此,本發(fā)明的范圍由所 附權(quán)利要求限定而不是由前面的描述限定。落在權(quán)利要求的等價(jià)意思和范圍內(nèi)的所有變化 被包含在本發(fā)明的范圍內(nèi)。
權(quán)利要求
1.一種用于對(duì)實(shí)體的在線參引建立索引的方法,所述方法包括確定要被搜索以獲得實(shí)體的參引的、互聯(lián)網(wǎng)的一個(gè)或多個(gè)通道;在所述一個(gè)或多個(gè)通道的每一個(gè)內(nèi)確定要評(píng)估的一個(gè)或多個(gè)信號(hào),被評(píng)估的所述信號(hào) 包括關(guān)于實(shí)體的參引的信息;爬取互聯(lián)網(wǎng)以獲得實(shí)體的在線參引,其中爬取互聯(lián)網(wǎng)包括搜索互聯(lián)網(wǎng)的所述一個(gè)或多 個(gè)通道以獲得實(shí)體的參引并且評(píng)估所述一個(gè)或多個(gè)信號(hào);和構(gòu)建所述參引的反向索引,其中所述反向索引基于在其中找到參引的每一個(gè)通道以及 針對(duì)所述參引而被評(píng)估的所述一個(gè)或多個(gè)信號(hào)。
2.如權(quán)利要求1所述的方法,其中實(shí)體的參引包括以下中的一個(gè)或多個(gè)與所述實(shí)體 關(guān)聯(lián)的有機(jī)參弓I,在線廣告或新聞條目。
3.如權(quán)利要求1所述的方法,所述方法進(jìn)一步包括編譯搜索引擎優(yōu)化分?jǐn)?shù)。
4.如權(quán)利要求1所述的方法,所述方法進(jìn)一步包括編譯廣告分?jǐn)?shù)。
5.如權(quán)利要求1所述的方法,其中基于客戶請(qǐng)求確定被索引的所述實(shí)體。
6.如權(quán)利要求1所述的方法,其中搜索以下通道中的一個(gè)或多個(gè)有機(jī)搜索,頁面搜 索,鏈接廣告網(wǎng)絡(luò),橫幅式廣告,上下文廣告,電子郵件,博客,社交網(wǎng)絡(luò),社會(huì)新聞,聯(lián)盟網(wǎng) 絡(luò)營銷,移動(dòng)廣告,媒體廣告,視頻廣告,論壇,新聞?wù)军c(diǎn),富媒體,社會(huì)書簽,付費(fèi)搜索和網(wǎng) 游植入廣告。
7.如權(quán)利要求1所述的方法,其中爬取互聯(lián)網(wǎng)進(jìn)一步包括爬取網(wǎng)頁,并且其中為爬取 的網(wǎng)頁評(píng)估以下信號(hào)中的一個(gè)或多個(gè)給定網(wǎng)頁上的參引的頻率,網(wǎng)頁上的參引的位置,爬 取的日歷日期,網(wǎng)頁發(fā)布的日歷日期,爬取的時(shí)間,網(wǎng)頁發(fā)布的時(shí)間,上下文驅(qū)動(dòng)的網(wǎng)頁索 引,下載網(wǎng)頁的時(shí)間,網(wǎng)頁的網(wǎng)絡(luò)瀏覽器兼容性或網(wǎng)頁的網(wǎng)頁插件兼容性。
8.如權(quán)利要求7所述的方法,其中上下文驅(qū)動(dòng)的網(wǎng)頁索引包括基于鏈接、當(dāng)前事件和 主題中的一個(gè)或多個(gè)的上下文驅(qū)動(dòng)的網(wǎng)頁索引。
9.如權(quán)利要求1所述的方法,其中爬取互聯(lián)網(wǎng)進(jìn)一步包括預(yù)訂的或者未經(jīng)請(qǐng)求的爬取 電子郵件消息,并且其中為爬取的電子郵件消息評(píng)估以下信號(hào)中的一個(gè)或多個(gè)接收的電 子郵件消息的頻率,電子郵件消息上的向外鏈接,接收的電子郵件消息的日歷日期或接收 的電子郵件消息的時(shí)間。
10.如權(quán)利要求1所述的方法,其中爬取互聯(lián)網(wǎng)進(jìn)一步包括仿真互聯(lián)網(wǎng)的人類用戶的 活動(dòng)。
11.如權(quán)利要求10所述的方法,其中仿真互聯(lián)網(wǎng)的人類用戶的活動(dòng)包括模仿或者提供 與互聯(lián)網(wǎng)的人類用戶相關(guān)聯(lián)的至少一個(gè)屬性作為輸入,所述至少一個(gè)屬性包括以下中的一 個(gè)或多個(gè)地理位置,瀏覽時(shí)間,年齡,收入水平或電子郵件地址。
12.如權(quán)利要求1所述的方法,其中構(gòu)建反向索引進(jìn)一步包括執(zhí)行所述在線參引的趨 勢(shì)分析。
13.一種用于對(duì)實(shí)體的在線參引建立索引的系統(tǒng),該系統(tǒng)包括深度索引引擎,其中所述深度索引引擎被配置用于裝配參數(shù)以爬取互聯(lián)網(wǎng)并且將要執(zhí) 行的爬取插入工作隊(duì)列;一個(gè)或多個(gè)工作節(jié)點(diǎn),其中所述工作節(jié)點(diǎn)被配置用于執(zhí)行由所述深度索引引擎裝配的 互聯(lián)網(wǎng)爬取;和一個(gè)或多個(gè)協(xié)調(diào)器,其中所述協(xié)調(diào)器被配置用于從所述工作隊(duì)列中發(fā)起所述一個(gè)或多 個(gè)工作節(jié)點(diǎn)的工作。
14.如權(quán)利要求13所述的系統(tǒng),其中所述深度索引引擎被進(jìn)一步配置用于裝配用于反 向索引的參數(shù),并且將關(guān)于創(chuàng)建所述反向索引的工作插入到所述工作隊(duì)列中。
15.如權(quán)利要求13所述的系統(tǒng),其中所述深度索引引擎、所述工作隊(duì)列、所述工作節(jié)點(diǎn) 和所述協(xié)調(diào)器中的一個(gè)或多個(gè)被以硬件實(shí)施。
16.如權(quán)利要求13所述的系統(tǒng),其中所述深度索引引擎、所述工作隊(duì)列、所述工作節(jié)點(diǎn) 和所述協(xié)調(diào)器中的一個(gè)或多個(gè)被以存儲(chǔ)在物理計(jì)算機(jī)可讀介質(zhì)中的軟件實(shí)施。
17.如權(quán)利要求13所述的系統(tǒng),其中所述裝配的參數(shù)確定要搜索的一個(gè)或多個(gè)通道。
18.如權(quán)利要求17所述的系統(tǒng),其中所確定的一個(gè)或多個(gè)通道包括以下中的一個(gè)或多 個(gè)有機(jī)搜索,頁面搜索,鏈接廣告網(wǎng)絡(luò),橫幅式廣告,上下文廣告,電子郵件,博客,社交網(wǎng) 絡(luò),社會(huì)新聞,聯(lián)盟網(wǎng)絡(luò)營銷,移動(dòng)廣告,媒體廣告,視頻廣告,論壇,新聞?wù)军c(diǎn),富媒體,社會(huì) 書簽,付費(fèi)搜索和網(wǎng)游植入廣告。
19.如權(quán)利要求13所述的系統(tǒng),其中所述裝配的參數(shù)確定要評(píng)估的一個(gè)或多個(gè)信號(hào)。
20.如權(quán)利要求19所述的方法,其中確定的一個(gè)或多個(gè)信號(hào)包括以下中的一個(gè)或多 個(gè)給定網(wǎng)頁上的參引的頻率,網(wǎng)頁上的參引的位置,爬取的日歷日期,網(wǎng)頁發(fā)布的日歷日 期,爬取的時(shí)間,網(wǎng)頁發(fā)布的時(shí)間,上下文驅(qū)動(dòng)的網(wǎng)頁索引,下載網(wǎng)頁的時(shí)間,網(wǎng)頁的網(wǎng)絡(luò)瀏 覽器兼容性或網(wǎng)頁的網(wǎng)頁插件兼容性。
21.如權(quán)利要求13所述的系統(tǒng),其中所述一個(gè)或多個(gè)工作節(jié)點(diǎn)進(jìn)一步配置用于仿真互 聯(lián)網(wǎng)的人類用戶的活動(dòng),其中仿真互聯(lián)網(wǎng)的人類用戶的活動(dòng)包括模仿或者提供與所述互聯(lián) 網(wǎng)的人類用戶相關(guān)聯(lián)的至少一個(gè)屬性作為輸入,所述至少一個(gè)屬性包括以下中的一個(gè)或多 個(gè)地理位置,瀏覽時(shí)間,年齡,收入水平或電子郵件地址。
22.如權(quán)利要求13所述的系統(tǒng),其中所述一個(gè)或多個(gè)工作節(jié)點(diǎn)被進(jìn)一步配置為通過多 個(gè)互聯(lián)網(wǎng)服務(wù)提供商連接到所述互聯(lián)網(wǎng),以仿真從不同地理位置訪問互聯(lián)網(wǎng)的人類用戶。
全文摘要
一個(gè)示例實(shí)施例包括用于對(duì)實(shí)體的在線參引建立索引的方法。所述方法包括確定要被搜索以獲得對(duì)實(shí)體的參引的、互聯(lián)網(wǎng)的一個(gè)或多個(gè)通道,并且在所述一個(gè)或多個(gè)通道的每一個(gè)內(nèi)確定要評(píng)估的一個(gè)或多個(gè)信號(hào)。所述方法也包括爬取互聯(lián)網(wǎng)以獲得對(duì)實(shí)體的在線參引,其中爬取互聯(lián)網(wǎng)包括搜索所述互聯(lián)網(wǎng)的一個(gè)或多個(gè)通道以獲得對(duì)所述實(shí)體的參引,并且評(píng)估所述一個(gè)或多個(gè)信號(hào)。所述方法進(jìn)一步包括構(gòu)建所述參引的反向索引,其中所述反向索引基于在其中找到參引的每一個(gè)通道以及被評(píng)估用于所述參引的所述一個(gè)或多個(gè)信號(hào)。
文檔編號(hào)G06F17/30GK102057375SQ200980121610
公開日2011年5月11日 申請(qǐng)日期2009年6月3日 優(yōu)先權(quán)日2008年6月9日
發(fā)明者吉米·于, 萊繆爾·S·帕克 申請(qǐng)人:布萊特艾吉技術(shù)有限公司