麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

對獲取的網(wǎng)頁數(shù)據(jù)進(jìn)行更新的系統(tǒng)及方法

文檔序號:6508120閱讀:283來源:國知局
對獲取的網(wǎng)頁數(shù)據(jù)進(jìn)行更新的系統(tǒng)及方法
【專利摘要】本發(fā)明公開了一種對獲取的網(wǎng)頁數(shù)據(jù)進(jìn)行更新的系統(tǒng)及方法,方法包括:S1、利用網(wǎng)絡(luò)爬蟲從網(wǎng)頁中抓取目標(biāo)數(shù)據(jù);S2、將目標(biāo)數(shù)據(jù)打包成目標(biāo)壓縮文件,并對目標(biāo)壓縮文件添加MD5標(biāo)簽;S3、判斷數(shù)據(jù)庫服務(wù)器中是否存儲網(wǎng)頁數(shù)據(jù)及壓縮文件,若是,則執(zhí)行步驟S4,若否,則執(zhí)行步驟S7;S4、判斷網(wǎng)頁數(shù)據(jù)的壓縮文件與目標(biāo)壓縮文件的MD5值是否相同,若是,則執(zhí)行步驟S5,若否,則執(zhí)行步驟S6;S5、刪除目標(biāo)數(shù)據(jù)及目標(biāo)壓縮文件;S6、將網(wǎng)頁數(shù)據(jù)及壓縮文件分別更新為目標(biāo)數(shù)據(jù)及目標(biāo)壓縮文件;S7、將目標(biāo)數(shù)據(jù)及目標(biāo)壓縮文件存儲至數(shù)據(jù)庫服務(wù)器中。本發(fā)明能夠判斷出網(wǎng)頁數(shù)據(jù)的更新,實現(xiàn)了對獲取到的網(wǎng)頁數(shù)據(jù)的及時更新。
【專利說明】對獲取的網(wǎng)頁數(shù)據(jù)進(jìn)行更新的系統(tǒng)及方法

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種對獲取的網(wǎng)頁數(shù)據(jù)進(jìn)行更新的系統(tǒng)及方法,特別是涉及一種能夠 及時檢測出獲取的網(wǎng)頁數(shù)據(jù)的更新并進(jìn)行相應(yīng)更新處理的系統(tǒng)以及一種利用所述系統(tǒng)實 現(xiàn)的對獲取的網(wǎng)頁數(shù)據(jù)進(jìn)行更新的方法。

【背景技術(shù)】
[0002] 在現(xiàn)階段的網(wǎng)絡(luò)技術(shù)飛速發(fā)展的情況下,大數(shù)據(jù)時代已經(jīng)來臨,如何快速有效地 拉取網(wǎng)站的數(shù)據(jù)信息成為亟待解決的問題。現(xiàn)在很多的網(wǎng)站出于信息保護(hù)的目的,在對網(wǎng) 頁數(shù)據(jù)進(jìn)行更新時,一般不會在更新數(shù)據(jù)中提供時間戳這種標(biāo)識時間的信息數(shù)據(jù)。因此,現(xiàn) 有技術(shù)中在抓取到網(wǎng)頁數(shù)據(jù)后,基本無法判斷網(wǎng)頁數(shù)據(jù)的更新時間,一旦無法判斷更新時 間,就無法判斷抓取到的網(wǎng)頁數(shù)據(jù)中哪些是更新過的數(shù)據(jù),哪些是沒有更新過的數(shù)據(jù),從而 導(dǎo)致無法第一時間獲取到網(wǎng)頁中最新更新的數(shù)據(jù)。
[0003] 以在線旅游搜索平臺為例,由于無法判斷目標(biāo)網(wǎng)站(例如各種酒店及訂票網(wǎng)站)的 數(shù)據(jù)更新,導(dǎo)致很難在第一時間獲取到最新更新的機票、酒店及火車票等資源信息,而數(shù)據(jù) 更新的實時性不高的話,會使得用戶在進(jìn)行相關(guān)信息查詢時精準(zhǔn)度變低,嚴(yán)重影響到用戶 的使用體驗。


【發(fā)明內(nèi)容】

[0004] 本發(fā)明要解決的技術(shù)問題是為了克服現(xiàn)有技術(shù)中在線旅游搜索平臺等無法及時 判斷網(wǎng)站的數(shù)據(jù)更新,導(dǎo)致很難在第一時間獲取到最新更新的機票、酒店及火車票等資源 信息,使得用戶在進(jìn)行相關(guān)信息查詢時精準(zhǔn)度變低,嚴(yán)重影響到用戶的使用體驗的缺陷,提 供一種能夠及時檢測出獲取的網(wǎng)頁數(shù)據(jù)的更新并進(jìn)行相應(yīng)更新處理的系統(tǒng)以及一種利用 所述系統(tǒng)實現(xiàn)的對獲取的網(wǎng)頁數(shù)據(jù)進(jìn)行更新的方法。
[0005] 本發(fā)明是通過下述技術(shù)方案來解決上述技術(shù)問題的:
[0006] 本發(fā)明提供了一種對獲取的網(wǎng)頁數(shù)據(jù)進(jìn)行更新的方法,其特點在于,所述方法包 括以下步驟:
[0007] Si、利用網(wǎng)絡(luò)爬蟲從一網(wǎng)頁中抓取帶有所述網(wǎng)頁ID (身份識別號碼)的目標(biāo)數(shù)據(jù);
[0008] S2、將所述目標(biāo)數(shù)據(jù)打包成一目標(biāo)壓縮文件,并對所述目標(biāo)壓縮文件添加MD5 (消 息摘要算法第五版,計算機領(lǐng)域使用的一種散列函數(shù))標(biāo)簽;
[0009] S3、判斷一數(shù)據(jù)庫服務(wù)器中是否存儲帶有所述網(wǎng)頁ID的網(wǎng)頁數(shù)據(jù)及所述網(wǎng)頁數(shù)據(jù) 的壓縮文件,若是,則執(zhí)行步驟S 4,若否,則執(zhí)行步驟S7 ;
[0010] S4、判斷所述網(wǎng)頁數(shù)據(jù)的壓縮文件的MD5值與所述目標(biāo)壓縮文件的MD5值是否相 同,若是,則執(zhí)行步驟S 5,若否,則執(zhí)行步驟S6 ;
[0011] S5、刪除所述目標(biāo)數(shù)據(jù)及所述目標(biāo)壓縮文件,然后結(jié)束流程;
[0012] s6、將所述網(wǎng)頁數(shù)據(jù)及所述網(wǎng)頁數(shù)據(jù)的壓縮文件分別更新為所述目標(biāo)數(shù)據(jù)及所述 目標(biāo)壓縮文件,然后結(jié)束流程;
[0013] s7、將所述目標(biāo)數(shù)據(jù)及所述目標(biāo)壓縮文件存儲至所述數(shù)據(jù)庫服務(wù)器中。
[0014] 在步驟Si中通過設(shè)定所述網(wǎng)頁的網(wǎng)址,所述網(wǎng)絡(luò)爬蟲的遞歸算法以及網(wǎng)頁數(shù)據(jù)的 定位信息后,所述網(wǎng)絡(luò)爬蟲就可以快速抓取所需要的網(wǎng)頁數(shù)據(jù),即所述目標(biāo)數(shù)據(jù),而所有的 目標(biāo)數(shù)據(jù)都是在具有獨有的唯一的ID的網(wǎng)頁中的數(shù)據(jù)。
[0015] 此處的網(wǎng)頁ID并不是指網(wǎng)頁的URL (統(tǒng)一資源定位符)地址中的數(shù)字,而是表明 了所需數(shù)據(jù)的唯一身份標(biāo)識,該網(wǎng)頁ID與網(wǎng)頁中的數(shù)據(jù)是對應(yīng)的,并且它能夠表征與之相 對應(yīng)的一個獨一無二的網(wǎng)頁,而不同的網(wǎng)頁也會具有不同的網(wǎng)頁ID。
[0016] 在考慮到將抓取到的所述目標(biāo)數(shù)據(jù)存儲至所述數(shù)據(jù)庫服務(wù)器的時候,首先會在步 驟33中判斷所述數(shù)據(jù)庫服務(wù)器中是否已經(jīng)存儲有同樣來自所述網(wǎng)頁的網(wǎng)頁數(shù)據(jù),即判斷所 述數(shù)據(jù)庫服務(wù)器中是否存儲帶有所述網(wǎng)頁ID的網(wǎng)頁數(shù)據(jù)以及與所述網(wǎng)頁數(shù)據(jù)對應(yīng)的壓縮 文件。
[0017] 若是,則說明所述數(shù)據(jù)庫服務(wù)器中已經(jīng)存儲有所述網(wǎng)頁的網(wǎng)頁數(shù)據(jù),此時尚不能 確定抓取到的所述目標(biāo)數(shù)據(jù)是否為所述網(wǎng)頁最新更新的數(shù)據(jù),需要進(jìn)行后續(xù)判斷;
[0018] 若否,則說明所述數(shù)據(jù)庫服務(wù)器中尚未存儲所述網(wǎng)頁的網(wǎng)頁數(shù)據(jù),此時對所述數(shù) 據(jù)庫服務(wù)器來說,所述目標(biāo)數(shù)據(jù)為最新的網(wǎng)頁數(shù)據(jù),因此執(zhí)行步驟s 7對所述數(shù)據(jù)庫服務(wù)器 中存儲的網(wǎng)頁數(shù)據(jù)進(jìn)行更新。
[0019] 而在判斷出所述數(shù)據(jù)庫服務(wù)器中已經(jīng)存儲有所述網(wǎng)頁的網(wǎng)頁數(shù)據(jù)及所述網(wǎng)頁數(shù) 據(jù)的壓縮文件時,會執(zhí)行步驟S 4來繼續(xù)判斷所述網(wǎng)頁數(shù)據(jù)的壓縮文件的MD5值與所述目標(biāo) 壓縮文件的MD5值是否相同;
[0020] 若相同,則說明所述網(wǎng)頁數(shù)據(jù)沒有被更新過,即所述數(shù)據(jù)庫服務(wù)器中存儲的網(wǎng)頁 數(shù)據(jù)是最新的,此時執(zhí)行步驟S 5 ;若不相同,則說明步驟Si中抓取到的所述目標(biāo)數(shù)據(jù)是最新 的,此時執(zhí)行步驟S6對所述數(shù)據(jù)庫中存儲的網(wǎng)頁數(shù)據(jù)進(jìn)行更新。
[0021] 這樣,通過本發(fā)明的方法就能夠保證所述數(shù)據(jù)庫服務(wù)器中存儲的網(wǎng)頁數(shù)據(jù)一直是 最新,實現(xiàn)了對獲取到的網(wǎng)頁數(shù)據(jù)的及時更新,同時減少了所述數(shù)據(jù)庫服務(wù)器中的數(shù)據(jù)冗 余。
[0022] 并且,本發(fā)明能夠極大地提高所述數(shù)據(jù)庫服務(wù)器中存儲的網(wǎng)頁數(shù)據(jù)的實時性,特 別是對于在線旅游搜索平臺等,能夠在第一時間獲取到最新更新的機票、酒店及火車票等 資源信息,使得用戶在進(jìn)行相關(guān)信息查詢時精準(zhǔn)度大大提高,方便了用戶的使用,提升了用 戶的使用體驗,也極大地提高了在線旅游搜索平臺等對網(wǎng)頁數(shù)據(jù)處理的靈活性和實時性。
[0023] 較佳地,步驟&中的所述網(wǎng)絡(luò)爬蟲為聚焦爬蟲,所述聚焦爬蟲在抓取時通過設(shè)置 過濾算法過濾所述網(wǎng)頁中與所述目標(biāo)數(shù)據(jù)無關(guān)的鏈接。
[0024] 區(qū)別于普通的網(wǎng)絡(luò)爬蟲,步驟S2中采用的聚焦爬蟲能夠過濾掉無關(guān)鏈接,只保留 有用鏈接并存入等待隊列中,從而提高了抓取網(wǎng)頁數(shù)據(jù)的速度和效率,進(jìn)而也提高了整個 方法流程的速度和效率。
[0025] 較佳地,步驟&中還將所述目標(biāo)數(shù)據(jù)按照數(shù)據(jù)類型劃分為多個字段,并將所述多 個字段分類為靜態(tài)信息數(shù)據(jù)和動態(tài)信息數(shù)據(jù);
[0026] 步驟S2中的所述目標(biāo)壓縮文件包括分別帶有MD5標(biāo)簽的所述靜態(tài)信息數(shù)據(jù)的壓 縮文件及所述動態(tài)信息數(shù)據(jù)的壓縮文件。
[0027] 對于步驟Si中抓取到的所述目標(biāo)數(shù)據(jù),表征的信息不同使得數(shù)據(jù)的類型也會有差 另|J,因此在步驟Si中還可以按照網(wǎng)頁數(shù)據(jù)表征信息的不同將所述目標(biāo)數(shù)據(jù)劃分為多個字 段。
[0028] 所有字段的數(shù)據(jù)大體都可以分為靜態(tài)信息數(shù)據(jù)和動態(tài)信息數(shù)據(jù),其中靜態(tài)信息數(shù) 據(jù)是指事物的基本特征信息數(shù)據(jù),這些數(shù)據(jù)隨著時間的變化非常緩慢或者基本不會變化, 例如火車的車次、起始站、終點站等。而動態(tài)信息數(shù)據(jù)則是指隨著時間的變化而比較容易發(fā) 生變化的數(shù)據(jù),例如火車票的數(shù)量、硬座、臥鋪的余量等。
[0029] 較佳地,每隔一時間段執(zhí)行一次所述方法的流程。
[0030] 本發(fā)明的目的在于還提供了一種對獲取的網(wǎng)頁數(shù)據(jù)進(jìn)行更新的系統(tǒng),其特點在 于,所述系統(tǒng)包括一數(shù)據(jù)抓取模塊、一文件壓縮模塊、一第一判斷模塊、一第二判斷模塊以 及一數(shù)據(jù)更新模塊;
[0031] 所述數(shù)據(jù)抓取模塊用于利用網(wǎng)絡(luò)爬蟲從一網(wǎng)頁中抓取帶有所述網(wǎng)頁ID的目標(biāo)數(shù) 據(jù);
[0032] 所述文件壓縮模塊用于將所述目標(biāo)數(shù)據(jù)打包成一目標(biāo)壓縮文件,并對所述目標(biāo)壓 縮文件添加MD5標(biāo)簽;
[0033] 所述第一判斷模塊用于判斷一數(shù)據(jù)庫服務(wù)器中是否存儲帶有所述網(wǎng)頁ID的網(wǎng)頁 數(shù)據(jù)及所述網(wǎng)頁數(shù)據(jù)的壓縮文件,若是,則啟用所述第二判斷模塊,若否,則調(diào)用所述數(shù)據(jù) 更新模塊將所述目標(biāo)數(shù)據(jù)及所述目標(biāo)壓縮文件存儲至所述數(shù)據(jù)庫服務(wù)器中;
[0034] 所述第二判斷模塊用于判斷所述網(wǎng)頁數(shù)據(jù)的壓縮文件的MD5值與所述目標(biāo)壓縮 文件的MD5值是否相同;
[0035] 若是,則調(diào)用所述數(shù)據(jù)更新模塊刪除所述目標(biāo)數(shù)據(jù)及所述目標(biāo)壓縮文件;
[0036] 若否,則調(diào)用所述數(shù)據(jù)更新模塊分別將所述網(wǎng)頁數(shù)據(jù)及所述網(wǎng)頁數(shù)據(jù)的壓縮文件 更新為所述目標(biāo)數(shù)據(jù)及所述目標(biāo)壓縮文件。
[0037] 較佳地,所述網(wǎng)絡(luò)爬蟲為聚焦爬蟲,所述聚焦爬蟲還用于在抓取時通過設(shè)置過濾 算法過濾所述網(wǎng)頁中與所述目標(biāo)數(shù)據(jù)無關(guān)的鏈接。
[0038] 較佳地,所述數(shù)據(jù)抓取模塊還用于將所述目標(biāo)數(shù)據(jù)按照數(shù)據(jù)類型劃分為多個字 段,并將所述多個字段分類為靜態(tài)信息數(shù)據(jù)和動態(tài)信息數(shù)據(jù);
[0039] 所述目標(biāo)壓縮文件包括分別帶有MD5標(biāo)簽的所述靜態(tài)信息數(shù)據(jù)的壓縮文件及所 述動態(tài)信息數(shù)據(jù)的壓縮文件。
[0040] 本發(fā)明的積極進(jìn)步效果在于:本發(fā)明能夠判斷出網(wǎng)頁數(shù)據(jù)的更新,實現(xiàn)了對獲取 到的網(wǎng)頁數(shù)據(jù)的及時更新,并且能夠極大地提高存儲的網(wǎng)頁數(shù)據(jù)的實時性,特別是對于在 線旅游搜索平臺等,能夠在第一時間獲取到最新更新的機票、酒店及火車票等資源信息,使 得用戶在進(jìn)行相關(guān)信息查詢時精準(zhǔn)度大大提高,方便了用戶的使用,提升了用戶的使用體 驗,也極大地提高了在線旅游搜索平臺等對網(wǎng)頁數(shù)據(jù)處理的靈活性和實時性。

【專利附圖】

【附圖說明】
[0041] 圖1為本發(fā)明的一較佳實施例的對獲取的網(wǎng)頁數(shù)據(jù)進(jìn)行更新的系統(tǒng)的結(jié)構(gòu)示意 圖。
[0042] 圖2為本發(fā)明的一較佳實施例的對獲取的網(wǎng)頁數(shù)據(jù)進(jìn)行更新的方法的流程圖。

【具體實施方式】
[0043] 下面結(jié)合附圖給出本發(fā)明較佳實施例,以詳細(xì)說明本發(fā)明的技術(shù)方案。
[0044] 如圖1所示,本發(fā)明的對獲取的網(wǎng)頁數(shù)據(jù)進(jìn)行更新的系統(tǒng)包括一數(shù)據(jù)抓取模塊1、 一文件壓縮模塊2、一第一判斷模塊3、一第二判斷模塊4以及一數(shù)據(jù)更新模塊5。
[0045] 在本實施例中利用所述系統(tǒng)對鐵道部火車票網(wǎng)上訂票官網(wǎng)(網(wǎng)址為www. 12306. cn)中的網(wǎng)頁數(shù)據(jù)進(jìn)行抓取,并能夠?qū)Λ@取到的網(wǎng)頁數(shù)據(jù)進(jìn)行更新。
[0046] 具體地,首先通過設(shè)定所述網(wǎng)頁的網(wǎng)址,網(wǎng)絡(luò)爬蟲的遞歸算法以及網(wǎng)頁數(shù)據(jù)的定 位信息后,所述數(shù)據(jù)抓取模塊1利用所述網(wǎng)絡(luò)爬蟲就能夠快速抓取所需要的網(wǎng)頁數(shù)據(jù),即 所述目標(biāo)數(shù)據(jù),而所有的目標(biāo)數(shù)據(jù)都帶有所述網(wǎng)頁的一個獨有的唯一的ID。
[0047] 所述目標(biāo)數(shù)據(jù)具體包括車次、起始站、終點站、發(fā)車時間、到達(dá)時間、硬座余量、硬 臥余量等等,在此就不再一一列舉。對于抓取到的所述目標(biāo)數(shù)據(jù),由于表征的信息的不同使 得數(shù)據(jù)的類型也會有差別,例如,表征車次的數(shù)據(jù)與表征起始站的數(shù)據(jù)的類型是不同的。 [0048] 因此,所述數(shù)據(jù)抓取模塊1還將所述目標(biāo)數(shù)據(jù)按照數(shù)據(jù)類型劃分為多個字段,即 上述的表征車次、起始站、終點站、發(fā)車時間、到達(dá)時間、硬座余量、硬臥余量等的字段,并將 所述多個字段分類為靜態(tài)信息數(shù)據(jù)和動態(tài)信息數(shù)據(jù)這兩種數(shù)據(jù)。
[0049] 所有字段的數(shù)據(jù)大體都可以分為靜態(tài)信息數(shù)據(jù)和動態(tài)信息數(shù)據(jù),其中靜態(tài)信息數(shù) 據(jù)是指事物的基本特征信息數(shù)據(jù),這些數(shù)據(jù)隨著時間的變化非常緩慢或者基本不會變化, 例如火車的車次、起始站、終點站等。而動態(tài)信息數(shù)據(jù)則是指隨著時間的變化而比較容易發(fā) 生變化的數(shù)據(jù),例如火車票的數(shù)量、硬座的余量、硬臥的余量等。
[0050] 表1-表3分別示出了所述目標(biāo)數(shù)據(jù)、所述靜態(tài)信息數(shù)據(jù)和所述動態(tài)信息數(shù)據(jù)的具 體數(shù)據(jù)分類。
[0051]

【權(quán)利要求】
1. 一種對獲取的網(wǎng)頁數(shù)據(jù)進(jìn)行更新的方法,其特征在于,所述方法包括以下步驟: 51、 利用網(wǎng)絡(luò)爬蟲從一網(wǎng)頁中抓取帶有所述網(wǎng)頁ID的目標(biāo)數(shù)據(jù); 52、 將所述目標(biāo)數(shù)據(jù)打包成一目標(biāo)壓縮文件,并對所述目標(biāo)壓縮文件添加MD5標(biāo)簽; 53、 判斷一數(shù)據(jù)庫服務(wù)器中是否存儲帶有所述網(wǎng)頁ID的網(wǎng)頁數(shù)據(jù)及所述網(wǎng)頁數(shù)據(jù)的壓 縮文件,若是,則執(zhí)行步驟S4,若否,則執(zhí)行步驟S7 ; 54、 判斷所述網(wǎng)頁數(shù)據(jù)的壓縮文件的MD5值與所述目標(biāo)壓縮文件的MD5值是否相同,若 是,則執(zhí)行步驟S5,若否,則執(zhí)行步驟S6 ; 55、 刪除所述目標(biāo)數(shù)據(jù)及所述目標(biāo)壓縮文件,然后結(jié)束流程; 56、 將所述網(wǎng)頁數(shù)據(jù)及所述網(wǎng)頁數(shù)據(jù)的壓縮文件分別更新為所述目標(biāo)數(shù)據(jù)及所述目標(biāo) 壓縮文件,然后結(jié)束流程; 57、 將所述目標(biāo)數(shù)據(jù)及所述目標(biāo)壓縮文件存儲至所述數(shù)據(jù)庫服務(wù)器中。
2. 如權(quán)利要求1所述的方法,其特征在于,步驟Si中的所述網(wǎng)絡(luò)爬蟲為聚焦爬蟲,所述 聚焦爬蟲在抓取時通過設(shè)置過濾算法過濾所述網(wǎng)頁中與所述目標(biāo)數(shù)據(jù)無關(guān)的鏈接。
3. 如權(quán)利要求2所述的方法,其特征在于,步驟Si中還將所述目標(biāo)數(shù)據(jù)按照數(shù)據(jù)類型 劃分為多個字段,并將所述多個字段分類為靜態(tài)信息數(shù)據(jù)和動態(tài)信息數(shù)據(jù); 步驟S2中的所述目標(biāo)壓縮文件包括分別帶有MD5標(biāo)簽的所述靜態(tài)信息數(shù)據(jù)的壓縮文 件及所述動態(tài)信息數(shù)據(jù)的壓縮文件。
4. 如權(quán)利要求1-3中任意一項所述的方法,其特征在于,每隔一時間段執(zhí)行一次所述 方法的流程。
5. -種對獲取的網(wǎng)頁數(shù)據(jù)進(jìn)行更新的系統(tǒng),其特征在于,所述系統(tǒng)包括一數(shù)據(jù)抓取模 塊、一文件壓縮模塊、一第一判斷模塊、一第二判斷模塊以及一數(shù)據(jù)更新模塊; 所述數(shù)據(jù)抓取模塊用于利用網(wǎng)絡(luò)爬蟲從一網(wǎng)頁中抓取帶有所述網(wǎng)頁ID的目標(biāo)數(shù)據(jù); 所述文件壓縮模塊用于將所述目標(biāo)數(shù)據(jù)打包成一目標(biāo)壓縮文件,并對所述目標(biāo)壓縮文 件添加MD5標(biāo)簽; 所述第一判斷模塊用于判斷一數(shù)據(jù)庫服務(wù)器中是否存儲帶有所述網(wǎng)頁ID的網(wǎng)頁數(shù)據(jù) 及所述網(wǎng)頁數(shù)據(jù)的壓縮文件,若是,則啟用所述第二判斷模塊,若否,則調(diào)用所述數(shù)據(jù)更新 模塊將所述目標(biāo)數(shù)據(jù)及所述目標(biāo)壓縮文件存儲至所述數(shù)據(jù)庫服務(wù)器中; 所述第二判斷模塊用于判斷所述網(wǎng)頁數(shù)據(jù)的壓縮文件的MD5值與所述目標(biāo)壓縮文件 的MD5值是否相同; 若是,則調(diào)用所述數(shù)據(jù)更新模塊刪除所述目標(biāo)數(shù)據(jù)及所述目標(biāo)壓縮文件; 若否,則調(diào)用所述數(shù)據(jù)更新模塊分別將所述網(wǎng)頁數(shù)據(jù)及所述網(wǎng)頁數(shù)據(jù)的壓縮文件更新 為所述目標(biāo)數(shù)據(jù)及所述目標(biāo)壓縮文件。
6. 如權(quán)利要求5所述的系統(tǒng),其特征在于,所述網(wǎng)絡(luò)爬蟲為聚焦爬蟲,所述聚焦爬蟲還 用于在抓取時通過設(shè)置過濾算法過濾所述網(wǎng)頁中與所述目標(biāo)數(shù)據(jù)無關(guān)的鏈接。
7. 如權(quán)利要求6所述的系統(tǒng),其特征在于,所述數(shù)據(jù)抓取模塊還用于將所述目標(biāo)數(shù)據(jù) 按照數(shù)據(jù)類型劃分為多個字段,并將所述多個字段分類為靜態(tài)信息數(shù)據(jù)和動態(tài)信息數(shù)據(jù); 所述目標(biāo)壓縮文件包括分別帶有MD5標(biāo)簽的所述靜態(tài)信息數(shù)據(jù)的壓縮文件及所述動 態(tài)信息數(shù)據(jù)的壓縮文件。
【文檔編號】G06F17/30GK104424188SQ201310362978
【公開日】2015年3月18日 申請日期:2013年8月19日 優(yōu)先權(quán)日:2013年8月19日
【發(fā)明者】葉亞明 申請人:攜程計算機技術(shù)(上海)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
主站蜘蛛池模板: 大化| 郧西县| 敦化市| 榆树市| 静海县| 仁怀市| 工布江达县| 扎兰屯市| 阳西县| 苏尼特右旗| 札达县| 舟山市| 合川市| 沙湾县| 金山区| 唐河县| 永胜县| 内丘县| 平湖市| 阳东县| 南澳县| 拉孜县| 承德县| 泰州市| 商水县| 湘潭市| 当雄县| 温泉县| 抚宁县| 嘉善县| 清徐县| 吉林市| 青铜峡市| 沧州市| 当雄县| 越西县| 思茅市| 枣阳市| 南靖县| 金华市| 呼伦贝尔市|