一種歷史數(shù)據(jù)存儲(chǔ)方法和系統(tǒng)的制作方法【專利摘要】本發(fā)明公開一種歷史數(shù)據(jù)存儲(chǔ)方法和系統(tǒng),所述方法針對(duì)歷史數(shù)據(jù)中存在價(jià)值較低的數(shù)據(jù)這一現(xiàn)象,預(yù)先制定了篩選策略,以過濾價(jià)值較低的數(shù)據(jù);并將結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為非結(jié)構(gòu)化的文本數(shù)據(jù),同時(shí)為避免對(duì)部分表內(nèi)的數(shù)據(jù)在每個(gè)抽取周期重復(fù)抽取,造成存儲(chǔ)浪費(fèi),制定了數(shù)據(jù)抽取策略及相應(yīng)的兩種抽取方式:增量和全量抽取,例如明細(xì)類表數(shù)據(jù)量大、增量大且有時(shí)間字段,可采用增量方式進(jìn)行數(shù)據(jù)抽取,只保存增量數(shù)據(jù),而其他表則采用全量方式,最終得到文本格式的抽取數(shù)據(jù),并將其保存至存儲(chǔ)設(shè)備。可見,本發(fā)明通過數(shù)據(jù)篩選過濾了價(jià)值較低的數(shù)據(jù),同時(shí)只保存增量數(shù)據(jù),并將結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為非結(jié)構(gòu)化的文本數(shù)據(jù),大大減少了需保存的數(shù)據(jù)量,降低了存儲(chǔ)成本。【專利說明】一種歷史數(shù)據(jù)存儲(chǔ)方法和系統(tǒng)【
技術(shù)領(lǐng)域:
】[0001]本發(fā)明屬于數(shù)據(jù)存儲(chǔ)、管理【
技術(shù)領(lǐng)域:
】,尤其涉及一種歷史數(shù)據(jù)存儲(chǔ)方法和系統(tǒng)。【
背景技術(shù):
】[0002]隨著信息技術(shù)應(yīng)用的不斷發(fā)展,大型企業(yè)尤其是金融行業(yè)的信息系統(tǒng)產(chǎn)生的歷史數(shù)據(jù)越來越龐大,而且歷史數(shù)據(jù)的增長(zhǎng)量也越來越快。[0003]大型企業(yè)尤其是金融行業(yè)的歷史數(shù)據(jù)包含較多的重要信息、敏感信息,例如銀行系統(tǒng)的客戶數(shù)據(jù)等,基于企業(yè)自身業(yè)務(wù)需求或監(jiān)管需求,不能輕易刪除歷史數(shù)據(jù),因此,需對(duì)信息系統(tǒng)所產(chǎn)生的歷史數(shù)據(jù)進(jìn)行存儲(chǔ)。傳統(tǒng)一般采用結(jié)構(gòu)化存儲(chǔ)方式,每個(gè)存儲(chǔ)周期將結(jié)構(gòu)化歷史數(shù)據(jù)全量備份保存于專門搭建的數(shù)據(jù)庫、數(shù)據(jù)表中,或保存在增設(shè)的磁帶庫中。然而,隨著大數(shù)據(jù)時(shí)代的到來,存儲(chǔ)于數(shù)據(jù)庫中的結(jié)構(gòu)化歷史數(shù)據(jù)量將飛速增長(zhǎng),從而導(dǎo)致數(shù)據(jù)庫和磁帶庫消耗的存儲(chǔ)資源將越來越大、存儲(chǔ)成本將越來越高。[0004]因此,提供一種能夠減小存儲(chǔ)資源消耗、降低存儲(chǔ)成本的歷史數(shù)據(jù)存儲(chǔ)方法成為該領(lǐng)域亟需解決的問題。【
發(fā)明內(nèi)容】[0005]有鑒于此,本發(fā)明的目的在于提供一種歷史數(shù)據(jù)存儲(chǔ)方法和系統(tǒng),以解決當(dāng)前數(shù)據(jù)存儲(chǔ)方式存在的存儲(chǔ)資源消耗較大、存儲(chǔ)成本較高的問題。[0006]為此,本發(fā)明公開如下技術(shù)方案:[0007]-種歷史數(shù)據(jù)存儲(chǔ)方法,包括:[0008]依據(jù)預(yù)先制定的篩選策略對(duì)信息系統(tǒng)產(chǎn)生的結(jié)構(gòu)化歷史數(shù)據(jù)進(jìn)行篩選,得到待歸檔的結(jié)構(gòu)化歷史數(shù)據(jù),所述待歸檔的結(jié)構(gòu)化歷史數(shù)據(jù)包括至少一種類型的數(shù)據(jù)表;[0009]依據(jù)預(yù)先設(shè)定的數(shù)據(jù)抽取策略獲取所述待歸檔的結(jié)構(gòu)化歷史數(shù)據(jù)中每種類型數(shù)據(jù)表所屬的數(shù)據(jù)抽取方式,其中,所述數(shù)據(jù)抽取方式包括增量抽取方式和全量抽取方式;[0010]若相應(yīng)類型數(shù)據(jù)表的抽取方式為增量抽取方式,則對(duì)所述類型數(shù)據(jù)表中的數(shù)據(jù)進(jìn)行增量抽取,得到文本文件格式的增量數(shù)據(jù);[0011]若相應(yīng)類型數(shù)據(jù)表的抽取方式為全量抽取方式,則對(duì)所述類型數(shù)據(jù)表中的數(shù)據(jù)進(jìn)行全量抽取,得到文本文件格式的全量數(shù)據(jù);[0012]將所述文本文件格式的增量數(shù)據(jù)以及全量數(shù)據(jù)保存至存儲(chǔ)設(shè)備。[0013]上述方法,優(yōu)選的,所述數(shù)據(jù)表的類型包括明細(xì)類、主檔類和靜態(tài)類。[0014]上述方法,優(yōu)選的,所述存儲(chǔ)設(shè)備為磁盤存儲(chǔ)設(shè)備。[0015]上述方法,優(yōu)選的,還包括:[0016]分別為所述增量數(shù)據(jù)所在的文本文件以及所述全量數(shù)據(jù)所在文本文件配置元數(shù)據(jù),所述元數(shù)據(jù)記錄所述文本文件的屬性信息。[0017]上述方法,優(yōu)選的,還包括:[0018]對(duì)保存后的所述文本文件格式的數(shù)據(jù)進(jìn)行歸檔管理,所述歸檔管理包括文件歸檔、權(quán)限管理、文件檢索、文件下載、任務(wù)監(jiān)控和元數(shù)據(jù)管理。[0019]上述方法,優(yōu)選的,還包括:[0020]通過對(duì)保存后的所述文本文件格式的數(shù)據(jù)進(jìn)行查詢管理,實(shí)現(xiàn)對(duì)保存數(shù)據(jù)的再利用。[0021]一種歷史數(shù)據(jù)存儲(chǔ)系統(tǒng),包括篩選模塊、獲取模塊、增量抽取模塊、全量抽取模塊以及保存模塊,其中:[0022]所述篩選模塊,用于依據(jù)預(yù)先制定的篩選策略對(duì)信息系統(tǒng)產(chǎn)生的結(jié)構(gòu)化歷史數(shù)據(jù)進(jìn)行篩選,得到待歸檔的結(jié)構(gòu)化歷史數(shù)據(jù),所述待歸檔的結(jié)構(gòu)化歷史數(shù)據(jù)包括至少一種類型的數(shù)據(jù)表;[0023]所述獲取模塊,用于依據(jù)預(yù)先設(shè)定的數(shù)據(jù)抽取策略獲取所述待歸檔的結(jié)構(gòu)化歷史數(shù)據(jù)中每種類型數(shù)據(jù)表所屬的抽取方式,其中,所述抽取方式包括增量抽取方式和全量抽取方式;[0024]所述增量抽取模塊,用于在相應(yīng)類型數(shù)據(jù)表的抽取方式為增量抽取方式時(shí),對(duì)所述類型數(shù)據(jù)表中的數(shù)據(jù)進(jìn)行增量抽取,得到文本文件格式的增量數(shù)據(jù);[0025]所述全量抽取模塊,用于在相應(yīng)類型數(shù)據(jù)表的抽取方式為全量抽取方式時(shí),對(duì)所述類型數(shù)據(jù)表中的數(shù)據(jù)進(jìn)行全量抽取,得到文本文件格式的全量數(shù)據(jù);[0026]所述保存模塊,用于將所述文本文件格式的增量數(shù)據(jù)以及全量數(shù)據(jù)保存至存儲(chǔ)設(shè)備。[0027]上述系統(tǒng),優(yōu)選的,還包括配置模塊,所述配置模塊用于分別為所述增量數(shù)據(jù)所在的文本文件以及所述全量數(shù)據(jù)所在文本文件配置元數(shù)據(jù),所述元數(shù)據(jù)記錄所述文本文件的屬性信息。[0028]上述系統(tǒng),優(yōu)選的,還包括歸檔管理模塊,所述管理模塊用于對(duì)保存后的所述文本文件格式的數(shù)據(jù)進(jìn)行歸檔管理,所述歸檔管理包括文件歸檔、權(quán)限管理、表信息查詢、文件檢索、文件下載和元數(shù)據(jù)管理。[0029]上述系統(tǒng),優(yōu)選的,還包括查詢管理模塊,所述查詢管理模塊用于通過對(duì)保存后的所述文本文件格式的數(shù)據(jù)進(jìn)行查詢管理,實(shí)現(xiàn)對(duì)保存數(shù)據(jù)的再利用。[0030]本發(fā)明提供了一種歷史數(shù)據(jù)存儲(chǔ)方法和系統(tǒng),所述方法針對(duì)結(jié)構(gòu)化歷史數(shù)據(jù)中往往存在價(jià)值較低的數(shù)據(jù)這一現(xiàn)象,預(yù)先制定了篩選策略,以過濾價(jià)值較低的數(shù)據(jù);并改變結(jié)構(gòu)化數(shù)據(jù)全量備份的保存方式,將占用資源較多的結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為非結(jié)構(gòu)化的文本數(shù)據(jù),同時(shí)為避免對(duì)部分表內(nèi)的數(shù)據(jù)每個(gè)抽取周期重復(fù)抽取,造成存儲(chǔ)浪費(fèi),制定了數(shù)據(jù)抽取策略及相應(yīng)的兩種抽取方式:增量抽取和全量抽取,例如明細(xì)類數(shù)據(jù)表數(shù)據(jù)量大、增長(zhǎng)量大且有日期時(shí)間字段,對(duì)其可采用增量方式進(jìn)行數(shù)據(jù)抽取,每個(gè)存儲(chǔ)周期只保存增量數(shù)據(jù),而其他數(shù)據(jù)表,如靜態(tài)表等增量較小且無時(shí)間字段,則采用全量方式進(jìn)行抽取,最終得到文本文件格式的抽取數(shù)據(jù),并將其保存至存儲(chǔ)設(shè)備。[0031]可見,本發(fā)明改變了結(jié)構(gòu)化數(shù)據(jù)全量備份的保存方式,通過數(shù)據(jù)篩選過濾掉了價(jià)值較低的數(shù)據(jù),同時(shí)針對(duì)明細(xì)類表只保存增量數(shù)據(jù),并將占用資源較多的結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為非結(jié)構(gòu)化的文本數(shù)據(jù),大大減少了需保存的數(shù)據(jù)量,減小了存儲(chǔ)消耗、降低了存儲(chǔ)成本。【專利附圖】【附圖說明】[0032]為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。[0033]圖1是本發(fā)明實(shí)施例一公開的歷史數(shù)據(jù)存儲(chǔ)方法的一種流程圖;[0034]圖2是本發(fā)明實(shí)施例三公開的歷史數(shù)據(jù)存儲(chǔ)方法的另一種流程圖;[0035]圖3是本發(fā)明實(shí)施例四公開的歷史數(shù)據(jù)存儲(chǔ)方法的又一種流程圖;[0036]圖4是本發(fā)明實(shí)施例五公開的歷史數(shù)據(jù)存儲(chǔ)系統(tǒng)的一種結(jié)構(gòu)示意圖;[0037]圖5是本發(fā)明實(shí)施例五公開的歷史數(shù)據(jù)存儲(chǔ)系統(tǒng)的另一種結(jié)構(gòu)示意圖;[0038]圖6是本發(fā)明實(shí)施例五公開的歷史數(shù)據(jù)存儲(chǔ)系統(tǒng)的又一種結(jié)構(gòu)示意圖;[0039]圖7是本發(fā)明實(shí)施例五公開的實(shí)現(xiàn)本發(fā)明方法的技術(shù)架構(gòu)。【具體實(shí)施方式】[0040]為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。[0041]實(shí)施例一[0042]本發(fā)明實(shí)施例一公開一種歷史數(shù)據(jù)存儲(chǔ)方法,該方法適于對(duì)海量歷史數(shù)據(jù)進(jìn)行長(zhǎng)期保存,請(qǐng)參見圖1,上述方法包括如下步驟:[0043]S1:依據(jù)預(yù)先制定的篩選策略對(duì)信息系統(tǒng)產(chǎn)生的結(jié)構(gòu)化歷史數(shù)據(jù)進(jìn)行篩選,得到待歸檔的結(jié)構(gòu)化歷史數(shù)據(jù),所述待歸檔的結(jié)構(gòu)化歷史數(shù)據(jù)包括至少一種類型的數(shù)據(jù)表。[0044]大型企業(yè),例如銀行類的大型金融企業(yè),結(jié)構(gòu)化歷史數(shù)據(jù)的數(shù)據(jù)量以及每日的數(shù)據(jù)增量都非常大(占用空間超過TB級(jí)),且這些數(shù)據(jù)中往往存在一些不重要的、價(jià)值較低的數(shù)據(jù),對(duì)所有數(shù)據(jù)進(jìn)行歸檔保存會(huì)造成不必要的資源浪費(fèi),針對(duì)此種情況,本實(shí)施例預(yù)先制定篩選策略,以對(duì)價(jià)值較低的數(shù)據(jù)進(jìn)行過濾,初步減少需保存的數(shù)據(jù)量。[0045]具體地,通過對(duì)數(shù)據(jù)庫表中存儲(chǔ)的數(shù)據(jù)業(yè)務(wù)類型進(jìn)行判斷,將有價(jià)值、重要、需要長(zhǎng)期保存的數(shù)據(jù)納入保存范圍。以銀行系統(tǒng)為例,記載銀行與客戶之間債權(quán)、債務(wù)關(guān)系(如分戶帳)和記載銀行與客戶之間交易行為關(guān)系(如日志、明細(xì)帳等)的數(shù)據(jù)為銀行系統(tǒng)的核心數(shù)據(jù),價(jià)值較高,此類數(shù)據(jù)需要保存,而其他一些非賬務(wù)數(shù)據(jù)暫不納入需要存儲(chǔ)的范圍,因此,可采用篩選策略將這些數(shù)據(jù)過濾掉。[0046]S2:依據(jù)預(yù)先設(shè)定的數(shù)據(jù)抽取策略獲取所述待歸檔的結(jié)構(gòu)化歷史數(shù)據(jù)中每種類型數(shù)據(jù)表所屬的數(shù)據(jù)抽取方式,其中,所述數(shù)據(jù)抽取方式包括增量抽取方式和全量抽取方式。[0047]由于企業(yè)歷史數(shù)據(jù)量巨大,本發(fā)明考慮盡量不在每個(gè)抽取周期對(duì)所有數(shù)據(jù)(包括之前歷史數(shù)據(jù)和本周期新增數(shù)據(jù))進(jìn)行全量歸檔,為避免對(duì)部分?jǐn)?shù)據(jù)表內(nèi)數(shù)據(jù)每個(gè)周期重復(fù)抽取,造成存儲(chǔ)浪費(fèi),本發(fā)明制定了數(shù)據(jù)抽取策略及相應(yīng)的兩種抽取方式:增量抽取(只抽取本周期新增數(shù)據(jù))和全量抽取,以采用相應(yīng)方式從生產(chǎn)數(shù)據(jù)庫(在線數(shù)據(jù))、歷史數(shù)據(jù)庫(近線數(shù)據(jù))或歷史磁帶庫(離線數(shù)據(jù))中抽取數(shù)據(jù)。[0048]S3:若相應(yīng)類型數(shù)據(jù)表的抽取方式為增量抽取方式,則對(duì)所述類型數(shù)據(jù)表中的數(shù)據(jù)進(jìn)行增量抽取,得到文本文件格式的增量數(shù)據(jù)。[0049]具體地,例如明細(xì)類數(shù)據(jù)表數(shù)據(jù)量大、增長(zhǎng)量大且有日期字段,對(duì)該類數(shù)據(jù)表可按日期字段采用增量方式只抽取其當(dāng)日新增數(shù)據(jù),并同時(shí)將新增數(shù)抽取為非結(jié)構(gòu)化的文本文件格式進(jìn)行保存,而之前的歷史數(shù)據(jù)不再重復(fù)抽取。[0050]由于明細(xì)類數(shù)據(jù)表數(shù)據(jù)量及增長(zhǎng)量較大,本實(shí)施例對(duì)其進(jìn)行每日歸檔,即每天抽取明細(xì)表的當(dāng)日新增數(shù)據(jù),減少了數(shù)據(jù)的重復(fù)抽取。[0051]S4:若相應(yīng)類型數(shù)據(jù)表的抽取方式為全量抽取方式,則對(duì)所述類型數(shù)據(jù)表中的數(shù)據(jù)進(jìn)行全量抽取,得到文本文件格式的全量數(shù)據(jù);[0052]主檔表或靜態(tài)表沒有日期字段標(biāo)識(shí)數(shù)據(jù)時(shí)間,只能在每個(gè)抽取周期采用全量抽取方式對(duì)全表數(shù)據(jù)進(jìn)行抽取,并同時(shí)將全量數(shù)據(jù)抽取為非結(jié)構(gòu)化的文本文件格式。對(duì)于主檔表或靜態(tài)表,由于其數(shù)據(jù)量及增長(zhǎng)量較小,本實(shí)施例采用每月歸檔,減少了數(shù)據(jù)的抽取次數(shù)。[0053]具體地,對(duì)于存儲(chǔ)在數(shù)據(jù)庫中的數(shù)據(jù),可采用數(shù)據(jù)庫提供的抽取為文本文檔的命令進(jìn)行數(shù)據(jù)抽取,例如針對(duì)Sybase數(shù)據(jù)庫,全量抽取可采用該數(shù)據(jù)庫提供的:bcpdbname.·tablenameout文件(帶路徑)-Usa-Ppassword-Sservername-c命令抽取得到非結(jié)構(gòu)化的文本文件。[0054]增量抽取可采用增加查詢條件實(shí)現(xiàn),如增加查詢條件:select*fromAAAwhereDATE=$workDate$可實(shí)現(xiàn)從數(shù)據(jù)表"AAA"中抽取出時(shí)間字段是"workDate"的增量數(shù)據(jù)。[0055]其中,對(duì)于已經(jīng)存儲(chǔ)在磁帶庫中的數(shù)據(jù),需要首先搭建數(shù)據(jù)庫環(huán)境,利用搭建的環(huán)境將磁帶數(shù)據(jù)恢復(fù),之后可對(duì)恢復(fù)的數(shù)據(jù)進(jìn)行抽取。[0056]S5:將所述文本文件格式的增量數(shù)據(jù)以及全量數(shù)據(jù)保存至存儲(chǔ)設(shè)備。[0057]綜上,本發(fā)明方法針對(duì)結(jié)構(gòu)化歷史數(shù)據(jù)中往往存在價(jià)值較低的數(shù)據(jù)這一現(xiàn)象,預(yù)先制定了篩選策略,以過濾價(jià)值較低的數(shù)據(jù);并改變結(jié)構(gòu)化數(shù)據(jù)全量備份的保存方式,將占用資源較多的結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為非結(jié)構(gòu)化的文本數(shù)據(jù),同時(shí)為避免對(duì)部分表內(nèi)的數(shù)據(jù)每個(gè)抽取周期重復(fù)抽取,造成存儲(chǔ)浪費(fèi),制定了數(shù)據(jù)抽取策略及相應(yīng)的兩種抽取方式:增量抽取和全量抽取,例如明細(xì)類數(shù)據(jù)表數(shù)據(jù)量大、增長(zhǎng)量大且有日期時(shí)間字段,對(duì)其可采用增量方式進(jìn)行數(shù)據(jù)抽取,每個(gè)存儲(chǔ)周期只保存增量數(shù)據(jù),而其他數(shù)據(jù)表,如靜態(tài)表等增量較小且無時(shí)間字段,則采用全量方式進(jìn)行抽取,最終得到文本文件格式的抽取數(shù)據(jù),并將其保存至存儲(chǔ)設(shè)備。[0058]可見,本發(fā)明改變了結(jié)構(gòu)化數(shù)據(jù)全量備份的保存方式,通過數(shù)據(jù)篩選過濾掉了價(jià)值較低的數(shù)據(jù),同時(shí)針對(duì)明細(xì)類表只保存增量數(shù)據(jù),并將占用資源較多的結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為非結(jié)構(gòu)化的文本數(shù)據(jù),大大減少了需保存的數(shù)據(jù)量,減小了存儲(chǔ)消耗、降低了存儲(chǔ)成本。[0059]實(shí)施例二[0060]本實(shí)施例二對(duì)保存文本數(shù)據(jù)所采用的存儲(chǔ)設(shè)備進(jìn)行說明。[0061]具體地,本發(fā)明采用磁盤存儲(chǔ)設(shè)備對(duì)抽取的文本數(shù)據(jù)進(jìn)行保存。區(qū)別于現(xiàn)有的存儲(chǔ)介質(zhì),本發(fā)明采用磁盤存儲(chǔ)設(shè)備具有如下優(yōu)勢(shì):[0062]1)高效[0063]現(xiàn)實(shí)應(yīng)用中,大規(guī)模的歷史數(shù)據(jù)短期內(nèi)(如三年內(nèi))一般存于在線數(shù)據(jù)庫,超過一定年限后一般從在線數(shù)據(jù)庫轉(zhuǎn)移到磁帶庫中存儲(chǔ),然而保存和訪問磁帶庫歷史數(shù)據(jù)的效率較低,本發(fā)明采用磁盤存儲(chǔ)設(shè)備,提高了數(shù)據(jù)的保存和訪問效率。[0064]2)安全[0065]大型企業(yè)尤其是金融行業(yè)的歷史數(shù)據(jù)往往包含較多敏感信息,安全性要求較高,現(xiàn)有一般通過權(quán)限控制來保證數(shù)據(jù)的安全性,但仍存在權(quán)限泄漏、數(shù)據(jù)被更改的可能,本發(fā)明采用專用的磁盤存儲(chǔ)設(shè)備,數(shù)據(jù)文件一旦存入該設(shè)備,其從物理層面決定數(shù)據(jù)將不能再修改。[0066]3)經(jīng)濟(jì)[0067]現(xiàn)有數(shù)據(jù)庫尤其是高性能的大型機(jī)數(shù)據(jù)庫存儲(chǔ)資源成本較高,而磁盤存儲(chǔ)設(shè)備成本低廉。[0068]4)再利用[0069]現(xiàn)有技術(shù)中,時(shí)間久遠(yuǎn)的歷史數(shù)據(jù)一般存放于磁帶庫中,對(duì)磁帶庫中數(shù)據(jù)進(jìn)行再利用難度大、成本高(需搭建一套和產(chǎn)生歷史數(shù)據(jù)的原系統(tǒng)相同的環(huán)境),且磁帶介質(zhì)壽命較短易導(dǎo)致數(shù)據(jù)無法恢復(fù),本發(fā)明采用的磁盤存儲(chǔ)設(shè)備可將數(shù)據(jù)恢復(fù)至任意一數(shù)據(jù)庫中進(jìn)行再利用,且其壽命長(zhǎng)、設(shè)備維護(hù)、擴(kuò)容和升級(jí)方便。[0070]實(shí)施例三[0071]本實(shí)施例三繼續(xù)對(duì)以上實(shí)施例公開的歷史數(shù)據(jù)存儲(chǔ)方法進(jìn)行補(bǔ)充,請(qǐng)參見圖2,該方法還包括:[0072]S6:分別為所述增量數(shù)據(jù)所在的文本文件以及所述全量數(shù)據(jù)所在文本文件配置元數(shù)據(jù),所述元數(shù)據(jù)記錄所述文本文件的屬性信息。[0073]其中,元數(shù)據(jù)中記錄了文件的重要屬性信息,包括省市代碼、表名、日期、大小、保存年限等,以方便后續(xù)對(duì)保存的數(shù)據(jù)文件進(jìn)行管理。[0074]實(shí)施例四[0075]本實(shí)施例四繼續(xù)對(duì)以上實(shí)施例公開的歷史數(shù)據(jù)存儲(chǔ)方法進(jìn)行補(bǔ)充、完善。請(qǐng)參見圖3,該方法還包括:[0076]S7:對(duì)保存后的所述文本文件格式的數(shù)據(jù)進(jìn)行歸檔管理。[0077]歸檔管理包括文件歸檔、權(quán)限管理、文件檢索與下載、數(shù)據(jù)文件年限管理、輔助查詢數(shù)據(jù)裝載、任務(wù)監(jiān)控以及元數(shù)據(jù)管理等功能。[0078]其中,文件歸檔包括自動(dòng)批量歸檔和手動(dòng)批量歸檔。自動(dòng)批量歸檔實(shí)現(xiàn)將從數(shù)據(jù)庫中抽取的數(shù)據(jù)定時(shí)批量歸檔保存到磁盤存儲(chǔ)設(shè)備中(可通過軟件形式實(shí)現(xiàn)),手動(dòng)歸檔指通過手動(dòng)操作方式將磁帶數(shù)據(jù)或其他數(shù)據(jù)歸檔到磁盤存儲(chǔ)設(shè)備中。[0079]具體地,實(shí)現(xiàn)數(shù)據(jù)歸檔保存的過程如下:采用數(shù)據(jù)抽取程序從生產(chǎn)系統(tǒng)(信息系統(tǒng))中抽取并導(dǎo)出待歸檔的文本數(shù)據(jù),即格式為gzip的文件(包括增量數(shù)據(jù)和全量數(shù)據(jù)),并將其存放在NAS(NetworkAttachedStorage:網(wǎng)絡(luò)附屬存儲(chǔ))中進(jìn)行中轉(zhuǎn)存儲(chǔ);當(dāng)數(shù)據(jù)抽取程序執(zhí)行完畢后,數(shù)據(jù)上傳程序?qū)⒅修D(zhuǎn)存儲(chǔ)的gzip文件導(dǎo)入磁盤存儲(chǔ)設(shè)備中實(shí)現(xiàn)歸檔,同時(shí)記錄文件的元數(shù)據(jù)信息,包括省市代碼、表名、日期、大小、保存年限等。[0080]元數(shù)據(jù)管理是歸檔管理的一項(xiàng)重要功能,用于對(duì)已歸檔文本文件的元數(shù)據(jù)進(jìn)行修改、添加或刪除等操作,例如修改元數(shù)據(jù)中的保存年限字段。后續(xù)歸檔管理可在文本文件超出保存年限字段所標(biāo)識(shí)的保存期限后,對(duì)該文本文件進(jìn)行清除。[0081]S8:通過對(duì)保存后的所述文本文件格式的數(shù)據(jù)進(jìn)行查詢管理,實(shí)現(xiàn)對(duì)保存數(shù)據(jù)的再利用。[0082]查詢管理提供對(duì)保存至磁盤設(shè)備的文本文件數(shù)據(jù)進(jìn)行表信息查詢、文件下載、恢復(fù)和輔助查詢功能,以實(shí)現(xiàn)對(duì)已保存的相應(yīng)文本數(shù)據(jù)進(jìn)行再利用。[0083]其中,在對(duì)文本文件進(jìn)行歸檔時(shí),預(yù)先制定待歸檔文件的明細(xì),得到歸檔明細(xì)表。在此基礎(chǔ)上,當(dāng)需要對(duì)保存的文本數(shù)據(jù)進(jìn)行再利用時(shí),本步驟S8的詢管理功能可通過索引查詢到文本文件,再將其恢復(fù)到任意一數(shù)據(jù)庫中,實(shí)現(xiàn)數(shù)據(jù)的再利用。[0084]具體地,表信息查詢(通過索引查詢文件)是指通過輸入一些關(guān)鍵信息,查找到精確的表信息,例如通過輸入中文表名、所屬子系統(tǒng)、表的類別、涉及的產(chǎn)品名,可以查到符合條件的表信息,得到英文表名,然后通過輸入英文表名、時(shí)間區(qū)間、文件類型,進(jìn)行文件檢索,得到所需的文本文件。[0085]接下來,本步驟S8提供的查詢管理功能將文件檢索的結(jié)果從歸檔磁盤設(shè)備中下載并導(dǎo)入至本地任意一主流的數(shù)據(jù)庫中,實(shí)現(xiàn)數(shù)據(jù)恢復(fù),之后通過后續(xù)的輔助查詢從恢復(fù)的數(shù)據(jù)中查詢出所需的特定數(shù)據(jù),以為后續(xù)的數(shù)據(jù)再利用提供支持。[0086]本實(shí)施例通過歸檔管理和查詢管理實(shí)現(xiàn)了歸檔后數(shù)據(jù)的統(tǒng)一管理和再利用。[0087]實(shí)施例五[0088]本實(shí)施例五公開一種歷史數(shù)據(jù)存儲(chǔ)系統(tǒng),該系統(tǒng)與以上各實(shí)施例公開的歷史數(shù)據(jù)存儲(chǔ)方法相對(duì)應(yīng)。[0089]首先,相應(yīng)于實(shí)施例一中歷史數(shù)據(jù)存儲(chǔ)方法的流程,如圖4所示,上述系統(tǒng)包括篩選模塊100、獲取模塊200、增量抽取模塊300、全量抽取模塊400以及保存模塊500。[0090]篩選模塊100,用于依據(jù)預(yù)先制定的篩選策略對(duì)信息系統(tǒng)產(chǎn)生的結(jié)構(gòu)化歷史數(shù)據(jù)進(jìn)行篩選,得到待歸檔的結(jié)構(gòu)化歷史數(shù)據(jù),所述待歸檔的結(jié)構(gòu)化歷史數(shù)據(jù)包括至少一種類型的數(shù)據(jù)表。[0091]獲取模塊200,用于依據(jù)預(yù)先設(shè)定的數(shù)據(jù)抽取策略獲取所述待歸檔的結(jié)構(gòu)化歷史數(shù)據(jù)中每種類型數(shù)據(jù)表所屬的抽取方式,其中,所述抽取方式包括增量抽取方式和全量抽取方式。[0092]增量抽取模塊300,用于在相應(yīng)類型數(shù)據(jù)表的抽取方式為增量抽取方式時(shí),對(duì)所述類型數(shù)據(jù)表中的數(shù)據(jù)進(jìn)行增量抽取,得到文本文件格式的增量數(shù)據(jù)。[0093]全量抽取模塊400,用于在相應(yīng)類型數(shù)據(jù)表的抽取方式為全量抽取方式時(shí),對(duì)所述類型數(shù)據(jù)表中的數(shù)據(jù)進(jìn)行全量抽取,得到文本文件格式的全量數(shù)據(jù)。[0094]保存模塊500,用于將所述文本文件格式的增量數(shù)據(jù)以及全量數(shù)據(jù)保存至存儲(chǔ)設(shè)備。[0095]相應(yīng)于實(shí)施例三中歷史數(shù)據(jù)存儲(chǔ)方法的流程,請(qǐng)參見圖5,上述歷史數(shù)據(jù)存儲(chǔ)系統(tǒng)還包括配置模塊600,該模塊用于分別為所述增量數(shù)據(jù)所在的文本文件以及所述全量數(shù)據(jù)所在文本文件配置元數(shù)據(jù),所述元數(shù)據(jù)記錄所述文本文件的屬性信息。[0096]相應(yīng)于實(shí)施例四,如圖6所示,該歷史數(shù)據(jù)存儲(chǔ)系統(tǒng)還包括歸檔管理模塊700和查詢管理模塊800。[0097]歸檔管理模塊700,用于對(duì)保存后的所述文本文件格式的數(shù)據(jù)進(jìn)行歸檔管理,所述歸檔管理包括文件歸檔、權(quán)限管理、表信息查詢、文件檢索、文件下載和元數(shù)據(jù)管理。[0098]查詢管理模塊800,用于通過對(duì)保存后的所述文本文件格式的數(shù)據(jù)進(jìn)行查詢管理,實(shí)現(xiàn)對(duì)保存數(shù)據(jù)的再利用。[0099]接下來,請(qǐng)參見圖7,本實(shí)施例繼續(xù)公開實(shí)現(xiàn)本發(fā)明方法或系統(tǒng)的技術(shù)架構(gòu),包括主機(jī)數(shù)據(jù)層、數(shù)據(jù)抽取層和歷史數(shù)據(jù)管理層。[0100]在主機(jī)數(shù)據(jù)層,可將歷史磁帶備份數(shù)據(jù)恢復(fù)到數(shù)據(jù)庫,恢復(fù)數(shù)據(jù)同當(dāng)前生產(chǎn)數(shù)據(jù)庫一起,作為數(shù)據(jù)源對(duì)外提供數(shù)據(jù)抽取接口。[0101]在數(shù)據(jù)抽取層,配置抽取策略和作業(yè),并使用數(shù)據(jù)庫提供的自有工具或第三方工具,進(jìn)行數(shù)據(jù)庫的數(shù)據(jù)抽取,將數(shù)據(jù)庫數(shù)據(jù)轉(zhuǎn)換為純文本文件。[0102]在歷史數(shù)據(jù)管理層,通過開發(fā)專用的管理系統(tǒng)平臺(tái),對(duì)權(quán)限、歸檔操作、文件等進(jìn)行管理,并通過輔助查詢,對(duì)外提供歷史數(shù)據(jù)的再利用。[0103]對(duì)于本發(fā)明實(shí)施例五公開的歷史數(shù)據(jù)存儲(chǔ)系統(tǒng)而言,由于其與以上各實(shí)施例公開的歷史數(shù)據(jù)存儲(chǔ)方法相對(duì)應(yīng),所以描述的比較簡(jiǎn)單,相關(guān)相似之處請(qǐng)參見以上各實(shí)施例中歷史數(shù)據(jù)存儲(chǔ)方法部分的說明即可,此處不再詳述。[0104]綜上所述,本發(fā)明通過制定數(shù)據(jù)的抽取策略,改變了結(jié)構(gòu)化數(shù)據(jù)全量備份保存的方式,只保存增量數(shù)據(jù),并將結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為非結(jié)構(gòu)化的文本數(shù)據(jù),大大減少了需保存的數(shù)據(jù)量,降低了資源消耗;且本發(fā)明使用磁盤存儲(chǔ)設(shè)備保存數(shù)據(jù),具有高效、安全、經(jīng)濟(jì)以及再利用可靠性高的優(yōu)點(diǎn),當(dāng)需要對(duì)已保存的文本數(shù)據(jù)恢復(fù)再利用時(shí),通過索引查詢到文本文件再將其恢復(fù)到任意一主流數(shù)據(jù)庫中即可,數(shù)據(jù)再利用的可靠性大大增強(qiáng)。[0105]需要說明的是,本說明書中的各個(gè)實(shí)施例均采用遞進(jìn)的方式描述,每個(gè)實(shí)施例重點(diǎn)說明的都是與其他實(shí)施例的不同之處,各個(gè)實(shí)施例之間相同相似的部分互相參見即可。[0106]為了描述的方便,描述以上裝置時(shí)以功能分為各種模塊或單元分別描述。當(dāng)然,在實(shí)施本申請(qǐng)時(shí)可以把各模塊、單元的功能在同一個(gè)或多個(gè)軟件和/或硬件中實(shí)現(xiàn)。[0107]通過以上的實(shí)施方式的描述可知,本領(lǐng)域的技術(shù)人員可以清楚地了解到本申請(qǐng)可借助軟件加必需的通用硬件平臺(tái)的方式來實(shí)現(xiàn)。基于這樣的理解,本申請(qǐng)的技術(shù)方案本質(zhì)上或者說對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計(jì)算機(jī)軟件產(chǎn)品可以存儲(chǔ)在存儲(chǔ)介質(zhì)中,如R0M/RAM、磁碟、光盤等,包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本申請(qǐng)各個(gè)實(shí)施例或者實(shí)施例的某些部分所述的方法。[0108]以上所述僅是本發(fā)明的優(yōu)選實(shí)施方式,應(yīng)當(dāng)指出,對(duì)于本【
技術(shù)領(lǐng)域:
】的普通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和潤(rùn)飾,這些改進(jìn)和潤(rùn)飾也應(yīng)視為本發(fā)明的保護(hù)范圍。【權(quán)利要求】1.一種歷史數(shù)據(jù)存儲(chǔ)方法,其特征在于,包括:依據(jù)預(yù)先制定的篩選策略對(duì)信息系統(tǒng)產(chǎn)生的結(jié)構(gòu)化歷史數(shù)據(jù)進(jìn)行篩選,得到待歸檔的結(jié)構(gòu)化歷史數(shù)據(jù),所述待歸檔的結(jié)構(gòu)化歷史數(shù)據(jù)包括至少一種類型的數(shù)據(jù)表;依據(jù)預(yù)先設(shè)定的數(shù)據(jù)抽取策略獲取所述待歸檔的結(jié)構(gòu)化歷史數(shù)據(jù)中每種類型數(shù)據(jù)表所屬的數(shù)據(jù)抽取方式,其中,所述數(shù)據(jù)抽取方式包括增量抽取方式和全量抽取方式;若相應(yīng)類型數(shù)據(jù)表的抽取方式為增量抽取方式,則對(duì)所述類型數(shù)據(jù)表中的數(shù)據(jù)進(jìn)行增量抽取,得到文本文件格式的增量數(shù)據(jù);若相應(yīng)類型數(shù)據(jù)表的抽取方式為全量抽取方式,則對(duì)所述類型數(shù)據(jù)表中的數(shù)據(jù)進(jìn)行全量抽取,得到文本文件格式的全量數(shù)據(jù);將所述文本文件格式的增量數(shù)據(jù)以及全量數(shù)據(jù)保存至存儲(chǔ)設(shè)備。2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述數(shù)據(jù)表的類型包括明細(xì)類、主檔類和靜態(tài)類。3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述存儲(chǔ)設(shè)備為磁盤存儲(chǔ)設(shè)備。4.根據(jù)權(quán)利要求1所述的方法,其特征在于,還包括:分別為所述增量數(shù)據(jù)所在的文本文件以及所述全量數(shù)據(jù)所在文本文件配置元數(shù)據(jù),所述元數(shù)據(jù)記錄所述文本文件的屬性信息。5.根據(jù)權(quán)利要求4所述的方法,其特征在于,還包括:對(duì)保存后的所述文本文件格式的數(shù)據(jù)進(jìn)行歸檔管理,所述歸檔管理包括文件歸檔、權(quán)限管理、文件檢索、文件下載、任務(wù)監(jiān)控和元數(shù)據(jù)管理。6.根據(jù)權(quán)利要求5所述的方法,其特征在于,還包括:通過對(duì)保存后的所述文本文件格式的數(shù)據(jù)進(jìn)行查詢管理,實(shí)現(xiàn)對(duì)保存數(shù)據(jù)的再利用。7.-種歷史數(shù)據(jù)存儲(chǔ)系統(tǒng),其特征在于,包括篩選模塊、獲取模塊、增量抽取模塊、全量抽取模塊以及保存模塊,其中:所述篩選模塊,用于依據(jù)預(yù)先制定的篩選策略對(duì)信息系統(tǒng)產(chǎn)生的結(jié)構(gòu)化歷史數(shù)據(jù)進(jìn)行篩選,得到待歸檔的結(jié)構(gòu)化歷史數(shù)據(jù),所述待歸檔的結(jié)構(gòu)化歷史數(shù)據(jù)包括至少一種類型的數(shù)據(jù)表;所述獲取模塊,用于依據(jù)預(yù)先設(shè)定的數(shù)據(jù)抽取策略獲取所述待歸檔的結(jié)構(gòu)化歷史數(shù)據(jù)中每種類型數(shù)據(jù)表所屬的抽取方式,其中,所述抽取方式包括增量抽取方式和全量抽取方式;所述增量抽取模塊,用于在相應(yīng)類型數(shù)據(jù)表的抽取方式為增量抽取方式時(shí),對(duì)所述類型數(shù)據(jù)表中的數(shù)據(jù)進(jìn)行增量抽取,得到文本文件格式的增量數(shù)據(jù);所述全量抽取模塊,用于在相應(yīng)類型數(shù)據(jù)表的抽取方式為全量抽取方式時(shí),對(duì)所述類型數(shù)據(jù)表中的數(shù)據(jù)進(jìn)行全量抽取,得到文本文件格式的全量數(shù)據(jù);所述保存模塊,用于將所述文本文件格式的增量數(shù)據(jù)以及全量數(shù)據(jù)保存至存儲(chǔ)設(shè)備。8.根據(jù)權(quán)利要求7所述的系統(tǒng),其特征在于,還包括配置模塊,所述配置模塊用于分別為所述增量數(shù)據(jù)所在的文本文件以及所述全量數(shù)據(jù)所在文本文件配置元數(shù)據(jù),所述元數(shù)據(jù)記錄所述文本文件的屬性信息。9.根據(jù)權(quán)利要求8所述的系統(tǒng),其特征在于,還包括歸檔管理模塊,所述管理模塊用于對(duì)保存后的所述文本文件格式的數(shù)據(jù)進(jìn)行歸檔管理,所述歸檔管理包括文件歸檔、權(quán)限管理、表信息查詢、文件檢索、文件下載和元數(shù)據(jù)管理。10.根據(jù)權(quán)利要求8所述的系統(tǒng),其特征在于,還包括查詢管理模塊,所述查詢管理模塊用于通過對(duì)保存后的所述文本文件格式的數(shù)據(jù)進(jìn)行查詢管理,實(shí)現(xiàn)對(duì)保存數(shù)據(jù)的再利用。【文檔編號(hào)】G06F17/30GK104102737SQ201410363419【公開日】2014年10月15日申請(qǐng)日期:2014年7月28日優(yōu)先權(quán)日:2014年7月28日【發(fā)明者】楊亮,王晶申請(qǐng)人:中國農(nóng)業(yè)銀行股份有限公司