本發明涉及數據收集技術領域,特別涉及一種基于云服務的大數據收集方法及系統。
背景技術:
數據挖掘是指用適當的統計分析方法對收集來的大量數據進行分析總結,提取有用信息和形成結論而對數據加以詳細研究和概括總結的過程。這一過程也是質量管理體系的支持過程。在實用中,數據挖掘可幫助人們作出判斷,以便采取適當行動。數據挖掘的數學基礎在20世紀早期就已確立,但直到計算機的出現才使得實際操作成為可能,并使得數據挖掘得以推廣。數據挖掘是數學與計算機科學相結合的產物。
數據多樣化的形成主要有兩方面的原因:一是數據來源多,有搜索引擎、社交網絡、通話記錄、傳感器等等;二是數據格式多,有結構數據、半結構數據和非結構數據。據相關數據統計,每秒鐘人們發送290封電子郵件;亞馬遜處理72.9筆訂單;每分鐘人們在youtube上傳20小時的視頻;每月人們總共在facebook(臉書)上瀏覽7000億分鐘。
目前的數據挖掘面臨的問題是數據量大、多種結構形式和實時性等多樣化要求,這些問題增加了數據挖掘和整合困難,傳統數據挖掘系統的架構設計結構復雜、效率低、針對性不強。
技術實現要素:
本發明實施例的目的在于提供一種基于云服務的大數據收集方法及系統,對數據進行針對性采集和整合,結構簡單、目的性強。
為達到上述目的,本發明實施例公開了一種基于云服務的大數據收集方法,方法包括:
信息系統接收和處理用戶預設條件的行業數據;
針對用戶所預設的行業數據進行數據過濾,得到完整且不重復的行業數據;
數據挖掘應用服務器用于針對過濾得到的完整且不重復的行業數據進行數據抽取、轉換和裝載,并將數據挖掘結果導入數據庫進行存儲,實現數據收集。
為達到上述目的,本發明實施例公開了一種基于云服務的大數據收集方法,方法包括:
信息系統接收和處理用戶預設條件的行業數據;
針對用戶所預設的行業數據進行數據過濾,得到完整且不重復的行業數據;
數據挖掘應用服務器用于針對過濾得到的完整且不重復的行業數據進行數據抽取、轉換和裝載,并將數據挖掘結果導入行業客戶端進行存儲,實現數據收集。
可選的,所述方法還包括:
所述行業客戶端為用戶提供自身存儲的分析處理后的最終數據。
可選的,所述針對用戶所預設的行業數據進行數據過濾,得到完整且不重復的行業數據,包括:
利用hadoop分布式模式,針對用戶所預設的行業數據進行數據過濾,得到完整且不重復的行業數據。
可選的,所述數據庫為:關系數據庫。
為達到上述目的,本發明實施例公開了一種基于云服務的大數據收集系統,其特征在于,包括:信息系統、數據過濾模塊、數據挖掘應用服務器和數據庫;
所述信息系統用于接收和處理用戶預設條件的行業數據;
所述數據過濾模塊用于針對用戶所預設的行業數據進行數據過濾,得到完整且不重復的行業數據;
所述數據挖掘應用服務器用于針對過濾得到的完整且不重復的行業數據進行數據抽取、轉換和裝載,并將數據挖掘結果導入數據庫進行存儲,實現數據收集;
所述數據庫用于為用戶提供自身存儲的分析處理后的最終數據。
為達到上述目的,本發明實施例公開了一種基于云服務的大數據收集系統,其特征在于,包括:信息系統、數據過濾模塊、數據挖掘應用服務器和行業客戶端;
所述信息系統用于接收和處理用戶預設條件的行業數據,并通過總線接入該系統中;
所述數據過濾模塊,用于針對用戶所預設的行業數據進行數據過濾,得到完整且不重復的行業數據;
所述數據挖掘應用服務器用于針對過濾得到的完整且不重復的行業數據進行數據抽取、轉換和裝載,并將數據挖掘結果導入行業客戶端進行存儲,實現數據收集;
所述行業客戶端用于為用戶提供自身存儲的分析處理后的最終數據。
可選的,所述信息系統包括:管理信息系統、企業資源計劃系統、客戶關系管理系統和電子商務系統。
可選的,所述數據挖掘應用服務器包括:探索數據倉庫、數據挖掘算法庫和模型庫;
所述探索數據倉庫用于讀取所述管理信息系統、企業資源計劃系統、客戶關系管理系統和電子商務系統中的數據;
所述數據挖掘算法庫用于根據模型庫和探索數據倉庫的信息對數據進行挖掘計算并將計算結果導入行業客戶端。
可選的,所述行業客戶端包括:知識儲存端和客戶應用端;
所述知識儲存端用于接收所述數據挖掘算法庫導入的數據并儲存;
所述客戶應用端用于讀取知識儲存端的數據并供客戶查詢。
可見,用戶可以根據自身需要預設不同的行業數據,數據挖掘應用服務器再根據用戶的預設條件進行針對性分析處理,結構簡單、目的明確、效率高;數據挖掘算法庫采用統計分析、決策樹、粗糙集、模糊集、基于范例的理、神經網絡等數據挖掘方法對信息數據集中的海量數據進行分析、處理、推理、預測、最終根據用戶設定的條件,實現最優方案的自動推送。
附圖說明
為了更清楚地說明本發明實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發明的一些實施例,對于本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其他的附圖。
圖1為本發明實施例提供的基于云服務的大數據收集方法的一種流程示意圖。
圖2為本發明實施例提供的基于云服務的大數據收集方法的另一種流程示意圖。
圖3為本發明實施例提供的基于云服務的大數據收集系統的一種結構示意圖。
圖4為本發明實施例提供的基于云服務的大數據收集系統的另一種結構示意圖。
具體實施方式
下面將結合本發明實施例中的附圖,對本發明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發明一部分實施例,而不是全部的實施例?;诒景l明中的實施例,本領域普通技術人員在沒有作出創造性勞動前提下所獲得的所有其他實施例,都屬于本發明保護的范圍。
圖1為本發明實施例提供的基于云服務的大數據收集方法的一種流程示意圖,可以包括如下步驟:
s101,信息系統接收和處理用戶預設條件的行業數據;
具體的,所述信息系統包括:管理信息系統、企業資源計劃系統、客戶關系管理系統和電子商務系統。
其中,管理信息系統(managementinformationsystem,簡稱mis)是一個以人為主導,利用計算機硬件、軟件、網絡通信設備以及其他辦公設備,進行信息的收集、傳輸、加工、儲存、更新、拓展和維護的系統。
管理信息系統(managementinformationsystems簡稱mis)是一個不斷發展的新型學科,mis的定義隨著計算機技術和通訊技術的進步也在不斷更新,在現階段普遍認為管理信息系統mis、是由人和計算機設備或其他信息處理手段、組成并用于管理信息的系統。
管理信息由信息的采集、信息的傳遞、信息的儲存、信息的加工、信息的維護和信息的使用六個方面組成。完善的管理信息系統mis具有以下四個標準:確定的信息需求、信息的可采集與可加工、可以通過程序為管理人員提供信息、可以對信息進行管理。具有統一規劃的數據庫是mis成熟的重要標志,它象征著管理信息系統mis是軟件工程的產物.、管理信息系統mis是一個交叉性綜合性學科,組成部分有:計算機學科(網絡通訊、數據庫、計算機語言等)、數學(統計學、運籌學、線性規劃等)、管理學、仿真等多學科。信息是管理上的一項極為重要的資源,管理工作的成敗取決于能否做出有效的決策,而決策的正確程度則在很大程度上取決于信息的質量。所以能否有效的管理信息成為企業的首要問題,管理信息系統在強調管理、強調信息的現代社會中越來越得到普及。
企業資源計劃(enterpriseresourceplanning)系統,即為erp系統,是指建立在信息技術基礎上,集信息技術與先進管理思想于一身,以系統化的管理思想,為企業員工及決策層提供決策手段的管理平臺。它是從mrp(物料需求計劃)發展而來的新一代集成化管理信息系統,它擴展了mrp的功能,其核心思想是供應鏈管理。它跳出了傳統企業邊界,從供應鏈范圍去優化企業的資源,優化了現代企業的運行模式,反映了市場對企業合理調配資源的要求。它對于改善企業業務流程、提高企業核心競爭力具有顯著作用。
erp是針對物資資源管理(物流)、人力資源管理(人流)、財務資源管理(財流)、信息資源管理(信息流)集成一體化的企業管理軟件。它將包含客戶/服務架構,使用圖形用戶接口,應用開放系統制作。除了已有的標準功能,它還包括其它特性,如品質、過程運作管理、以及調整報告等。
客戶關系管理(crm,customerrelationshipmanagement)是利用信息科學技術,實現市場營銷、銷售、服務等活動自動化,使企業能更高效地為客戶提供滿意、周到的服務,以提高客戶滿意度、忠誠度為目的的一種管理經營方式??蛻絷P系管理既是一種管理理念,又是一種軟件技術。以客戶為中心的管理理念是crm實施的基礎。
電子商務系統,廣義上是指支持電子商務活動的電子技術手段的集合。狹義上是指狹義的電子商務系統,在internet和其他網絡的基礎上,以實現企業電子商務活動為目標,滿足企業生產、銷售、服務等生產和管理的需要,支持企業的對外業務協作,從運作,管理和決策等層次全面提高企業信息化水平,為企業提供商業智能的計算機系統。
電子商務整體結構分為電子商務應用層結構(簡稱應用層)和支持應用實現的基礎結構(三層),基礎結構一般包括三個層次和兩個支柱。三個層次自下而上分別為網絡層、傳輸層和服務層,兩個支柱分別是安全協議與技術標準、公共政策與法律規范。前三個層次為基礎層次,其上就是各種特定的電子商務應用,可見三個基礎層次和兩個支柱是電子商務應用的條件。為不失一般性,在此僅對電子商務的基礎結構作概括說明。
s102,針對用戶所預設的行業數據進行數據過濾,得到完整且不重復的行業數據;
具體的,可以利用hadoop分布式模式,針對用戶所預設的行業數據進行數據過濾,得到完整且不重復的行業數據。其中,利用hadoop分布式模式,針對用戶所預設的行業數據進行數據過濾,得到完整且不重復的行業數據,為現有技術,本發明實施例在此不對其進行贅述。
其中,hadoop是一個由apache基金會所開發的分布式系統基礎架構。用戶可以在不了解分布式底層細節的情況下,開發分布式程序。充分利用集群的威力進行高速運算和存儲。
hadoop實現了一個分布式文件系統(hadoopdistributedfilesystem),簡稱hdfs。hdfs有高容錯性的特點,并且設計用來部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(highthroughput)來訪問應用程序的數據,適合那些有著超大數據集(largedataset)的應用程序。hdfs放寬了(relax)posix的要求,可以以流的形式訪問(streamingaccess)文件系統中的數據。
hadoop的框架最核心的設計就是:hdfs和mapreduce。hdfs為海量的數據提供了存儲,則mapreduce為海量的數據提供了計算。
需要說明的是,本發明實施例包括但不限于hadoop分布式模式,也可以利用現有技術存在的其他數據過濾方法,具體以實現針對用戶所預設的行業數據進行數據過濾,得到完整且不重復的行業數據為準。
s103,數據挖掘應用服務器用于針對過濾得到的完整且不重復的行業數據進行數據抽取、轉換和裝載,并將數據挖掘結果導入數據庫進行存儲,實現數據收集。
數據收集,意即數據挖掘(datamining),又譯為資料探勘、數據采礦。它是數據庫知識發現(knowledge-discoveryindatabases,簡稱:kdd)中的一個步驟。數據挖掘一般是指從大量的數據中通過算法搜索隱藏于其中信息的過程。數據挖掘通常與計算機科學有關,并通過統計、在線分析處理、情報檢索、機器學習、專家系統(依靠過去的經驗法則)和模式識別等諸多方法來實現上述目標。
具體的,所述數據挖掘應用服務器包括:探索數據倉庫、數據挖掘算法庫和模型庫;
所述探索數據倉庫用于讀取所述管理信息系統、企業資源計劃系統、客戶關系管理系統和電子商務系統中的數據;
所述數據挖掘算法庫用于根據模型庫和探索數據倉庫的信息對數據進行挖掘計算并將計算結果導入數據庫。其中,數據挖掘算法庫采用統計分析、決策樹、粗糙集、模糊集、基于范例的理、神經網絡等數據挖掘方法。
具體的,所述數據庫可以為:關系數據庫。
其中,關系數據庫,是建立在關系數據庫模型基礎上的數據庫,借助于集合代數等概念和方法來處理數據庫中的數據,同時也是一個被組織成一組擁有正式描述性的表格,該形式的表格作用的實質是裝載著數據項的特殊收集體,這些表格中的數據能以許多不同的方式被存取或重新召集而不需要重新組織數據庫表格。關系數據庫的定義造成元數據的一張表格或造成表格、列、范圍和約束的正式描述。每個表格(有時被稱為一個關系)包含用列表示的一個或更多的數據種類。每行包含一個唯一的數據實體,這些數據是被列定義的種類。當創造一個關系數據庫的時候,你能定義數據列的可能值的范圍和可能應用于那個數據值的進一步約束。而sql語言是標準用戶和應用程序到關系數據庫的接口。其優勢是容易擴充,且在最初的數據庫創造之后,一個新的數據種類能被添加而不需要修改所有的現有應用軟件。主流的關系數據庫有oracle、db2、sqlserver、sybase、mysql等。
可見,用戶可以根據自身需要預設不同的行業數據,數據挖掘應用服務器再根據用戶的預設條件進行針對性分析處理,結構簡單、目的明確、效率高;數據挖掘算法庫采用統計分析、決策樹、粗糙集、模糊集、基于范例的理、神經網絡等數據挖掘方法對信息數據集中的海量數據進行分析、處理、推理、預測、最終根據用戶設定的條件,實現最優方案的自動推送。
圖2為本發明實施例提供的基于云服務的大數據收集方法的另一種流程示意圖,可以包括如下步驟:
s201,信息系統接收和處理用戶預設條件的行業數據;
s202,針對用戶所預設的行業數據進行數據過濾,得到完整且不重復的行業數據;
s203,數據挖掘應用服務器用于針對過濾得到的完整且不重復的行業數據進行數據抽取、轉換和裝載,并將數據挖掘結果導入行業客戶端進行存儲,實現數據收集。
具體的,所述數據挖掘應用服務器包括:探索數據倉庫、數據挖掘算法庫和模型庫;
所述探索數據倉庫用于讀取所述管理信息系統、企業資源計劃系統、客戶關系管理系統和電子商務系統中的數據;
所述數據挖掘算法庫用于根據模型庫和探索數據倉庫的信息對數據進行挖掘計算并將計算結果導入行業客戶端。
具體的,所述行業客戶端包括:知識儲存端和客戶應用端;
所述知識儲存端用于接收所述數據挖掘算法庫導入的數據并儲存;
所述客戶應用端用于讀取知識儲存端的數據并供客戶查詢。
具體的,所述方法還包括:所述行業客戶端為用戶提供自身存儲的分析處理后的最終數據。
可見,用戶可以根據自身需要預設不同的行業數據,數據挖掘應用服務器再根據用戶的預設條件進行針對性分析處理,結構簡單、目的明確、效率高;數據挖掘算法庫采用統計分析、決策樹、粗糙集、模糊集、基于范例的理、神經網絡等數據挖掘方法對信息數據集中的海量數據進行分析、處理、推理、預測、最終根據用戶設定的條件,實現最優方案的自動推送。
圖3為本發明實施例提供的基于云服務的大數據收集系統的一種結構示意圖,包括:信息系統301、數據過濾模塊302、數據挖掘應用服務器303和數據庫304;
所述信息系統用于接收和處理用戶預設條件的行業數據;
所述數據過濾模塊用于針對用戶所預設的行業數據進行數據過濾,得到完整且不重復的行業數據;
所述數據挖掘應用服務器用于針對過濾得到的完整且不重復的行業數據進行數據抽取、轉換和裝載,并將數據挖掘結果導入數據庫進行存儲,實現數據收集;
所述數據庫用于為用戶提供自身存儲的分析處理后的最終數據。
可見,用戶可以根據自身需要預設不同的行業數據,數據挖掘應用服務器再根據用戶的預設條件進行針對性分析處理,結構簡單、目的明確、效率高;數據挖掘算法庫采用統計分析、決策樹、粗糙集、模糊集、基于范例的理、神經網絡等數據挖掘方法對信息數據集中的海量數據進行分析、處理、推理、預測、最終根據用戶設定的條件,實現最優方案的自動推送。
圖4為本發明實施例提供的基于云服務的大數據收集系統的另一種結構示意圖,包括:信息系統401、數據過濾模塊402、數據挖掘應用服務器403和行業客戶端404;
所述信息系統401用于接收和處理用戶預設條件的行業數據,并通過總線接入該系統中;
所述數據過濾模塊402,用于針對用戶所預設的行業數據進行數據過濾,得到完整且不重復的行業數據;
所述數據挖掘應用服務器403用于針對過濾得到的完整且不重復的行業數據進行數據抽取、轉換和裝載,并將數據挖掘結果導入行業客戶端進行存儲,實現數據收集;
所述行業客戶端404用于為用戶提供自身存儲的分析處理后的最終數據。
可見,用戶可以根據自身需要預設不同的行業數據,數據挖掘應用服務器再根據用戶的預設條件進行針對性分析處理,結構簡單、目的明確、效率高;數據挖掘算法庫采用統計分析、決策樹、粗糙集、模糊集、基于范例的理、神經網絡等數據挖掘方法對信息數據集中的海量數據進行分析、處理、推理、預測、最終根據用戶設定的條件,實現最優方案的自動推送。
需要說明的是,在本文中,諸如第一和第二等之類的關系術語僅僅用來將一個實體或者操作與另一個實體或操作區分開來,而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關系或者順序。而且,術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,并不排除在包括所述要素的過程、方法、物品或者設備中還存在另外的相同要素。
本說明書中的各個實施例均采用相關的方式描述,各個實施例之間相同相似的部分互相參見即可,每個實施例重點說明的都是與其他實施例的不同之處。尤其,對于裝置實施例而言,由于其基本相似于方法實施例,所以描述的比較簡單,相關之處參見方法實施例的部分說明即可。
本領域普通技術人員可以理解實現上述方法實施方式中的全部或部分步驟是可以通過程序來指令相關的硬件來完成,所述的程序可以存儲于計算機可讀取存儲介質中,這里所稱得的存儲介質,如:rom/ram、磁碟、光盤等。
以上所述僅為本發明的較佳實施例而已,并非用于限定本發明的保護范圍。凡在本發明的精神和原則之內所作的任何修改、等同替換、改進等,均包含在本發明的保護范圍內。