本發明涉及計算機信息處理技術領域,具體是一種電子證據的提取和保全方法。
背景技術:
隨著電子信息技術的發展,電子數據已經滲透到人們工作生活的方方面面,每天數以十億計的人使用電腦、手機等電子設備進行即時交流,收發電子郵件、存儲、管理、更新數據信息,使得電子數據成為當今工作生活中不可或缺的組成部分,與此同時,電子數據對刑事犯罪也產生了深遠的影響,不少犯罪分子直接利用電子信息技術實施犯罪,利用電子郵件詐騙,利用因特網散布色情照片,利用病毒進行網絡攻擊。電子數據在刑事犯罪中的廣泛滲透給偵查活動提出了巨大的挑戰。
電子證據是基于計算機應用、通信和現代管理技術等電子化技術手段形成包括文字、圖形符號、數字、字母等的客觀資料,包括電子郵件、電子數據交換、網上聊天記錄、博客、手機短信、電子簽名、域名等電子信息。當今世界已步入信息化社會,計算機技術與互聯網、智能手機已經深入到生活的方方面面。電子數據證據作為揭露犯罪事實的證據形式,在查辦案件過程中就顯得更加重要,掌握電子數據收集與固定的方法,對提高辦案能力具有重要意義。
自2016年10月1日起施行的最高人民法院最高人民檢察院公安部印發《關于辦理刑事案件收集提取和審查判斷電子數據若干問題的規定》中,對電子證據及電子證據的提取保存等作了相關規定,明確了電子證據所包含的類別等,在大數據時代要從海量的電子數據中提取與案件和犯罪嫌疑人相關聯的證據猶如大海撈針。并且由于電子證據的特殊性,必須保證提取的電子證據是客觀真實的,能證明事實,才能對案件的偵破起到作用,才能在法庭上作為證據使用。
隨著計算機犯罪數字不斷上升和犯罪手段的數字化,搜集電子證據的工作成為提供重要線索及破案的關鍵。恢復已被破壞的計算機數據及提供相關的電子資料證據就是電子取證。為確保電子證據的原始性、真實性、合法性,在電子證據的收集時應采用專業的數據復制備份設備將電子證據文件復制備份。電子證據的認證也就是審查電子證據是否符合電子證據認定的相關性、真實性、合法性等標準。在審查電子證據真實性過程中,首先必須嚴格審查電子證據的來源。在證據采信過程中,主要體現在如下幾個方面:第一,證據的來源必須是客觀存在的,第二,確定證據來源的真實可靠性,根據電子證據形成的時間、地點等情況,明確電子證據所反映的是否真實可靠。結合電子證據本身的技術含量及加密條件、加密方法,判斷電子證據是否真實、有無剪裁、拼湊、偽造、篡改等。由于電子證據容易被篡改,破壞和偽造而不易留痕,電子證據依附的計算機系統容易受到攻擊、篡改且不易發覺,也使電子證據面臨著被訴訟的問題,電子證據的完整性也變成了當前法庭,偵查機關和被告極為關注的重要的問題。但電子證據完整性涉及到從電子證據源的固定、證據提取、分析推理、報告的生成中的每個方面,是一個復雜的技術過程。
用戶在使用計算機設備以及在網絡中傳輸的過程中往往會留下使用痕跡,這些使用痕跡通常作為存儲在設備中的一部分數據源被保存下來。在特定情況下,這些用戶的使用痕跡將被提取和分析,甚至可能會成為案件中具有重大意義的數字證據。在數字取證過程中,鑒定專家將根據案件的鑒定需求來制定取證策略,作為選用恰當數字取證技術和取證工具的判斷依據,從而對待取證設備進行數據獲取與取證分析。
針對互聯網中的有必要成為電子證據(司法證據)的電子數據,如電子交易的關鍵信息、文本、圖片、音視頻、電子郵件、網頁內容、聊天過程等,形成了真實的、唯一的、完整的數據鏈條,滿足了作為司法證據的客觀性、關聯性、合法性的要求。
發明專利“基于社交平臺的電子證據處理系統及處理方法”公開了一種基于社交平臺的電子證據處理系統,包括取證服務器、數字簽名模塊、證據存儲模塊、出證模塊。取證服務器接收社交平臺服務器轉發來的源自社交平臺客戶端產生的取證請求,并根據該取證請求采集相應的數據同時生成記錄文件;數字簽名模塊對記錄文件進行數字簽名、時間戳簽名形成證據;證據存儲模塊對經過數字簽名模塊簽名的證據進行存儲;出證模塊對證據存儲模塊中經過簽名的證據進行完整性驗證,根據通過驗證的證據所記錄的內容出具相應的報告;取證服務器、數字簽名模塊以及出證模塊均處于具備公信力的第三方監控環境下。該系統實現了數據的取證、存儲及出證的全過程見證,可以對所取的網絡數據的真實性進行還原,增加所取證數據的證據效力。申請號為201610315054.6的發明專利申請一種電子文件基因提取系統,提供一種電子文件基因提取系統,包括:防火墻、時頻服務器、交換機和服務器,所述服務器通過交換機分別連接時頻服務器和防火墻,在電子文件形成過程中或形成時,提取電子文件關鍵信息,通過哈希算法將文件關鍵信息配合第三方時效脈沖加密成一段唯一不可逆密碼;所述服務器包括依次串聯的電子保全系統服務器、簽名驗證服務器和安全認證網關,所述電子保全系統服務器通過計算機接口連接交換機。該系統可為司法鑒定單位的電子證據指紋校對提供原始素材,可確保電子數據的原始性和客觀性。
現有技術的電子證據驗證保全方法的基本原理是利用單向散列函數(Hash函數)對發送信息進行運算,生成一串固定長度的數字摘要。將生成的數字摘要與源文件進行對比,驗證該數據是否被篡改。數字摘要用來判斷數據有沒有被竄改,從而保證了信息的完整性不被破壞。
上述現有技術只是在取證過程中對電子數據進行完整性檢查,真假時間戳和數字簽名,以解決提取證據的真實性問題。但隨著計算信息技術的發展,大數據時代的到來,海量的電子數據存放在犯罪工具設備中、云平臺或者在網絡上傳播,要從海量的數據中提取出與案件相關聯的電子證據,能夠滿足對證據關聯性的要求,并且在相關證據中對證據進行分類,在對相關事實進行證明時方便提取,并進行分類保全,以方便取證專家及相關人員能夠快速準確獲取完整有效的電子證據,加強證明力。
技術實現要素:
本發明所要解決的技術問題是,針對現有技術電子證據提取過程中缺乏對證據類型進行分類識別,難以在海量數據中快速準確提取出相關聯的電子證據,以及沒有對電子證據進行相關分類等問題,本發明提出一種電子證據分類提取方法。
本發明解決上述技術問題的技術方案是,提出一種電子證據分類提取方法,包括步驟:電子證據獲取模塊調用RDD序列化存儲函數讀取電子數據,對電子數據進行歸一化處理獲得標稱電子數據集構成測試集;為每個分區保存一個標簽,分類訓練模塊將訓練集中的樣本數據轉化為樣本特征和標簽,該樣本集中的所有樣本數據獲得標簽,將獲得標簽的樣本數據輸入基分類器進行訓練,獲得電子證據分類器;將測試集中的電子數據輸入電子證據分類器中進行預測,為測試集中每個電子數據尋找對應的標簽,并分配到與其標簽對應的RDD分區中,對每個RDD分區進行簇排序,得到不同層次結構上的簇號,合并分區,排除電子數據中的噪聲信息,輸出聚類的結果;模糊融合識別模塊對經過聚類到各RDD分區的電子數據進行模糊識別,獲得分類電子證據;文檔層處理模塊從RDD各分區中拷貝分類電子證據形成目標數據,對目標數據進行文檔化處理,送入呈述層模塊,呈述層模塊對目標數據進行相關描述,自動生成描述型句子。
本發明的優選實施例進一步包括,所述將預測集中電子數據分配到對應的RDD分區分區中具體包括,將標稱電子數據集通過map鍵值對函數轉化為對應的鍵值對的形式,根據鍵值對將標稱數據集分配到一系列的RDD分區中。
本發明的優選實施例進一步包括,所述對每個RDD分區進行簇排序進一步具體包括:選擇一個電子數據樣本點放入全局鄰居數組,在全局鄰居數組中選擇第一個對象p進行擴張,判斷對象p是否為核心點,如果p不是核心點,從全局鄰居數組中刪除p;如果p是核心點,對核心點p的鄰域內任一未處理的鄰居點q計算歐式距離,如果q已在全局鄰居數組中且從p到q的可達距離小于此時q的歐式距離,更新q的可達距離為q的歐式距離,并根據更新的可達距離,調整q到全局鄰居數組中的相應位置;如果q不在全局鄰居數組中,則根據p到q的可達距離將其插入有序隊列中,直到核心點p的所有鄰居點都插入隊列,獲得所有核心點的隊列即為分區的簇排序。
本發明的優選實施例進一步包括,所述所有電子證據獲得標簽進一步包括:將訓練集中的樣本數據轉化為樣本特征和標簽(1,featuress,labels)的形式,采用廣播變量的形式將樣本特征和標簽進行分離,對特征進行廣播變量,將特征和標簽(1,featuress,labels)轉化為特征(1,featuress),標簽(1,1,label1),(1,2,label2),(1,3,label3),……(1,n*(n+1)/2,labeln*(n+1)/2),轉化獲得的標簽分配到n*(n+1)/2個RDD分區分區中,為每個分區保存一個標簽。
本發明的優選實施例進一步包括,所述模糊識別具體包括,模糊融合識別模塊將電子數據對比度值域區間非線性劃分,提取特征,利用模糊隸屬函數獲取待分類電子證據樣本特征隸屬于各類別的卡方距離,對卡方距離內的各特征進行權重融合,獲得分類結果。
本發明的優選實施例進一步包括,根據任意RDD分區的前邊界數據樣本和廣播變量的后邊界點獲得鍵值對map,根據map的方向向前合并簇號,所有RDD分區中的標稱數據樣本點都根據鍵值對Map合并簇號,并輸出所有標稱電子數據對應的簇號,合并的簇號加入map中。
本發明的優選實施例進一步包括,如電子證據包括N種特征,包括c個證據類型,根據公式:將各特征的分類結果按權重進行融合,使得融合值K取最大時的類別t就是最終的分類結果。
本發明還提供一種電子證據分類提取系統,包括:電子證據獲取模塊、分類訓練模塊、電子證據分類器、模糊融合識別模塊、文檔層處理模塊、呈述層模塊,其中,電子證據獲取模塊,用于調用RDD序列化存儲函數讀取電子數據,對電子數據進行歸一化處理獲得標稱電子數據集構成測試集;分類訓練模塊,用于將訓練集中的樣本數據轉化為樣本特征和標簽,將獲得標簽的樣本數據輸入基分類器進行訓練,獲得電子證據分類器;電子證據分類器,用于對測試集中的電子數據進行預測,為測試集中每個電子數據尋找對應的標簽,并分配到與其標簽對應的RDD分區中,為每個RDD分區保存一個標簽,對每個RDD分區進行簇排序,得到不同層次結構上的簇號,合并分區,排除電子數據中的噪聲信息,對電子數據進行聚類;模糊融合識別模塊,用于對經過聚類到各RDD分區的電子數據進行模糊識別,獲得分類電子證據;文檔層處理模塊,用于從RDD各分區中拷貝分類電子證據形成目標數據,對目標數據進行文檔化處理,送入呈述層模塊;呈述層模塊,用于對目標數據進行相關描述,自動生成描述型句子。
本發明針對電子證據來源廣泛,數據量大,呈現方式多種多樣,能夠在多種數據來源,海量數據中快速準確提取出相關聯的電子證據,對電子證據進行相關分類,與案件關鍵信息進行關聯,方便取證人員及辦案人員能夠快速準確的獲取需要的相關電子證據。
附圖說明
圖1本發明所述電子證據分類提取流程圖。
具體實施方式
Spark是一個基于內存的分布式計算系統,Spark基于內存計算,提高了在大數據環境下數據處理的實時性,同時保證了高容錯性和高可伸縮性,允許用戶將Spark部署在大量廉價硬件紙上,形成集群。Spark將計算的中間結果數據持久地存儲在內存中,通過減少磁盤I/O。使后續的數據運算效率更高。Spark的這種架構設計尤其適合于機器學習、交互式數據分析等應用,這些應用都需要重復地利用計算的中間數據。Spark是基于內存計算的大數據并行計算框架。同時在上層支持圖計算、迭代式計算、流式計算等多種計算范式,具有通用性。為了支持在多次迭代計算過程中重復利用內存數據集,Spark提出了一種新的數據抽象模型可分區的內存分布式數據集RDD(resilient distributed dataset),可以一部分或者全部緩存在集群內存中,以便在多次計算過程中重用。用戶可以顯式控制RDD的分區、緩存策略等,RDD是一種分布式的內存抽象,表示只讀的、分區記錄的集合,它只能通過在穩定物理存儲中的數據集或其它已有的RDD上執行一些確定性操作來創建。結果返回一個普通的類型值或將RDD中的數據輸出到存儲系統中。
本發明基于內存分布式數據集RDD對提取的電子證據進行聚類處理,通過點排序識別聚類結構處理大批量的數據集,并在極短的時間內得到簇排序,對聚類電子數據根據電子證據來源及類型進行分類并標引,在不同層次導出內在的聚類結構。
圖1所示為電子證據提取流程示意圖。
包括,電子證據獲取模塊、分類訓練模塊、電子證據分類器、模糊融合識別模塊、文檔層處理模塊、呈述層模塊。電子證據獲取模塊調用RDD序列化存儲函數讀取數據集,轉化為分布式數據集RDD,對數據集進行歸一化處理獲得標稱數據集。把分布式數據集RDD中的每一個標稱數據集都通過map鍵值對函數轉化為對應的鍵值對的形式,根據鍵值對將標稱數據集分配到一系列的RDD分區中。
電子證據獲取模塊,獲取數據、將非標稱數據轉化為標稱數據,進行歸一化處理;創建一個接口對象SparkContext(當SparkContext是Spark的對外接口,負責向調用提供Spark的各種功能,當SparkContext是Spark的入口,負責連接Spark集群);調用RDD序列化存儲函數textFile讀取數據集,將獲取的證據數據轉化為Spark大數據平臺的分布式數據集RDD;
對獲取的電子數據進行特征處理,建立標稱數據集,如果數據集中的某些鍵值對不是標稱的數據集,進行標稱化處理,對于有缺失值的數據,可采用中位值和眾數的方式處理有缺失值的數據,將所有的標稱數據進行歸一化處理,將特征數據轉化到[0,1]區間內。
把分布式數據集RDD中的每一個標稱數據集都通過map鍵值對函數轉化為對應的鍵值對(key關鍵值,value值)的形式,根據鍵值對將標稱電子數據分配到一系列的RDD分區中。根據任意RDD分區的前邊界數據樣本和廣播變量的后邊界點獲得鍵值對map,根據map的方向由后指向前,向前合并簇號,合并的簇號加入map中,所有RDD分區中的標稱數據樣本點都根據鍵值對Map合并簇號,并輸出所有標稱電子數據對應的簇號。
分類訓練模塊根據不同類別對電子證據樣本進行標引,獲得標引的電子證據樣本集,該樣本集中的所有數據獲得標簽。采用并行方式進行基分類器的訓練,將獲得標簽的樣本數據輸入基分類器進行訓練,采用迭代的形式不斷優化基分類器參數,得到訓練好的基分類器,直到基分類器的指標能夠達到分類的要求,獲得電子證據分類器。
有標簽的數據樣本組成訓練集,經過分簇并初始分類的電子數據樣本作為預測集。將訓練集中的樣本數據轉化為樣本特征和標簽(1,featuress,labels)的形式。采用廣播變量的形式將訓練集的樣本特征和標簽進行分離。對特征進行廣播變量,將特征和標簽(1,featuress,labels)轉化為特征(1,featuress),標簽(1,1,label1),(1,2,label2),(1,3,label3),……(1,n*(n+1)/2,labeln*(n+1)/2),轉化獲得的標簽分配到n*(n+1)/2個RDD分區分區中,為每個分區保存一個標簽。,其中,features表示某個樣本所有的特征,labels表示某個樣本所有的標簽,labeli表示某個樣本的第i個標簽,n表示標簽的維數。
將預測集中的電子證據輸入訓練好的電子證據分類器中進行預測,通過預測為每個電子證據樣本尋找對應的標簽,將預測集中的電子證據分配到與其標簽對應的RDD分區分區中。
如果每個數據樣本對應多個標簽,采用投票的方式選取統計數量多的一種結果,如果統計結果相同,采用多標簽算法CLR對統計結果進行選取,每個數據樣本獲得唯一對應的標簽。
對每個RDD分區進行簇排序,得到不同層次結構上的簇號,然后進行合并分區,排除電子證據中的噪聲信息,輸出聚類結果。
每個分區的樣本并行執行點排序識別聚類結構OPTICS聚類算法,各自得到各個分區所有樣本點的可達距離形成分區可達序列,獲得RDD分區中所有核心點的隊列即為RDD分區的簇排序,把每個分區的簇排序保存到分布式文件系統HDFS。具體采用如下方法:選擇一個電子數據樣本點放入全局鄰居數組;在全局鄰居數組中選擇第一個對象p進行擴張,判斷對象p是否為核心點,如果p不是核心點,從全局鄰居數組中刪除p;如果p是核心點,對核心點p的鄰域內任一未處理的鄰居點q計算歐式距離,如果q已在全局鄰居數組中且從p到q的可達距離小于此時q的歐式距離,更新q的可達距離為q的歐式距離,并根據更新的可達距離,調整q到全局鄰居數組中的相應位置,以保證隊列的有序性;如果q不在全局鄰居數組中,則根據p到q的可達距離將其插入有序隊列中,直到核心點p的所有鄰居點都插入隊列。獲得所有核心點的隊列即為分區的簇排序,把每個分區的簇排序保存到分布式文件系統HDFS。
從每個分區的簇排序中按順序提取標稱電子數據樣本,獲取該樣本的可達距離,如果該樣本的可達距離不大于預定距離B,則把樣本所屬的類別屬性標記為當前類別,簇號即為類別號,如果標稱電子數據樣本可達距離大于B并且距離核心點距離小于B,則把樣本點所屬的類別屬性標記下一個新的類別,將其類別標記為下一個簇號。如果標稱電子數據樣本的可達距離大于預定距離B并且距離核心點的距離大于B,則把標稱電子數據樣本點所屬的類的類別屬性標記噪聲。剔除與電子證據類型不相關的數據(噪聲),將各分區數據集RDD中的標稱電子數據簇號分配到不同的簇,調用map()函數,留下每個數據集分區的前后邊界點的分布式數據集,調用數組轉換函數把前后邊界點的分布式數據集轉換為數組并廣播,然后,前后邊界點的分布式數據集與廣播變量進行全局合并獲得鍵值對形式map。每個分區所有樣本點都根據Map(鍵值對形式)合并簇號,并輸出所有電子證據樣本點的最終簇號,相同簇號的電子數據放在一個文件包中輸出。
電子證據通常包括以下內容,網頁、博客、微博客、朋友圈、貼吧、網盤等網絡平臺發布的網絡信息;手機短信、電子郵件、即時通信、通訊群組等網絡應用服務的通信信息;用戶注冊信息、身份認證信息、電子交易記錄、通信記錄、登錄日志等日志信息;文檔、圖片、音視頻、數字證書、計算機程序等電子文件。
根據以上聚類結果,對簇中的電子數據再進一步進行分類識別,方便取證人員識別是文本、圖片、音視頻、電子郵件、網頁等相關的數據。
模糊融合識別模塊對分配到各RDD分區的電子數據進行模糊識別,獲得分類結果。
根據最高人民法院的司法解釋電子證據包括:網絡信息、通信信息、日志信息、文件信息。其中,網絡信息包括的類型有網頁、博客、微博客、朋友圈、貼吧、網盤等網絡平臺發布的信息類別;通信信息包括的類型手機短信、電子郵件、即時通信、通訊群組等;日志信息包括的類型有用戶注冊信息、身份認證信息、電子交易記錄、通信記錄、登錄日志等類別;文件信息包括的類型文檔、圖片、音視頻、數字證書、計算機程序等類別。將電子數據對比度值域區間非線性劃分,提取特征,利用模糊隸屬函數獲取待分類電子證據樣本特征隸屬于各類別的卡方距離,對卡方距離內的各特征進行權重融合,獲得分類結果。如電子數據包括N種特征,包括t類證據,根據公式:將各特征的分類結果按權重進行融合,使得K取最大的t就是最終的分類結果,即待識別電子證據樣本被判定為第t類。其中,表示第N種特征模糊隸屬于第c類的程度,c表示所有的電子證據類別數,WNt表示第N種特征模糊隸屬于第t類時的融合權重,可以通過信息熵計算等方式獲取。可根據公式計算融合權重,其中,為第t類電子證據樣本第N種特征的信息熵平均值。利用信息熵求得特征信息的準確量。
因為源數據是唯一的,一般在電子證據取證中不對源數據進行直接操作,在不改變源數據的情況下對源數據完整的一一的拷貝形成目標數據,因此目標數據是整個電子證據的來源,需要保護目標數據層模塊的完整性;文檔層處理模塊,在電子證據文檔化過程中,采用如單項函數、數字簽名等技術進行電子證據完整性的保護,可以有效地解決電子證據完整性的部分需求。
文檔層處理模塊從RDD各分區中將經過分類的電子證據拷貝形成目標數據,對目標數據進行文檔化處理,如進行電子簽名、加上時間戳,調用哈希函數對目標數據的完成性進行驗證等處理,然后與證據相關特征(如當事人姓名特征、身份信息、案件性質、案件關鍵證據類型等)進行關聯,送入呈述層模塊。
要從關系錯綜復雜、眾多的電子證據中,選取確定性級別高、完整程度高的證據根據案件的關鍵因素進行關聯推理而保證證據的可靠性和關聯性,以保證和檢驗在推理分析過程中杜絕取證人員偶然或惡意地修改和偽造電子證據而影響報告結論等。
呈述層模塊對經過分類的電子證據進行相關描述,自動生成描述型句子。從關系錯綜復雜、眾多的電子證據中,選取確定性級別高、完整性程度高的電子證據根據關鍵因素進行訓練并關聯推理而保證證據的可靠性和關聯性。
呈述層模塊對存儲在各分類區域的電子證據進行預處理,提取特征信息,根據特征信息進行完整性檢查,獲取完整性程度高的電子證據,根據經過完整性檢查的特征信息生成固定長度的特征向量,利用投影矩陣將特征向量對應描述句子中的詞映射到相同的特征空間獲得詞序列特征向量;利用電子證據特征向量和對應的詞序列特征向量作為訓練樣本對訓練長短期記憶模型生成語言模型,將經過分類的電子證據輸入語言模型,自動生成描述型句子,方便取證人員及法庭相關人員閱讀和理解。