本發(fā)明涉及測(cè)井巖性自動(dòng)識(shí)別,特別是指一種針對(duì)不完整數(shù)據(jù)集的多視圖井中巖性識(shí)別方法。
背景技術(shù):
1、利用井中各種物理性質(zhì)數(shù)據(jù)劃分巖性是石油勘探的重要內(nèi)容,不僅可以為地質(zhì)研究提供豐富的信息,還可以提高儲(chǔ)層評(píng)價(jià)效果。近年來機(jī)器學(xué)習(xí)憑借其自動(dòng)判別和快速?zèng)Q策的優(yōu)勢(shì)在石油行業(yè)的勘探、開發(fā)、生產(chǎn)、油藏工程和管理規(guī)劃中的應(yīng)用有所增加,在巖性識(shí)別上的應(yīng)用也逐漸趨于成熟。然而隨著大數(shù)據(jù)時(shí)代的來臨和智能解釋方法受到廣泛關(guān)注,現(xiàn)有巖性識(shí)別方法開始展現(xiàn)出其局限性。
2、由于年代不同或地質(zhì)目的不同,所測(cè)量的測(cè)井系列不同,導(dǎo)致不同井測(cè)井曲線數(shù)量不一致,或者受儀器不穩(wěn)定、井眼坍塌等各種客觀因素影響,部分井段測(cè)井曲線失真,這些問題導(dǎo)致用于巖性識(shí)別的測(cè)井?dāng)?shù)據(jù)集通常是不完整的,而大多數(shù)機(jī)器學(xué)習(xí)方法無法直接處理不完整數(shù)據(jù)集。雖然基于決策樹的機(jī)器學(xué)習(xí)算法,如xgboost和lightgbm等,可以直接利用不完整數(shù)據(jù)集進(jìn)行模型訓(xùn)練和應(yīng)用,但是在應(yīng)用階段,算法遇到缺失值會(huì)自動(dòng)劃分到默認(rèn)節(jié)點(diǎn),使結(jié)果不可信。
3、針對(duì)不完整的數(shù)據(jù)集的巖性識(shí)別,現(xiàn)階段人們往往有3種處理方式:
4、(1)直接刪除數(shù)據(jù)集中不完整的樣本或特征,但是損失了大量巖性信息。
5、(2)用同類樣本作為參考填補(bǔ)缺失值,但當(dāng)某類巖性樣本全部缺失某一特征值(測(cè)井曲線)時(shí),該方法無法使用。
6、(3)利用曲線預(yù)測(cè)技術(shù)間接填補(bǔ)測(cè)井?dāng)?shù)據(jù)集中的缺失值,但該技術(shù)所構(gòu)建的模型復(fù)雜度遠(yuǎn)遠(yuǎn)超出巖性識(shí)別模型本身,極大地增加了成本。
7、另一方面,測(cè)井資料形式多樣,不同測(cè)井資料來源不同,量綱不同,甚至模態(tài)不同。這些測(cè)井資料從不同角度刻畫巖性特征,在巖性識(shí)別的過程中相互補(bǔ)充可以增強(qiáng)巖性識(shí)別的準(zhǔn)確性和可靠性,這樣的數(shù)據(jù)在機(jī)器學(xué)習(xí)領(lǐng)域被稱為多視圖數(shù)據(jù)。而現(xiàn)有的巖性識(shí)別方法以單視圖方法為主,難以有效融合多視圖數(shù)據(jù)?;诖?,現(xiàn)有巖性識(shí)別方法難以充分利用測(cè)井資料進(jìn)行巖性識(shí)別,信息的利用率較低。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明要解決的技術(shù)問題是提供一種針對(duì)不完整數(shù)據(jù)集的多視圖井中巖性識(shí)別方法,有效提高對(duì)測(cè)井資料中巖性信息的挖掘程度,進(jìn)而提高巖性識(shí)別效果。
2、為解決上述技術(shù)問題,本發(fā)明的技術(shù)方案如下:
3、第一方面,一種針對(duì)不完整數(shù)據(jù)集的多視圖井中巖性識(shí)別方法,所述方法包括:
4、獲取測(cè)井資料數(shù)據(jù)集,并進(jìn)行預(yù)處理,以得到預(yù)處理后的測(cè)井資料數(shù)據(jù);
5、根據(jù)測(cè)井資料的特質(zhì),將測(cè)井資料劃分為不同視圖數(shù)據(jù);
6、根據(jù)不同視圖數(shù)據(jù)特征相關(guān)性將視圖劃分為自相關(guān)視圖和非相關(guān)視圖,計(jì)算每個(gè)視圖待分類樣本與所有樣本點(diǎn)之間的曼哈頓距離,以得到距離向量,其中對(duì)于自相關(guān)視圖,基于部分距離策略計(jì)算距離;對(duì)于非相關(guān)視圖,刪除存在缺失數(shù)據(jù)的樣本,造成視圖缺失后再計(jì)算距離;
7、分別歸一化每個(gè)視圖的距離向量,根據(jù)pds思想計(jì)算得到協(xié)同距離;
8、選取與待分類樣本協(xié)同距離最小的個(gè)樣本作為近鄰子集;最后輸出近鄰子集中出現(xiàn)頻次最高的類別作為待分類樣本分類結(jié)果。
9、進(jìn)一步的,獲取測(cè)井資料數(shù)據(jù)集,并進(jìn)行預(yù)處理,以得到預(yù)處理后的測(cè)井資料數(shù)據(jù),包括:
10、對(duì)獲取的測(cè)井資料數(shù)據(jù)集進(jìn)行初步的數(shù)據(jù)清洗,對(duì)數(shù)據(jù)集中的缺失值進(jìn)行分析,以得到缺失值分析的結(jié)果;
11、根據(jù)缺失值分析的結(jié)果,分析數(shù)據(jù)集中各類別的分布情況,識(shí)別出數(shù)量少的巖性類別;
12、對(duì)于每個(gè)少數(shù)類,隨機(jī)選擇兩個(gè)位于同一簇的樣本;在選定的兩個(gè)少數(shù)類樣本之間,通過線性插值的方式在特征空間中生成人工合成樣本,重復(fù)上述過程,直到所有類別巖性樣本數(shù)量達(dá)到平衡;
13、將合成的新樣本添加到原始數(shù)據(jù)集中,最終形成一個(gè)預(yù)處理后的完整數(shù)據(jù)集。
14、進(jìn)一步的,根據(jù)不同視圖數(shù)據(jù)特征相關(guān)性將視圖劃分為自相關(guān)視圖和非相關(guān)視圖,計(jì)算每個(gè)視圖待分類樣本與所有樣本點(diǎn)之間的曼哈頓距離,以得到距離向量,包括:
15、根據(jù)不同視圖數(shù)據(jù)特征之間的相關(guān)性,將視圖劃分為自相關(guān)視圖和非相關(guān)視圖;自相關(guān)視圖包含高度相關(guān)的特征,而非相關(guān)視圖則包含相對(duì)獨(dú)立的特征;
16、對(duì)于非相關(guān)視圖,如果存在缺失數(shù)據(jù)的樣本,則刪除這些樣本,從而造成視圖的缺失;
17、在非相關(guān)視圖中,通過以下公式計(jì)算待分類樣本與所有樣本點(diǎn)之間的曼哈頓距離:
18、;
19、其中,表示曼哈頓距離;和分別表示特征向量與特征向量的第個(gè)特征值;為計(jì)算使用的特征數(shù)量。
20、進(jìn)一步的,分別歸一化每個(gè)視圖的距離向量,根據(jù)pds思想計(jì)算得到協(xié)同距離,包括:
21、對(duì)于每個(gè)視圖,計(jì)算得到的曼哈頓距離向量進(jìn)行歸一化處理,以消除不同視圖之間由于特征尺度不同而導(dǎo)致的距離度量差異;
22、在歸一化每個(gè)視圖的距離向量后,根據(jù)pds思想,計(jì)算得到協(xié)同距離,具體的計(jì)算公式為:
23、;
24、其中,和分別表示特征向量與特征向量的第個(gè)特征值;為計(jì)算使用的特征數(shù)量;為包含缺失特征在內(nèi)的總特征量;為協(xié)同距離。
25、進(jìn)一步的,在選定的兩個(gè)少數(shù)類樣本之間,通過線性插值的方式在特征空間中生成人工合成樣本,包括:
26、從少數(shù)類樣本中隨機(jī)選擇兩個(gè)樣本,兩個(gè)樣本應(yīng)位于同一簇中,即屬于相同的巖性類別,以使所選樣本在特征空間中的相對(duì)位置能夠代表該類別的數(shù)據(jù)分布;
27、兩個(gè)樣本的特征空間,由多個(gè)維度構(gòu)成,每個(gè)維度對(duì)應(yīng)一個(gè)特定的巖性特征;在對(duì)應(yīng)的維度上進(jìn)行線性插值,以在特征空間中生成新的點(diǎn),其中,線性插值過程具體包括:
28、對(duì)于每一對(duì)選定的樣本,在其連線上隨機(jī)選擇一個(gè)點(diǎn)作為合成樣本的位置;隨機(jī)點(diǎn)通過在兩個(gè)樣本之間以0到1之間的隨機(jī)數(shù)為比例因子進(jìn)行插值來獲得,插值結(jié)果代表兩個(gè)原始樣本特征的一個(gè)加權(quán)組合;
29、根據(jù)插值結(jié)果,創(chuàng)建一個(gè)新的合成樣本,新樣本包含通過插值計(jì)算得到的所有特征值,從而在特征空間中形成一個(gè)新的數(shù)據(jù)點(diǎn);
30、根據(jù)需要生成的合成樣本數(shù)量,重復(fù)進(jìn)行迭代,在每次迭代中,以生成一個(gè)新的合成樣本;完成所有迭代后,將生成的合成樣本添加到原始數(shù)據(jù)集中。
31、進(jìn)一步的,巖性特征包括成分含量和物理性質(zhì)。
32、進(jìn)一步的,選取與待分類樣本協(xié)同距離最小的個(gè)樣本作為近鄰子集;最后輸出近鄰子集中出現(xiàn)頻次最高的類別作為待分類樣本分類結(jié)果,包括:
33、將計(jì)算出的協(xié)同距離進(jìn)行排序,按照從小到大的順序排列,以找出與待分類樣本距離最近的樣本;
34、根據(jù)預(yù)設(shè)的近鄰數(shù)量k,從排序后的距離列表中選擇距離最近的k個(gè)樣本,樣本構(gòu)成待分類樣本的近鄰子集;
35、對(duì)于選定的近鄰子集,遍歷其中的每個(gè)樣本,并記錄各自的類別標(biāo)簽,使用一個(gè)計(jì)數(shù)器來統(tǒng)計(jì)每個(gè)類別在近鄰子集中出現(xiàn)的頻次;
36、在統(tǒng)計(jì)完所有近鄰樣本的類別頻次后,找出出現(xiàn)頻次最高的類別;如果有多個(gè)類別出現(xiàn)頻次相同且為最高,則根據(jù)具體需求選擇其中一個(gè)類別;
37、將出現(xiàn)頻次最高的類別確定為待分類樣本的預(yù)測(cè)類別,并輸出該結(jié)果。
38、本發(fā)明的上述方案至少包括以下有益效果:
39、本專利出的方法可以直接處理不完整巖性識(shí)別數(shù)據(jù)集,有效提高了數(shù)據(jù)的利用率。本專利方法中不同視圖可根據(jù)需求對(duì)不同的視圖采取不同的預(yù)處理操作;本專利方法作為多視圖方法可以同時(shí)使用多種不同來源,不同模態(tài)的測(cè)井資料進(jìn)行巖性識(shí)別;本專利方法改進(jìn)的視圖融合策略可以更有效地融合多視圖數(shù)據(jù);本專利方法對(duì)井中曲線缺失有很好的魯棒性;本專利方法可以一定程度上提高復(fù)雜巖性儲(chǔ)層的巖性識(shí)別效果。