一種紅外光譜數據pls建模方法
【專利摘要】本發明公開了一種紅外光譜數據PLS建模方法,結合各個間隔區間的PLS模型的誤差和誤差之間的相關性來確定各個間隔區間的PLS模型的權系數,從而能使所得的融合PLS模型具有最小的誤差。本發明的方法可以最好的利用各個間隔區間的光譜信息,簡便、可視化、運算量小,可以很快的找到特征波長區間;本方明中的權系數的確定方法由于同時考慮到了各個參與融合的模型的誤差以及誤差之間的相關性,能保證融合之后的模型具有最小的誤差。
【專利說明】一種紅外光譜數據PLS建模方法
【技術領域】
[0001] 本發明屬于紅外光譜識別領域,具體是一種能提升紅外光譜偏最小二乘建模效果 的數據處理方法。
【背景技術】
[0002] 在小樣本多變量的紅外光譜數據中,PLS模型可以很好的解決其它建模方法所遇 到的變量共線性問題和維數災難,因此在紅外光譜識別中得到了廣泛的用。雖然PLS可以 直接對全光譜建模,但是理論和大量的實驗證明波長選擇仍是一種有效的提高PLS模型的 方法。波長優化選擇是指通過一定的方法在建模之前進行特征波長或波段的篩選。經波長 選擇后所建模型由于剔除了不相關或非線性變量,因此較全波長模型更為簡化,預測能力 和穩健性也更好。其中iPLS(interval PLS-iPLS)是一種常用的波長選擇方法。iPLS方法 的優點是簡便、可視化、運算量小,可以很快的找到特征波長區間。缺點是只利用一個間隔 區間的光譜信息,可能丟失其他間隔區間的有用的光譜信息。因此如何最好的利用各個間 隔區間的光譜信息是亟待解決的問題。
【發明內容】
[0003] 本發明所要解決的技術問題是,針對上述現有技術的不足,提供一種紅外光譜數 據PLS建模方法。
[0004] 為解決上述技術問題,本發明所采用的技術方案是:一種紅外光譜數據PLS建模 方法,包括以下步驟:
[0005] 1)設置最大間隔區間數max_int_no、最大潛變量數max_lv_no、交叉法的重數 和k 2 ;其中,1^、1^2均不小于2 ;
[0006] 2)計算間隔區間數為int_no時,對應的融合PLS模型的交叉驗證誤差,計算的步 驟都是 2.1 至 2.2,其中 int_no < max_int_no :
[0007] 2. 1)將紅外光譜樣本集數據中的光譜矩陣X平均分為int_no個間隔區間Χ,:每 個間隔區間的列數1= ..........^ : £- h > □表示取整;第i個間隔區間Xi對應光譜矩陣 mt- /?ο J X的第[(i-l) X 1+1]?(i X 1)列的數據;1彡i彡int_no ;
[0008] 2. 2)計算潛變量數為lv_no時,融合PLS模型的?其中1彡lv_no彡max_ lv_no,計算的步驟都是2. 2. 1至2. 2. 5 ;
[0009] 2. 2. 1)用&重交叉法計算間隔數為int_no,潛變量數為lv_no時,各個間隔區間 對應的PLS模型的交叉驗證誤差= ,其中y表示紅外光譜樣本集數 據中的因變量矩陣的實際值,表示第i個間隔區間對應的潛變量數為lv_no的PLS模型 根據kl重交叉法得到的因變量矩陣的預測值,ei是相應的預測殘差矩陣,η是紅外光譜樣 本集數據的樣品數;
[0010] 2. 2. 2)計算間隔數為int_no,潛變量數為lv_no時,各個間隔區間對應 COvi £;,,£·;;) . 的PLS模型的預測殘差矩陣之間的相關性G .................../ = U,…》mt:其中, covk,e } = -<e,,e/),i,j' = 1,2,…,int-腳;
[0011] 2. 2. 3)通過非線性優化的方法計算下式, int nn ini no ini no
[0012] / = min(^ m;S2(e:) + 2j^ ^ /-1 /-I μ-? i
【權利要求】
1. 一種紅外光譜數據PLS建模方法,其特征在于,包括以下步驟: 1) 設置最大間隔區間數max_int_no、最大潛變量數max_lv_no、交叉法的重數kjPk2 ; 其中,1^、1^2均不小于2 ; 2) 按照步驟2. 1)和步驟2. 2)計算間隔區間數為int_no時,對應的融合PLS模型的交 叉驗證誤差,其中1 < int_no < max_int_no : 2. 1)將紅外光譜樣本集數據中的光譜矩陣X平均分為int_no個間隔區間\ :每個間 的 度 ? 隔區間的列數I = I,□表示取整;第i個間隔區間\對應光譜矩陣X的 _ mt_ no j 第[(i-1) X1+1]?(iXl)列的數據;1 < i < int_no ; 2. 2)按照步驟2. 2. 1)?步驟2. 2. 5)計算潛變量數為lv_no時,融合PLS模型的.¢,=, 其中 1 < lv_no < max_lv_no : 2. 2. 1)用重交叉法計算間隔數為int_no,潛變量數為lv_no時,各個間隔區間對應 的PLS模型的交叉驗證誤差= ,其中 Λ y表示紅外光譜樣本集數據中 " ?. = j-j,-1 的因變量矩陣的實際值,兌表示第i個間隔區間對應的潛變量數為lv_no的PLS模型根據 kl重交叉法得到的因變量矩陣的預測值,^是相應的預測殘差矩陣,η是紅外光譜樣本集 數據的樣品數; 2. 2. 2)計算間隔數為int_no,潛變量數為lv_no時,各個間隔區間對應的 pls模型的預測殘差矩陣之間的相關性4 …;其中, cov(e,, e -) = -(e,, e Λ, /, / = 1,2, - ··, int_ no ; n、 · 2. 2. 3)通過非線性優化的方法計算下式: inf ttf% inf ι?η mi mn
得到間隔數為int_no,潛變量數為lv_no時,各個間隔區間對應的PLS模型的組合系數 ω = [ ω " …,ω int-加]': 2. 2. 4)用k2重交叉法計算間隔數為int_no,潛變量數為lv_no時,各個間隔區間對 應的PLS模型的預測殘差矩陣化=.1,-九,其中爲,表示第i個間隔區間對應的潛變量數為 lv_no的PLS模型根據k2重交叉法得到的因變量矩陣的預測值,計算; ini no ini no int iut ./:二=Σ (作(?)十2Σ Σ -"以⑷%、,); /~? i~i p>/ 2. 2. 5)選出最小的.I:作為間隔區間數為int_no時的融合PLS模型的交叉驗證誤 差,記為; 3) 選出所有間隔區間數下最小的i ,w,該最小的尤H"對應的間隔區間數int_bt、潛 變量數lv_bt和組合系數c〇_bt作為最優的模型參數; 4) 根據最優的模型參數構造融合PLS模型:將光譜矩陣X平均分為int_bt個間隔區 間,融合PLS模型如下: int bt 其中,ω_btg是ω _bt的第g個分量,/是融合PLS模型對樣品的因變量的預測值;bg、 cg分別是間隔區間Xg和因變量矩陣Y對應潛變量數為lv_bt時的偏最小回歸系數和截距; x g是第g個間隔區間對應的紅外光譜數據。
【文檔編號】G06F19/00GK104091089SQ201410362602
【公開日】2014年10月8日 申請日期:2014年7月28日 優先權日:2014年7月28日
【發明者】陳孝敬 申請人:溫州大學