本發明屬于光譜分析領域,特別是一種用于原子發射光譜分析的特征譜線快速選擇方法。
背景技術:
原子發射光譜分析是光譜分析的重要應用技術,在工業、農業、醫學等領域實現特定元素或成分的定性、定量分析。典型的原子發射光譜技術根據激發光源不同,如激光誘導擊穿光譜技術(libs)、電感耦合等離子體發射光譜技術(icp-aes)、火花放電發射光譜技術(spark-aes)等,是現代分析化學極具前景、發展迅速的研究方向。發射光譜分析是根據自由原子或離子外層電子輻射躍遷得到的發射光譜來研究物質的組成和含量,其過程一般分為激發、分光、檢測三步,由光譜譜線的波長進行定性分析,由光譜譜線的強度進行定量分析。
隨著電子技術、材料科學、儀器科學的發展,用于原子光譜分析的各類光譜儀更新升級迅速,儀器性能不斷提高,特別如中階梯光譜儀,其分辨率可達pm量級。更高的光譜分辨率表現了更加精細的光譜細節,同時也帶來更龐大的光譜數據。對于特定元素或成分定量分析,使用單一譜線往往不能建立穩健、準確的分析模型,越來越多的研究者選擇采用多元分析法(如主成分分析法pca、偏最小二乘法pls等)解決這一問題。多元分析法即利用多條譜線強度,考慮譜線之間相互關系,按照相應的權重系數,建立多元數學模型,開展定量分析。對于原子發射光譜,應用多元分析法時,須在大量光譜數據中選擇有用的特征譜線建立模型,傳統的特征譜線選擇方法如間隔偏最小二乘法、遺傳算法、迭代預測權重法等,大多被用于紅外光譜分析而很少用于原子光譜分析,原因是在密集的原子譜線中,譜線選擇效果不理想(甚至出現選擇錯誤),且耗時漫長,需大量借助人力,效率低下。
技術實現要素:
為克服現有技術的不足,
(1)本發明的目的是提供一種用于原子發射光譜分析的特征譜線快速選擇方法,可在大量光譜數據中快速選出與特定元素含量相關的多個特征譜線,大大提升選擇效率,有效減少參與建模的特征譜線數量,簡化計算過程,提升定量預測模型的穩健型和準確性;
(2)本發明的另一目的是提供一種利用(1)中所述方法,對土壤樣品中的金屬元素cu、ba、cr、mg、ga進行定量分析的典型案例,實現各元素特征譜線的快速、準確選取,通過分析結果驗證本發明所提方法的可行性、適用性、優越性。
本發明采用的技術方案是,用于原子發射光譜分析的特征譜線快速選擇方法,步驟如下:
第1步:對光譜原始數據x做光譜預處理,包括光譜標準化和小波閾值去噪兩部分,以提高光譜數據質量;
第2步:將全部光譜變量譜線x等間隔地分為若干組xi,對每一間隔的變量譜線xi實施間隔偏最小二乘分析,并利用每一間隔得到的偏最小二乘權重矩陣bi計算得到間隔校正因子矩陣ki,對相應每個間隔的變量進行校正;
第3步:對第2步校正后的全部變量xˊ實施整體偏最小二乘分析,并利用整體得到的偏最小二乘權重矩陣計算得到整體校正因子矩陣kˊ,對相應整體的變量進行校正;
第4步:對現有的全部變量x″進行偏最小二乘分析,并利用現有每個變量的標準偏差值s以及偏最小二乘權重值b″計算得到每個變量的重要性,構成變量的重要性矩陣z;
第5步:利用現有變量整體的標準偏差s和現有變量個數n計算得到當前迭代循環的閾值thr,將現有變量的重要性逐個與閾值比較,如果該變量的重要性zj低于當前循環的閾值thr,則該變量被排除;
第6步:對第5步選擇后的現有變量進行偏最小二乘分析,采用留一法交叉驗證,并計算交叉驗證的均方根誤差值rmsecv,綜合考慮當前的變量個數和rmsecv值,如滿足定量分析要求,則停止迭代過程,否則回到第4步。
對光譜原始數據x做光譜預處理,光譜標準化具體是譜線強度除以光譜均值強度,小波閾值去噪具體采用symlet小波,分解層數為4層,采用軟閾值。
一個實例中,第2步:
第3步:對第2步校正后的全部變量xˊ實施整體偏最小二乘分析,并利用整體得到的偏最小二乘權重矩陣計算得到整體校正因子矩陣kˊ,
第4步:對現有的全部變量x″進行偏最小二乘分析,并利用現有每個變量的標準偏差值s以及偏最小二乘權重值b″計算得到每個變量的重要性,構成變量的重要性矩陣z
第5步:利用現有變量整體的標準偏差s和現有變量個數n計算得到當前迭代循環的閾值thr,將現有變量的重要性逐個與閾值比較,如果該變量的重要性zj低于當前循環的閾值thr,則該變量被排除:
本發明的特點及有益效果是:
(1)該方法能夠快速選擇分析元素的特征譜線,相比傳統選擇方法(如人工選擇法、間隔偏最小二乘法、遺傳算法等)效率極大提高,計算過程簡化,預測模型穩健且準確。
(2)該方法結合了間隔偏最小二乘法和迭代預測權重法的優點,使得快速變量選擇在原子光譜分析領域成為可能(已報道的多用于近紅外光譜分析),可推廣適用于各種原子發射光譜分析過程,如激光誘導擊穿光譜(libs)分析、電感耦合等離子體原子發射光譜(icp-aes)分析等,對于各種金屬、非金屬元素進行定量分析,有益于提高多元分析模型的性能。
附圖說明:
圖1示出本發明的特征譜線快速選擇方法流程圖。
圖2示出應用本發明方法選擇土壤原子光譜cu元素特征譜線的效果圖。
圖3示出應用本發明方法與其他方法進行cu元素定量分析的校準和預測結果對比圖。
圖4示出應用本發明方法定量分析土壤其他元素(ba、cr、mg、ga)的校準和預測結果圖。
圖3中,a為單一譜線分析的結果,b為全譜線分析的結果,c為間隔偏最小二乘分析的結果,d為本發明方法分析的結果。
圖4中,a為鋇(ba)元素定量分析的結果,b為鉻(cr)元素定量分析的結果,c為鎂(mg)元素定量分析的結果,d為鈣(ga)元素定量分析的結果。
具體實施方式
本發明采用的技術方案是,一種用于原子發射光譜分析的特征譜線快速選擇方法,如圖1所示,由以下步驟組成:
第1步:對光譜原始數據x做光譜預處理,包括光譜標準化(譜線強度除以光譜均值強度)和小波閾值去噪(symlet小波,分解層數4,軟閾值)兩部分,以提高光譜數據質量。
第2步:將全部光譜變量x(譜線)等間隔地分為若干組xi,對每一間隔的變量(譜線)xi實施間隔偏最小二乘分析,并利用每一間隔得到的偏最小二乘權重矩陣bi計算得到間隔校正因子矩陣ki,對相應每個間隔的變量進行校正。
第3步:對第2步校正后的全部變量xˊ實施整體偏最小二乘分析,并利用整體得到的偏最小二乘權重矩陣計算得到整體校正因子矩陣kˊ,對相應整體的變量進行校正。
第4步:對現有的全部變量x″進行偏最小二乘分析,并利用現有每個變量的標準偏差值s以及偏最小二乘權重值b″計算得到每個變量的重要性,構成變量的重要性矩陣z。
第5步:利用現有變量整體的標準偏差s和現有變量個數n計算得到當前迭代循環的閾值thr,將現有變量的重要性逐個與閾值比較,如果該變量的重要性zj低于當前循環的閾值thr,則該變量被排除。
第6步:對第5步選擇后的現有變量進行偏最小二乘分析,采用留一法交叉驗證,并計算交叉驗證的均方根誤差值(rmsecv),綜合考慮當前的變量個數和rmsecv值,如滿足定量分析要求,則停止迭代過程,否則回到第4步。
下面結合附圖和具體實施方式,進一步詳細說明本發明。
一種用于原子發射光譜分析的特征譜線快速選擇方法,如圖1所示,由以下步驟組成:
第1步:對光譜原始數據x做光譜預處理,包括光譜標準化(譜線強度除以光譜均值強度)和小波閾值去噪(symlet小波,分解層數4,軟閾值)兩部分,以提高光譜數據質量。
第2步:將全部光譜變量x(譜線)等間隔地分為若干組xi,對每一間隔的變量(譜線)xi實施間隔偏最小二乘分析,并利用每一間隔得到的偏最小二乘權重矩陣bi計算得到間隔校正因子矩陣ki,對相應每個間隔的變量進行校正。
第3步:對第2步校正后的全部變量xˊ實施整體偏最小二乘分析,并利用整體得到的偏最小二乘權重矩陣計算得到整體校正因子矩陣kˊ,對相應整體的變量進行校正。
第4步:對現有的全部變量x″進行偏最小二乘分析,并利用現有每個變量的標準偏差值s以及偏最小二乘權重值b″計算得到每個變量的重要性,構成變量的重要性矩陣z。
第5步:利用現有變量整體的標準偏差s和現有變量個數n計算得到當前迭代循環的閾值thr,將現有變量的重要性逐個與閾值比較,如果該變量的重要性zj低于當前循環的閾值thr,則該變量被排除。
第6步:對第5步選擇后的現有變量進行偏最小二乘分析,采用留一法交叉驗證,并計算交叉驗證的均方根誤差值(rmsecv),綜合考慮當前的變量個數和rmsecv值,如滿足定量分析要求,則停止迭代過程,否則回到第4步。
以土壤中金屬cu元素定量分析為例,如圖2所示,利用本發明所提方法選擇特征譜線,每一次迭代循環之后,剩余譜線逐漸減少,在最后一次迭代循環后,只有6個特征譜線保留下來,分別為324.742nm,324.753nm,324.764nm,327.380nm,327.391nm,327.402nm,與數據庫公布的cu元素最強特征譜線(324.754nm,327.395nm)完全相符,證明了本方法的可行性。如圖3所示,利用不同方法對cu元素含量作定量分析,包括3(a)單一譜線法、3(b)全譜線法、3(c)間隔片最小二乘法和3(d)本發明所提快速選擇法,結果顯示,利用本發明提出的方法選擇的特征譜線數量顯著低于其他方法,且提高了多元分析模型的穩健性和準確性,無論在校準還是預測結果中都具有較低的均方根誤差值(rmsec和rmsep)和較高的相關性系數(r2),證明了本方法的優越性。如圖4所示,利用本發明提出的方法對土壤中其他元素進行特征譜線選擇以及定量分析,包括4(a)鋇(ba)元素、4(b)鉻(cr)元素、4(c)鎂(mg)元素和4(d)鈣(ga)元素,結果顯示,不同元素的校準和預測結果均具有較低的均方根誤差值(rmsec和rmsep)和較高的相關性系數(r2),證明了本方法的適用性。