一種srp-phat多源空間定位方法
【專利摘要】本發明所述一種SRP-PHAT多源空間定位方法,首先假設在數據獲得過程中均勻圓形麥克風陣列的全部麥克風的數目和空間位置不變,各向同性的麥克風均勻分布在一個半徑為r的位于x-y平面的圓周上,采用極坐標來表示平面波s的到達方向,坐標系的原點位于圓形陣列的圓心位置上,多聲源信號劃分為互不重疊的時頻點集合,使每個時頻窗內只包含一個活動的源信號,滿足弱的W分離正交條件;并選取漢明窗,通過SRP-PHAT算法計算可控響應功率函數和得到目標函數,控制波束在所有可能的接收方向進行掃描,則波束輸出功率最大的方向值即得到聲源的方向,其使得多聲源的DOA估計在強噪聲和適度混響的聲學環境下具有較好的分離性能,明顯突出了真正峰值,具有較高的定位精度。
【專利說明】-種SRP-PHAT多源空間定位方法
【技術領域】
[0001] 本發明涉及一種空間定位方法,具體地說,涉及一種SRP-PHAT多源空間定位方 法,應用于視頻會議、語音增強、助聽器、免提電話和智能機器人等系統中。
【背景技術】
[0002] 聲源定位技術在視頻會議、語音增強、助聽器、免提電話和智能機器人等系統中具 有廣泛的應用前景,近年來受到了越來越多的關注。
[0003] 目前相位變換加權的可控響應功率(SRP-PHAT :Steered Response Power-Phase Transform)聲源定位算法已成為主流算法,該算法結合了可控波束形成和GCC-PHAT的優 點,在低信噪比條件下具有較強的魯棒性。對于單聲源定位有較好的性能,但最大的缺點是 運算量大,龐大的運算量限制了在實時系統中的應用。
[0004] 許多研究者都嘗試著減少其核心的可控響應功率搜索過程的計算量。如二次加速 SRP-PHAT聲源定位算法通過垂直布置的陣列將二維空間的搜索轉化為一維空間的搜索,采 用層次搜索策略,由粗至精對一維空間進行搜索。又如改進的聯合SRP-PHAT語音定位算法 利用正交直線麥克風陣列將二維搜索空間削減為一對一維空間,然后分別在一維空間中執 行分級搜索策略,尋找SRP最大值以確定聲源位置。
[0005] 在實際運用中常常需要估計多個聲源的位置。現有的基于語音信號稀疏性的 W-分離正交性假設并不滿足多聲源,導致該方法空間分辨率低,容易受混響的影響,特別是 在混響和噪聲環境下無法分辨兩個在方向上靠的較近的信號源。因此,多聲源定位問題具 有非常重要的理論意義和實用價值。
【發明內容】
[0006] 本發明克服了現有技術中的缺點,提供了一種SRP-PHAT多源空間定位方法,可在 混響和噪聲環境下分辨多個在方向上靠的較近的信號源,定位效果好。
[0007] 為了解決上述技術問題,本發明是通過以下技術方案實現的:
[0008] -種SRP-PHAT多源空間定位方法,其特征在于,包括以下步驟:
[0009] 1)在假設條件下計算空間坐標,首先假設在數據獲得過程中均勻圓形麥克風陣列 的全部麥克風的數目和空間位置不變,聲源與麥克風距離符合聲場模型的要求,各個麥克 風的物理性質相同,各向同性的麥克風均勻分布在一個半徑為r的位于x-y平面的圓周上, 采用極坐標來表示平面波s的到達方向,坐標系的原點位于圓形陣列的圓心位置上,信號 的俯仰角Θ e [0, ji/2],而方位角Φ e [0,2ji];
[0010] 2)多聲源信號劃分為互不重疊的時頻點集合,使每個時頻窗內只包含一個活動的 源信號,滿足弱的W分離正交條件;并選取漢明窗,當WD0M = 1時滿足W-分離正交;
[0011] 3)通過SRP-PHAT算法計算所有麥克風對的相位變換的可控響應功率函數和得到 一個目標函數,波束形成器的控制波束在所有可能的接收方向進行掃描,則波束輸出功率 最大的方向值即得到聲源的方向。
[0012] 進一步,所述步驟2)包括:
[0013] 首先引入兩個重要的特性準則:(1)掩蔽在多大程度上保留了感興趣的聲源; (2)掩蔽在多大程度上抑制了干擾聲源;
[0014] 考慮將多聲源信號劃分為互不重疊的時頻點集合,每個時頻窗內只包含一個活動 的源信號,而且近似滿足
[0015]
【權利要求】
1. 一種SRP-PHAT多源空間定位方法,其特征在于,包括以下步驟: 1) 在假設條件下計算空間坐標,首先假設在數據獲得過程中均勻圓形麥克風陣列的全 部麥克風的數目和空間位置不變,聲源與麥克風距離符合聲場模型的要求,各個麥克風的 物理性質相同,各向同性的麥克風均勻分布在一個半徑為r的位于x-y平面的圓周上,采用 極坐標來表示平面波s的到達方向,坐標系的原點位于圓形陣列的圓心位置上,信號的俯 仰角 Θ e [〇,ji/2],而方位角 Φ e [〇,2π]; 2) 多聲源信號劃分為互不重疊的時頻點集合,使每個時頻窗內只包含一個活動的源信 號,滿足弱的W分離正交條件;并選取漢明窗,當WDO M = 1時滿足W-分離正交; 3) 通過SRP-PHAT算法計算所有麥克風對的相位變換的可控響應功率函數和得到一個 目標函數,波束形成器的控制波束在所有可能的接收方向進行掃描,則波束輸出功率最大 的方向值即得到聲源的方向。
2. 根據權利要求1所述一種SRP-PHAT多源空間定位方法,其特征在于,所述步驟2)包 括: 首先引入兩個重要的特性準則:(1)掩蔽在多大程度上保留了感興趣的聲源;(2)掩蔽 在多大程度上抑制了干擾聲源; 考慮將多聲源信號劃分為互不重疊的時頻點集合,每個時頻窗內只包含一個活動的源 信號,而且近似滿足
定義時頻掩蔽碼為
通過估計對應每個源的時頻掩蔽,由此可以從混合源中得到某個源j
其中Mj為源j支集的指示函數,Sj (t,ω),X(t,ω)分別為sj,x(t)的時頻表示, 對于給定的時頻掩碼M,定義保留的信號比率PSRM :
PSRM為估量在使用掩蔽后所保留的源Sj能量所占的百分比; 同時定義
其中zj (t)為在源Sj的干擾下所有源之和; 定義應用時頻掩蔽Μ后信號干擾比為:
其中SIRM主要估量在應用時頻掩蔽Μ分離信號后的信號干擾比; 通過PSRM和SIRM可估量近似W-分離正交性WDOM :
由于語音信號具有稀疏的時頻表示,其時頻表示的功率占總功率的絕大比例,其時頻 表示的乘積幅度通常總是小的,因此滿足弱的W分離正交條件;特別地,當WDOM = 1時滿足 W-分離正交。
3. 根據權利要求1所述一種SRP-PHAT多源空間定位方法,其特征在于,所述步驟3)對 于雙麥克風的SRP-PHAT算法, 對于僅有兩個麥克風,麥克風mi和麥克風mj陣列,來自方位角和俯仰角的信號到達兩 麥克風時延為Λ τ ij( θ,φ),TDOA可以通過廣義互相關(GCC)估計,表示為:
其中P(r)是三維空間矢量r空間似然函數,可通過計算所有可能的Θ和φ得到,廣 義互相關函數Rsisj(A Ti,j(0,φ))在頻域中可表示為:
其中Vij(co)為加權函數,Si(c〇)S*j(c〇)為互功率譜密度函數; 相位變換(PHAT)法就是一種典型的變換方法, 定義相位加權函數為:
通過選擇合適的加權函數,使延時累加可控響應功率滿足最優化信噪比準則,廣義互 相關Rsisj(A Ti,j(0,φ))在所限制的范圍τ內表現為一個峰值,對應傳播到麥克風 mi和麥克風mj的延遲TD0A。
4. 根據權利要求1所述一種SRP-PHAT多源空間定位方法,其特征在于,所述步驟3)對 于圓陣列麥克風聲源的SRP-PHAT算法: 對所有麥克風對的廣義互相關
其中Δ τ ρ Δ τ f Δ τ N為N個麥克風的可控延時,其中Δ τ i = τ廠τ Qi = l…N,τ。 為參考時延估計,取所有麥克風延時中最小的為參考。
5.根據權利要求1所述一種SRP-PHAT多源空間定位方法,其特征在于,所述步驟3)對 于多聲源圓陣列麥克風SRP-PHAT算法: 當同時存在兩個及以上聲源時,當同時存在兩個以上聲源時,一個聲源的SRP-PHAT峰 值混入了另一個聲源的SRP-PHAT峰值,一些點上會產生虛假的峰值,很難找到局部最大峰 值; 利用語音信號近似W-分離正交性,在時頻域估計各聲源信號到達麥克風、陣列的相對 時延,利用短時傅里葉變換作為近似W-分離正交變換, 假設第i個麥克風的信號模型的頻域表示為:
若給定窗函數W,sj的短時傅里葉變換為Sj,有
通過選擇恰當的窗函數及大小,在信號為近似W-分離正交性假設下,僅有一個聲源在 任何時間-頻率點有效,則其互譜為:
則麥克風i和麥克風j之間的延時Λ τ n,i-Λ τ n,j可以通過互功率譜得到。
【文檔編號】G01S5/18GK104142492SQ201410366922
【公開日】2014年11月12日 申請日期:2014年7月29日 優先權日:2014年7月29日
【發明者】孫明 申請人:佛山科學技術學院