本發明屬于涉及人工智能輔助診斷領域,具體涉及一種基于預訓練模型和圖神經網絡的咳嗽聲識別方法。
背景技術:
1、隨著工業技術的不斷發展,通過深度學習進行音頻分類的技術不斷成熟,利用體音檢測疾病成為了目前的研究熱點。研究人員發現不同疾病患者的咳嗽聲具有不同的潛在特性,因此利用咳嗽聲來檢測肺部疾病是一種可以實現的快速檢測手段。
2、然而,現有研究表明,對于病患的咳嗽聲,其不同時間段和頻率段信息存在相關性,傳統深度卷積神經網絡難以表征其復雜關系。圖神經網絡能夠有效處理非歐幾里得數據,通過在不同幀節點間建立連接,進行特征抽取,能夠靈活的處理音頻信號不同幀之間的復雜關系。
技術實現思路
1、本發明針對背景技術所述問題,提出基于預訓練模型和圖神經網絡的咳嗽聲識別方法,實現更高精度的咳嗽聲檢測。
2、為實現上述目的,本發明采取下述技術方案:
3、設計一種基于預訓練模型和圖神經網絡的咳嗽聲識別方法,包括以下步驟:
4、s1,采集聲音數據構建包含咳嗽聲與非咳嗽聲的數據集;
5、s2,對音頻數據進行靜音去除,而后按照固定長度片段進行切分,構建咳嗽片段與非咳嗽片段數據;
6、s3,對每個音頻片段按照一定幀長、幀移分幀,使用預訓練模型提取每幀音頻的特征;
7、s4,利用預訓練模型提取的特征生成圖數據的節點特征矩陣和鄰接矩陣,構建圖數據,劃分訓練集與測試集;
8、s5,對咳嗽、非咳嗽片段圖數據按照一定比例劃分訓練、測試集,將圖數據輸入圖神經網絡模型中,對圖神經網絡模型訓練,利用訓練后的圖神經網絡模型對咳嗽聲進行識別。
9、進一步的,s1中采用麥克風錄制實不同場景咳嗽聲數據庫,包括咳嗽聲、呼吸音和語音。其中包括呼吸聲(快速和緩慢)、咳嗽聲(深和淺)、持續發音的元音音素以及以慢速和快速節奏數數的語音音頻等。同時錄制不同場景非咳嗽數據,包括esc-50數據集urbansound8k數據集中常用場景,如包括自然聲音、動物聲音、城市噪聲等。此外利用采集咳嗽聲數據與非咳嗽數據按照一定比例混合合成新的聲音數據,并將其歸為咳嗽聲數據集。
10、進一步的,s2中,對咳嗽音頻段進行靜音去除然后對音頻數據進行分割,將所有音頻數據劃分為1秒的音頻段,整理咳嗽音頻片段及非咳嗽音頻片段。
11、進一步的,s3中,對音頻段按照一定幀長和幀移進行分幀,然后對于每一幀音頻數據使用預訓練模型(如vggish,wav2vec等)輸出形狀為[1,m]的嵌入特征。
12、進一步的,s4中,將每段音頻分幀形成的n幀音頻依次送入預訓練模型生成n個形狀為[1,m]的嵌入特征,每幀音頻生成的特征定義為一個節點,由所有節點生成節點特征矩陣x∈rn×m將每個音頻產生的每對節點計算余弦相似性,其公式為:
13、
14、其中ui,uj代表節點特征向量,若相似性值大于設定的閾值δ,則認為兩個節點之間存在關聯,并在二者之間建立一條邊。將所有節點之間的連接關系用鄰接矩陣表示,鄰接矩陣a∈rn×n為的對稱矩陣,其中:
15、
16、由節點特征矩陣和鄰接矩陣共同表示圖數據g=(x,a),最后按照一定比例劃分訓練集和測試集。
17、進一步的,s5中,所述圖神經網絡模型可采用圖神經網絡領域各種主流圖網絡模型,如以經典的圖卷積網絡gcn為例,定義如下:
18、
19、其中h(l)為第l層節點特征矩陣,初始值h(0)=x,w(l)為第l層可學習參數權重矩陣,為圖的鄰接矩陣a加上節點自連接后的矩陣,為單位矩陣。度矩陣d∈rn×n是一個對角矩陣,其對角元素表示圖中各節點的度數:d=diag(d1,d2,d3…,dn),節點的度是指與該節點直接連接的邊的數量。為添加節點自連接的度矩陣,為度矩陣的歸一化矩陣,用于消除節點度的影響。圖池化方式為排序聚合池化(sortaggregation(k)),每個節點排序指標定義為:
20、
21、其中hi∈rm為第i個節點的特征向量,hij是第i個節點的第j個分量,結果是一個排序分數向量s=[s1,s2,s3....,sn]∈rn(n為節點個數),根據節點分數s,對節點特征矩陣h按降序排序,得到排序后的特征矩陣h'=sort(h,s),h'∈rn×m,設定目標節點k,如過n>k,截取前k個節點特征,得到圖的全局表示h”,如果n<k,將剩余位置用零向量填充,得到圖的全局表示h”
22、
23、咳嗽聲識別模型訓練任務為二分類任務,模型訓練的優化目標為最小化損失函數,模型的損失函數采用典型的二元交叉熵損失函數,其公式如下:
24、
25、其中,y是二元標簽0或者1,p(y)是輸出屬于y標簽的概率,模型通過最小化損失函數,利用反向傳播動態調整模型內參數以提高模型性能。
26、與現有技術相比,本發明具有以下有益效果:
27、對于病患的咳嗽聲,其不同時間段和頻率段信息存在相關性,傳統深度卷積網絡難以表征其復雜關系。圖神經網絡能夠有效處理非歐幾里得數據,通過在不同節點間建立連接,進行特征融合,能夠靈活的處理各種復雜關系,從而提高性能。
1.一種基于預訓練模型和圖神經網絡的咳嗽聲識別方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的基于預訓練模型和圖神經網絡的咳嗽聲識別方法,其特征在于,步驟s1中:所述咳嗽聲數據集使用麥克風采集不同場景、不同人群咳嗽聲數據。所述非咳嗽聲數據使用麥克風采集不同場景聲音數據,如包含經典自然聲音識別數據集esc-50數據集與urbansound8k不同場景聲音,包括自然聲音、動物聲音、城市噪聲等。此外利用采集咳嗽聲數據與非咳嗽數據按照一定比例混合合成新的聲音數據,并將其歸為咳嗽聲數據集。
3.根據權利要求1所述的一種基于預訓練模型和圖神經網絡的咳嗽聲識別方法,其特征在于:步驟s2中:對不同長度音頻數據進行靜音去除,然后按照固定長度1秒進行分割,構建咳嗽音頻片段及非咳嗽音頻片段。
4.根據權利要求1所述的基于預訓練模型和圖神經網絡的咳嗽聲識別方法,其特征在于,步驟s3中:對1秒長度音頻段按照一定幀長和幀移進行分幀,對每幀音頻使用經典音頻預訓練模型進行特征抽取,生成形狀為[1,m]的嵌入特征。其中預訓練模型包括但不限于經典的預訓練模型如vggish,wav2vec等。
5.根據權利要求1所述的基于預訓練模型和圖神經網絡的咳嗽聲識別方法,其特征在于,步驟s4中:將每段音頻分幀形成的n幀音頻依次送入預訓練模型生成n個形狀為[1,m]的嵌入特征,每幀音頻生成的特征定義為一個節點,由所有節點生成節點特征矩陣x∈rn×m,將每段音頻產生的每對節點計算余弦相似性,其公式為:
6.根據權利要求1所述的基于預訓練模型和圖神經網絡的咳嗽聲識別方法,其特征在于,步驟s5中:所述圖神經網絡模型可為任意的圖神經網絡模型,包括但不限于經典的圖卷積網絡(graph?convolutional?network)、圖注意力網絡(graphattentionnetworks)等。