本技術涉及多媒體,尤其涉及一種直播音頻審核方法、裝置、計算機設備及存儲介質。
背景技術:
1、隨著多媒體技術的發(fā)展,直播成為現(xiàn)在日常互動娛樂社交的重要應用,而對于直播的監(jiān)控是維護網絡安全健康必須的監(jiān)管要求,特別是對于網絡直播而言,通常存在有不良的直播信息。
2、相關技術中,對直播內容的審核技術主要包括圖像識別技術(如,圖像分類、圖像檢測、圖像比對等),音頻識別技術(如,asr語音內容識別、聲音事件檢測、聲紋識別、音頻指紋檢索等),nlp文字識別(如,分類、檢測、黑白名單等)。并且,對于直播內容的審核主體主要應用線上審核或者端上審核。
3、然而,申請人在實施過程中發(fā)現(xiàn),相關技術至少存在直播音頻審核準確率低的問題。
技術實現(xiàn)思路
1、基于此,本技術的目的旨在至少能解決上述的技術缺陷之一,特別是現(xiàn)有技術中直播音頻審核準確率低的技術缺陷,本技術提供了一種直播音頻審核方法、裝置、計算機設備及存儲介質。
2、第一方面,本技術提供了一種直播音頻審核方法,應用于客戶端,該方法包括:
3、獲取進入直播房間的客戶端中的直播音頻;
4、將直播音頻輸入至預先訓練的音頻審核模型,通過音頻審核模型,得到直播音頻的各種正常聲音的置信度以及各種異常聲音的置信度;其中,音頻審核模型以樣本正常聲音以及樣本異常聲音,對自監(jiān)督訓練后的初始音頻模型進行微調后得到;
5、在異常聲音的置信度大于預設的置信度閾值的情況下,將各正常聲音的置信度以及各異常聲音的置信度輸入到聲音決策模型,得到針對直播房間的直播音頻的正常聲音結果和/或異常聲音結果;其中,聲音異常結果包括異常聲音的聲音類型;
6、其中,聲音決策模型是通過音頻審核模型的聲音異常預測結果和聲音異常實際結果生成的。
7、在其中一個實施例中,得到針對直播房間的直播音頻的正常聲音結果和/或異常聲音結果之后,還包括:
8、確定異常聲音的聲音類型;
9、在異常聲音的聲音類型為非文明聲音的情況下,基于預先設置的針對非文明聲音的投票機制,確定對非文明聲音所對應的用戶的處罰結果。
10、在其中一個實施例中,得到針對直播房間的直播音頻的正常聲音結果和/或異常聲音結果之后,還包括:
11、確定異常聲音的聲音類型;
12、若異常聲音的聲音類型為涉嫌處于預設規(guī)則邊緣的非正常直播的嫌疑聲音,將嫌疑聲音發(fā)送到后臺監(jiān)控端;
13、后臺監(jiān)控端用于確定所述嫌疑聲音的監(jiān)控狀態(tài),監(jiān)控狀態(tài)用于指示嫌疑聲音為正常聲音或處于規(guī)則邊緣的非正常聲音;
14、接收從后臺監(jiān)控端發(fā)送的監(jiān)控狀態(tài)。
15、在其中一個實施例中,方法還包括:
16、若嫌疑聲音被確定為非正常聲音的次數大于預設的次數閾值,則基于非正常聲音的次數,輸出對發(fā)出非正常聲音的用戶的處罰結果。
17、在其中一個實施例中,方法還包括:
18、接收服務器發(fā)送的音頻審核模型和聲音決策模型;
19、服務器用于以樣本正常聲音以及樣本異常聲音,對自監(jiān)督訓練后的初始音頻模型進行微調后得到音頻審核模型;并以音頻審核模型的聲音異常預測結果和聲音異常實際結果,生成聲音決策模型。
20、第二方面,本技術還一種直播音頻審核方法,應用于服務器,方法包括:
21、獲取樣本直播音頻;并將樣本直播音頻輸入到預先訓練的音頻審核模型,得到各種候選正常聲音的置信度和各種候選異常聲音的置信度;
22、獲取對各候選異常聲音的實際聲音標注數據;其中,實際聲音標注數據用于指示候選異常聲音為異常聲音或正常聲音;
23、利用實際聲音標注數據、各候選正常聲音的置信度和各候選異常聲音的置信度,生成聲音決策模型;并將聲音決策模型發(fā)送到客戶端;
24、客戶端用于基于聲音決策模型,得到針對直播房間的直播音頻的正常聲音結果和/或異常聲音結果。
25、在其中一個實施例中,音頻審核模型的訓練方式,包括:
26、獲取以直播房間的音頻得到的訓練音頻、并獲取樣本正常聲音和樣本異常聲音;
27、并將訓練音頻輸入到待訓練的音頻審核模型,通過音頻審核模型的自監(jiān)督訓練,得到初始音頻模型;
28、將樣本正常聲音和樣本異常聲音輸入到初始音頻模型,以對初始音頻模型進行訓練,得到音頻審核模型。
29、在其中一個實施例中,方法還包括:
30、獲取客戶端發(fā)送的嫌疑聲音,嫌疑聲音為涉嫌處于預設規(guī)則邊緣的非正常直播的聲音;
31、通過后臺監(jiān)控端展示嫌疑聲音,并獲取在后臺監(jiān)控端對嫌疑聲音的監(jiān)控狀態(tài);監(jiān)控狀態(tài)用于指示嫌疑聲音為正常聲音或處于規(guī)則邊緣的非正常聲音;
32、將監(jiān)控狀態(tài)發(fā)送到客戶端。
33、第三方面,本技術提供了一種直播音頻審核裝置,應用于客戶端,裝置包括:
34、音頻接收模塊,用于接收客戶端中、待審核的直播房間的直播音頻;
35、置信度模塊,用于將直播音頻輸入至預先訓練的音頻審核模型,通過音頻審核模型,得到直播音頻的各種正常聲音的置信度以及各種異常聲音的置信度;其中,音頻審核模型以樣本正常聲音以及樣本異常聲音,對自監(jiān)督訓練后的初始音頻模型進行微調后得到;
36、聲音結果模塊,用于在異常聲音的置信度大于預設的置信度閾值的情況下,將各正常聲音的置信度以及各異常聲音的置信度輸入到聲音決策模型,得到針對直播房間的直播音頻的正常聲音結果和/或異常聲音結果;其中,聲音異常結果包括異常聲音的聲音類型;
37、其中,聲音決策模型是通過音頻審核模型的聲音異常預測結果和聲音異常實際結果生成的。
38、第四方面,本技術還提供了一種直播音頻審核裝置,應用于服務器,裝置包括:
39、樣本音頻模塊,用于獲取樣本直播音頻;并將樣本直播音頻輸入到預先訓練的音頻審核模型,得到各種候選正常聲音的置信度和各種候選異常聲音的置信度;
40、標注數據模塊,用于獲取對各候選異常聲音的實際聲音標注數據;其中,實際聲音標注數據用于指示候選異常聲音為異常聲音或正常聲音;
41、決策模型模塊,用于利用實際聲音標注數據、各候選正常聲音的置信度和各候選異常聲音的置信度,生成聲音決策模型;并將聲音決策模型發(fā)送到客戶端;
42、客戶端用于基于聲音決策模型,得到針對直播房間的直播音頻的正常聲音結果和/或異常聲音結果。
43、第五方面,本技術提供了一種計算機設備,包括存儲器和處理器,該存儲器存儲有計算機程序,處理器執(zhí)行計算機程序時實現(xiàn)上述方法的步驟。
44、第六方面,本技術提供了一種計算機可讀存儲介質,其上存儲有計算機程序,計算機程序被處理器執(zhí)行時實現(xiàn)上述方法的步驟。
45、第七方面,本技術提供了一種計算機程序產品,包括計算機程序,該計算機程序被處理器執(zhí)行時實現(xiàn)上述方法的步驟。
46、從以上技術方案可以看出,本技術實施例具有以下優(yōu)點:
47、本技術提供的直播音頻審核方法、裝置、計算機設備及存儲介質,通過在服務器端預先訓練音頻審核模型以及建立聲音決策模型,能夠使得客戶端接收服務器發(fā)送的音頻審核模型和聲音決策模型后直接應用,也就是在客戶端上可以實現(xiàn)對于直播音頻審核,從而降低線上審核的成本。具體地,在客戶端上,本技術通過將直播音頻輸入至預先訓練的音頻審核模型,能夠預測得到各種異常聲音的置信度,在異常聲音的置信度大于預設的置信度閾值時,能夠進一步將正常聲音的置信度以及異常聲音的置信度輸入到聲音決策模型,通過聲音決策模型,能夠得到直播音頻的正常聲音結果和/或異常聲音結果,如此,本技術通過利用正常聲音的置信度和異常聲音的置信度,進一步決策出音頻的審核結果,從而可以提高對于直播音頻的審核準確率。也就是,相對于傳統(tǒng)技術,本技術不僅通過模型預測了異常聲音的置信度,還預測了正常聲音的置信度,實現(xiàn)多標簽的音頻審核方式,提高了在端上審核直播音頻的準確率,因此,本技術能夠在降低直播音頻審核成本的同時,提高審核準確率。