本申請涉及計算機,具體涉及一種文本處理方法、裝置、終端設備及計算機可讀存儲介質。
背景技術:
1、隨著大數據時代的到來,文本數據的表達形式逐漸從單視圖特征維度向多視圖特征維度轉變。例如:新聞標題、新聞正文、新聞圖片的標題名稱等數據可以構成一篇新聞的多視圖特征數據集;歌詞、歌曲名稱以及歌曲評論可以構成一首歌曲的多視圖特征數據集。每一種特征都可以對應地稱為樣本的一個視圖特征,多種視圖特征之間的信息相互補充并相互印證,可以共同引導簇的最優劃分。相比只利用新聞正文內容或所有歌詞做單視圖特征聚類的傳統方法,多視圖特征文本聚類方法顯然更合理地利用數據中的豐富信息來提升任務的最終效果。多個視圖特征間的互補信息和一致信息為常規的單視圖特征文本聚類帶來了機遇,如何有效利用這些信息進一步提升文本聚類的性能具有很大的研究價值。
2、另外,處理多視圖特征緯度數據的另一常規方法是將原本的多視圖特征數據融合為單視圖特征數據,即將樣本的多個視圖特征采用簡單拼接或其他方法融合為具有綜合性的單個特征。然而這種方法忽略了同一樣本的不同視圖特征都包含了自己獨有的視圖特征信息這一事實。而多個視圖特征之間可能存在沖突,所以會指向不同簇,進而導致得到錯誤的聚類結果。
技術實現思路
1、本申請提供了一種文本處理方法,通過尋找不同視圖特征之間的相似性,從而能夠更好的確定待處理文本的分類標簽。
2、第一方面,本申請提供了一種文本處理方法,所述方法包括:
3、確定待處理文本的多個視圖特征;
4、確定各所述視圖特征的相似性特征;
5、根據所述相似性特征,確定所述待處理文本的分類結果。
6、第二方面,本申請還提供了一種文本處理裝置,所述裝置包括:
7、第一確定模塊,用于確定待處理文本的多個視圖特征;
8、第二確定模塊,用于確定各所述視圖特征的相似性特征;
9、第三確定模塊,用于根據所述相似性特征,確定所述待處理文本的分類結果。
10、第三方面,本申請還提供了一種終端設備,所述終端設備包括處理器、存儲器以及存儲于所述存儲器中并可在所述處理器上運行的計算機程序,所述處理器執行所述計算機程序以實現任一項所述的文本處理方法中的步驟。
11、第四方面,本申請還提供了一種計算機可讀存儲介質,所述計算機可讀存儲介質上存儲有計算機程序,所述計算機程序被處理器執行以實現任一項所述的文本處理方法中的步驟。
12、本申請提供的文本處理方法,通過先確定待處理文本的多個視圖特征,再基于多個視圖特征,確定待處理文本的相似性特征,從而能夠根據相似性特征確定出各個視圖特征之間的相似性,避免了多個視圖特征之間的沖突性,進而能夠更好的確定待處理文本的分類結果,使得后續的應用場景中能夠根據分類標簽確定執行待處理文本對應的實際執行動作。
1.一種文本處理方法,其特征在于,所述方法包括:
2.根據權利要求1所述的文本處理方法,其特征在于,所述確定待處理文本的多個視圖特征,包括:
3.根據權利要求1所述的文本處理方法,其特征在于,所述確定待處理文本的多個視圖特征之前,所述方法還包括:
4.根據權利要求3所述的文本處理方法,其特征在于,所述根據所述樣本文本以及所述掩碼文本,訓練預設的多視圖特征提取模型,包括:
5.根據權利要求1所述的文本處理方法,其特征在于,所述根據所述相似性特征,確定所述待處理文本的分類標簽,包括:
6.根據權利要求5所述的文本處理方法,其特征在于,所述根據所述簇分類概率和所述相似性特征,確定所述待處理文本的分類結果之前,所述方法還包括:
7.根據權利要求6所述的文本處理方法,其特征在于,所述根據所述初始特征標簽以及所述初始簇標簽,調整預設的標簽分類模型,得到完成調整的標簽分類模型,包括:
8.一種文本處理裝置,其特征在于,所述裝置包括:
9.一種終端設備,其特征在于,所述終端設備包括處理器、存儲器以及存儲于所述存儲器中并可在所述處理器上運行的計算機程序,所述處理器執行所述計算機程序以實現權利要求1至7任一項所述的文本處理方法中的步驟。
10.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質上存儲有計算機程序,所述計算機程序被處理器執行以實現權利要求1至7任一項所述的文本處理方法中的步驟。