麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

一種半監督聚類方法及其開放題回答文本編碼方法

文檔序號:41223824發布日期:2025-03-11 14:02閱讀:40來源:國知局
一種半監督聚類方法及其開放題回答文本編碼方法

本發明涉及數據表示,尤其涉及一種半監督聚類方法及其開放題回答文本編碼方法。


背景技術:

1、半監督聚類已經逐漸成為機器學習等領域的研究熱點,其應用涉及道路檢測、圖像分類、信息檢索、語音識別、生物信息學、醫療保健學等多個領域,例如,醫學保健學上醫護人員通常會給患者群體提供一些開放題,患者群體的開放題回答文本千奇百怪,此時可以通過半監督聚類方法對患者群體的開放題回答文本進行聚類分析,以減輕醫護人員的工作負擔和避免出錯,提高開放題回答文本的處理效率和質量,輔助醫護人員準確了解患者群體的情況。但現有的半監督聚類方法(例如dbscan、optics、denpeak和denclue等)大部分僅從空間距離上或者拓撲關系上表示密度,在密度變化較大的數據集中表現較差,且只能根據已給的先驗標簽進行擴張而無法發現無標簽的新類別。

2、因此,亟需一種新的半監督聚類方法及其開放題回答文本編碼方法。


技術實現思路

1、本發明提供一種半監督聚類方法,用以解決現有的半監督聚類方法的聚類精度較差的缺陷。

2、本發明提供一種開放題回答文本編碼方法,用以通過新的半監督聚類方法實現開放題回答文本的快速編碼,輔助準確了解被訪群體的真實想法,提高數據處理的效率和質量。

3、本發明提供的一種半監督聚類方法,包括:

4、獲取待聚類數據集以及基于待聚類數據集得到的有標簽數據集和無標簽數據集;

5、將待聚類數據集映射為空間密度圖和/或拓撲密度圖;

6、根據空間密度圖和/或拓撲密度圖,利用有標簽數據集和無標簽數據集,將待聚類數據集中的數據聚類為若干聚類簇,其中,每個聚類簇中的每個數據均具有聚類標簽,聚類標簽為有標簽數據集中任一數據的標簽或與有標簽數據集中所有數據的標簽均不相同的新標簽。

7、根據本發明提供的一種半監督聚類方法,所述將待聚類數據集映射為空間密度圖和/或拓撲密度圖,包括:

8、對待聚類數據集中的任意一數據點i,得到其空間鄰點集和拓撲鄰點集;

9、基于待聚類數據集每個數據點的空間鄰點集和拓撲鄰點集,對待聚類數據集中的任意兩個數據點i、j,判定任意兩個數據點i、j之間是否鄰接和鄰接類型,并得到任意兩個數據點i、j之間的密度路徑集,以及判定任意兩個數據點i、j之間是否密度可達和密度可達類型,并得到任意兩個數據點i、j之間的密度距離;

10、基于待聚類數據集中任意兩個數據點i、j之間的密度距離,將待聚類數據集映射為空間密度圖和/或拓撲密度圖。

11、根據本發明提供的一種半監督聚類方法,?空間鄰點集的表達式為:

12、,

13、式中,表示在待聚類數據集中以任意一數據點i為中心,半徑為d的領域內所包含的待聚類數據集中的數據子集,表示待聚類數據集中數據點i和數據點j之間的距離;

14、拓撲鄰點集的表達式為:

15、,

16、式中,表示待聚類數據集中任意一數據點i的前k個最近鄰,表示待聚類數據集中數據點i和數據點j之間的距離,表示數據點i距離第k近鄰點的距離。

17、根據本發明提供的一種半監督聚類方法,所述基于待聚類數據集每個數據點的空間鄰點集和拓撲鄰點集,對待聚類數據集中的任意兩個數據點i、j,判定任意兩個數據點i、j之間是否鄰接和鄰接類型,并得到任意兩個數據點i、j之間的密度路徑集,以及判定任意兩個數據點i、j之間是否密度可達和密度可達類型,并得到任意兩個數據點i、j之間的密度距離,包括:

18、基于待聚類數據集每個數據點的空間鄰點集和拓撲鄰點集,根據鄰接判定條件,對待聚類數據集中的任意兩個數據點i、j,判定任意兩個數據點i、j之間是否鄰接和鄰接類型,其中,鄰接判定條件包括:對于待聚類數據集中任意兩個數據點i、j,若,則判定數據點i空間鄰接數據點j,記為,若,則判定數據點i拓撲鄰接數據點j,記為;

19、基于待聚類數據集每個數據點的空間鄰點集和拓撲鄰點集,根據密度路徑判定條件,對待聚類數據集中的任意兩個數據點i、j,得到任意兩個數據點i、j之間的密度路徑集,其中,密度路徑判定條件包括:對于待聚類數據集中任意兩個數據點i、j,若存在一個數據點的序列,使得,且,則稱為從數據點i到數據點j的一條空間密度路徑,對于待聚類數據集中任意兩個數據點i、j,若存在一個數據點的序列,使得,且,則判定為從數據點i到數據點j的一條拓撲密度路徑,以及待聚類數據集中數據點i到數據點j的空間密度路徑集記為,待聚類數據集中數據點i到數據點j的空間密度路徑集記為;

20、基于待聚類數據集中任意兩個數據點i、j之間的密度路徑集,根據密度可達判定條件,判定待聚類數據集中任意兩個數據點i、j之間是否密度可達和密度可達類型,其中,密度可達判定條件包括:在待聚類數據集中,若從數據點i到數據點j的空間密度路徑集非空,則判定數據點i空間密度可達數據點j,記作,若從數據點i到數據點j的拓撲密度路徑集非空,則判定數據點i拓撲密度可達數據點j,記作;

21、基于待聚類數據集每個數據點的空間鄰點集和拓撲鄰點集以及待聚類數據集中任意兩個數據點i、j之間的是否鄰接和鄰接類型、密度路徑集、是否密度可達和密度可達類型,根據超參數d和k,得到任意兩個數據點i、j之間的密度距離,其中,密度距離包括空間密度距離和拓撲密度距離,空間密度距離的表達式為:,式中,表示使數據點i空間密度可達數據點j的最小d,拓撲密度距離的表達式為:,式中,使數據點i拓撲密度可達數據點j的最小k。

22、根據本發明提供的一種半監督聚類方法,空間密度圖的表達式為:

23、,

24、式中,表示空間密度圖的頂點集表示空間密度圖的邊權重,鄰接矩陣,表示圖中的頂點,表示邊;

25、拓撲密度圖的表達式為:

26、,

27、式中,表示拓撲密度圖的頂點集,表示拓撲密度圖的邊權重,鄰接矩陣,表示圖中的頂點,表示邊。

28、根據本發明提供的一種半監督聚類方法,所述根據空間密度圖和/或拓撲密度圖,利用有標簽數據集和無標簽數據集,將待聚類數據集中的數據聚類為若干聚類簇,包括:

29、根據空間密度圖或拓撲密度圖,利用有標簽數據集和無標簽數據集進行初始化、圖分割、標簽傳播,將待聚類數據集中的數據聚類為若干聚類簇;或,

30、根據空間密度圖和拓撲密度圖,利用有標簽數據集和無標簽數據集進行初始化、圖分割、圖合并、標簽傳播,將待聚類數據集中的數據聚類為若干聚類簇。

31、根據本發明提供的一種半監督聚類方法,所述根據空間密度圖和拓撲密度圖,利用有標簽數據集和無標簽數據集進行初始化、圖分割、圖合并、標簽傳播,將待聚類數據集中的數據聚類為若干聚類簇包括:

32、利用有標簽數據集和無標簽數據集作為總樣本集對空間密度圖和拓撲密度圖進行初始化;

33、結合有標簽數據集,對初始化后的空間密度圖和拓撲密度圖進行相同的循環操作,得到分割后的空間密度圖和拓撲密度圖:在達到預設停止條件之前循環切斷密度圖的最長邊,將密度圖分割為多個連通子圖,其中,每個子圖只有兩種可能,一是該子圖是無先驗標簽的新簇,二是該子圖屬于其唯一取值標簽的簇;

34、將分割后的空間密度圖和拓撲密度圖合并為一張新圖,其中,新圖的頂點集為空間密度圖的頂點集和拓撲密度圖的頂點集的并集,新圖的邊集為空間密度圖的邊集和拓撲密度圖的邊集的交集;

35、根據標簽傳播條件,對新圖內的所有數據點賦予聚類標簽,其中,標簽傳播條件包括:對于有唯一取值標簽的子圖,將子圖內所有數據點均賦予該唯一取值標簽作為聚類標簽,對于所有數據點均無標簽的子圖,取一不同于有標簽數據集內任一標簽的新標簽作為聚類標簽,將子圖內所有數據點均賦予該新標簽。

36、本發明還提供的一種開放題回答文本編碼方法,包括:

37、獲取待編碼的開放題回答文本數據集以及基于待編碼的開放題回答文本數據集得到的有標簽開放題回答文本數據集和無標簽開放題回答文本數據集,其中,有標簽開放題回答文本數據集中數據的標簽為回答類型;

38、根據待編碼的開放題回答文本數據集、有標簽開放題回答文本數據集和無標簽開放題回答文本數據集,通過上述任一項所述的半監督聚類方法,將待編碼的開放題回答文本數據集聚類為若干聚類簇,其中,每個聚類簇中的每個開放題回答文本均具有聚類標簽;

39、根據待編碼的開放題回答文本數據集中每個開放題回答文本的聚類標簽,對待編碼的開放題回答文本數據集中的每個開放題回答文本進行編碼。

40、本發明還提供一種開放題回答文本編碼系統,包括:

41、數據獲取模塊,用于:獲取待編碼的開放題回答文本數據集以及基于待編碼的開放題回答文本數據集得到的有標簽開放題回答文本數據集和無標簽開放題回答文本數據集,其中,有標簽開放題回答文本數據集中數據的標簽為回答類型;

42、聚類模塊,用于:根據待編碼的開放題回答文本數據集、有標簽開放題回答文本數據集和無標簽開放題回答文本數據集,通過上述任一項所述的半監督聚類方法,將待編碼的開放題回答文本數據集聚類為若干聚類簇,其中,每個聚類簇中的每個開放題回答文本均具有聚類標簽;

43、編碼模塊,用于:根據待編碼的開放題回答文本數據集中每個開放題回答文本的聚類標簽,對待編碼的開放題回答文本數據集中的每個開放題回答文本進行編碼。

44、本發明還提供一種電子設備,包括處理器和存儲有計算機程序的存儲器,所述處理器執行所述計算機程序時實現上述任一種所述的半監督聚類方法和/或開放題回答文本編碼方法。

45、本發明還提供一種非暫態計算機可讀存儲介質,其上存儲有計算機程序,該計算機程序被處理器執行時實現上述任一種所述的半監督聚類方法和/或開放題回答文本編碼方法。

46、本發明還提供一種計算機程序產品,所述計算機程序產品包括計算機程序,計算機程序可存儲在非暫態計算機可讀存儲介質上,所述計算機程序被處理器執行時,計算機能夠執行上述任一種所述的半監督聚類方法和/或開放題回答文本編碼方法。

47、本發明提供的一種半監督聚類方法,綜合拓撲距離與空間距離,定義新的密度距離,改善現有方法僅從拓撲距離或空間距離的某一角度考慮的局限性,新的密度距離能夠更全面地反映點的密度屬性,同時在密度不均勻的數據上有較好的表現;聚類分析時不僅可以選用空間密度圖與拓撲密度圖結合,還可以只使用其中之一,可以根據數據集的具體情況選擇,使用上更靈活、限制更少;采用圖分割的聚類方法,相比于現有半監督密度聚類的生成樹方法時間復雜度更低、效率更高,從根本上解決生成樹方法不能發現新類的問題。

48、本發明提供的一種開放題回答文本編碼方法,基于新的半監督聚類方法對開放題回答文本數據進行高效和高精度的聚類分析,在只需要少量先驗知識的情況下能夠發現新類,在對開放題回答文本數據進行準確的聚類后,可以對每一類的開放題回答文本提取關鍵詞進行編碼,便于快速、準確地了解被訪群體的情況,提高數據處理效率和質量。

當前第1頁1 2 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
主站蜘蛛池模板: 拜泉县| 化隆| 中西区| 杭锦后旗| 册亨县| 宣城市| 甘南县| 平遥县| 油尖旺区| 陆丰市| 达州市| 华安县| 济源市| 昌邑市| 卢龙县| 太湖县| 吴旗县| 商南县| 荆州市| 郸城县| 德格县| 万源市| 永吉县| 中西区| 祁东县| 东城区| 永康市| 依兰县| 蕉岭县| 华阴市| 贺兰县| 香河县| 兰西县| 盘山县| 大渡口区| 涿州市| 句容市| 郯城县| 浠水县| 峨眉山市| 甘泉县|