麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

一種大語言模型生成中文論文模塊的檢測方法

文檔序號:41735007發布日期:2025-04-25 17:07閱讀:4來源:國知局
一種大語言模型生成中文論文模塊的檢測方法

本發明涉及機器學習與人工智能領域,具體涉及一種大語言模型生成的中文論文模塊的檢測方法。


背景技術:

1、隨著人工智能和機器學習領域的快速發展,大語言模型如gpt、bard、ernie?bot和pangu等已經在自然語言處理(nlp)任務中取得了顯著的成就。這些模型能夠生成與人類編寫的文本幾乎無法區分的內容,包括學術論文。然而,這樣的進展也帶來了一系列問題,由于大語言模型能夠生成高質量的學術論文內容,有人可能利用這一點生成并提交不真實的研究成果,這不僅威脅到學術界的公正性和真實性,還可能導致研究結論不準確及誤導性信息的傳播。面對這樣的問題,目前已經有一批專門進行大語言模型生成內容檢測的模型工具,例如ai?content?detector、gptzero、winston?ai等等。但是這些ai檢測工具不是針對大語言模型生成的中文文本訓練的,沒有考慮到中文文本的結構和語義特點,所以他們多數不能檢測中文,即使可以檢測效果也不如英文文本。

2、針對中文學術論文的大語言模型生成內容檢測目前已經有一些研究,王一博等針對圖書館領域的5本期刊100篇論文的摘要做了基于tfidf特征化技術的分類研究,并進一步分析了摘要長度、句子數量、詞匯特征、常用搭配等維度的區別(ai生成與學者撰寫中文論文摘要的檢測與差異性比較研究[j].情報雜志,2023,42(09):127-134.)。郭鑫等以情報學8本期刊的引言為例,首先分析了各個詞粒度、句粒度和篇章粒度的文本結構特征,融合這些特征和文本向量特征進行多種分類模型的檢測,對分類效果好模型進行可解釋性分析(chatgpt生成中文學術內容分析——以情報學領域為例[j/ol].圖書館論壇:1-12[2023-10-02].https://link.cnki.net/urlid/44.1306.g2.20230921.1040.004)。然而,之前的中文學術論文的大語言模型生成內容檢測研究,由于訓練數據的限制,僅能針對論文的某一特定結構部分進行檢測,導致了僅限于特定模塊檢測的局限性。因此,開發一種能夠準確識別由大語言模型生成的全篇中文學術論文模塊的方法是一個迫切的需求。

3、人文社科類學術論文通常探討社會、文化、哲學、歷史等方面的問題,寫作風格更具敘述性和解釋性,與理工科論文相比可能會使用更多的主觀性和解釋性語言,而對數值數據、圖表和統計分析的依賴較少,大語言模型能夠幫助人文社科領域的研究人員完成更多文字內容。同時,學術論文整體篇幅較長,無法由大語言模型一次性生成,而是需要多次的問答交互生成不同的模塊內容。學術論文主要包含標題、摘要、引言、文獻綜述、方法、討論、結論等常規模塊??紤]到大語言模型生成內容語義連續性、篇幅限制等原因,論文的模塊更有可能由大語言模型整體生成,成為大語言模型生成內容的“重災區”,針對這些模塊內容是否由機器生成進行檢測更具應用價值。


技術實現思路

1、為解決上述技術問題,本發明提供了一種針對大語言模型生成的中文論文模塊,特別是人文社科類學術論文模塊的檢測方法,以準確識別出由大語言模型生成的學術論文模塊。

2、本發明提供的一種大語言模型生成的中文論文模塊的檢測方法,包括以下步驟:

3、1)采集人類撰寫的中文論文模塊樣本數據,并劃分為訓練集、測試集和范例集;

4、2)利用范例集作為參考樣例,通過大語言模型分別針對訓練集和測試集中的論文題目生成相應的論文模塊,獲得大語言模型生成的樣本數據;

5、3)構建領域詞典;

6、4)將步驟1)采集的人類撰寫的樣本數據和步驟2)大語言模型生成的樣本數據整合為三列數據,分別是論文題目、論文模塊和是否由大語言模型生成標識;

7、5)使用自然語言處理工具,加載步驟3)構建的領域詞典,對所有論文模塊的文本內容進行分詞和詞性標注處理;

8、6)對論文模塊進行文本結構特征提取,所述文本結構特征包括篇章粒度、段落粒度、句子粒度和詞匯粒度;

9、7)對論文模塊進行文本向量特征提??;

10、8)選取p種分類算法模型,使用訓練集數據,將文本結構特征和文本向量特征分別作為多維特征輸入,同時以論文模塊是否由大語言模型生成這一變量作為分類標簽進行模型訓練,得到2p個訓練完成的分類模型;

11、9)將測試集數據分別輸入到訓練完成的2p個分類模型,并結合分類標簽分別計算各個分類模型分類準確率,分別用a1、a2……a2p來表示;如果某個分類模型的分類準確率低于設定的r%,則棄用該分類模型,反之則保留該分類模型,從而篩選出q個分類效果較好的模型,其分類準確率分別用b1、b2……bq來表示,其中最高的分類準確率用bmax表示;以r%的準確率為下限使用極值處理法計算得到每個分類模型的權重,公式如下:

12、

13、其中,wi代表第i個分類模型的權重,bi代表第i個分類模型的分類準確率;

14、10)對于待檢測的論文模塊,先根據步驟5)進行分詞和詞性標注處理,然后根據步驟6)和7)分別進行文本結構特征提取和文本向量特征提??;將待檢測論文模塊的文本結構特征和文本向量特征分別輸入到步驟9)保留的q個分類模型中,將模型的輸出分別記為y1、y2……yq,yi代表第i個分類模型的輸出,其取值范圍在0-1之間,“1”標記為大語言模型生成的論文模塊,“0”標記為人類撰寫的論文模塊;如果∑wi*yi>0.5*∑wi,則判定被檢測的論文模塊是由大語言模型生成的,否則判定為人類撰寫的。

15、本發明針對的主要是包括哲學、歷史學、語言學、經濟學、管理學、法學、社會學、人類學、心理學等等在內的人文社科類中文學術論文,所述的論文模塊包括但不限于論文的摘要、引言、結論等模塊。在步驟1)選取收錄人文社科領域論文較全的文獻數據庫作為數據來源,檢索發表時間為近m年的核心期刊論文,并按照被引頻次降序排列,選取排在前面的n篇高被引用論文,提取每篇論文的摘要、引言或結論等模塊。將采集的論文模塊數據劃分成訓練集、測試集和范例集三部分,其中范例集再被劃分為兩部分,分別在步驟2)用于構造針對訓練集和測試集的輸入大語言模型的提示語。例如,采集的n篇高被引用論文中0.6n篇劃為訓練集,0.2n篇劃為測試集,0.2n篇劃為范例集。范例集中的0.15n篇用于訓練集的提示語構造,0.05n篇用于測試集的提示語構造,以保證訓練集和測試集的參考內容不重合,互相不產生干擾。

16、在步驟2)中通過大語言模型,例如gpt、bard、ernie?bot、文心一言等,以來自范例集的論文模塊樣例為參考,根據論文題目生成特定論文模塊的內容。每一個訓練集和測試集中的論文題目都通過大語言模型生成一個論文模塊,此獲得與人類撰寫的樣本數據數量相等的大語言模型生成的樣本數據。

17、步驟3)基于論文的關鍵詞數據構建領域詞典,可以從文獻數據庫批量導出相關領域論文的關鍵詞數據,合并去重后得到領域詞典。

18、步驟4)將人類撰寫的和大語言模型生成的論文模塊整合成三列數據,在第三列用“1”標識大語言模型生成的論文模塊,用“0”標識人類撰寫的論文模塊。在后續的分類模型訓練和應用中,以“1”和“0”作為分類標簽輸出。

19、在步驟5)中,使用自然語言處理工具(如python的jieba包),加載領域詞典,對所有論文模塊文本內容進行分詞和詞性標注處理,將分詞結果標注為名詞、介詞、代詞、助詞、數量詞等,并在分詞的過程中刪除掉所有的標點符號。

20、步驟6)中所述篇章粒度、段落粒度、句子粒度都是基于分詞前的論文模塊文本提取,其中,篇章粒度包括文本長度、時間特征;段落粒度包括平均段落長度、平均段落句子數;句子粒度包括平均句子長度、句子的停頓、長句子占比、句子情感變化程度、平均句子可讀性分數、句子語義相似度;所述詞匯粒度基于分詞后的論文模塊文本提取,包括平均詞匯長度、詞匯多樣性、特定詞性詞匯占比、停用詞的占比。

21、對于每個句子,使用情感類分析工具(例如snownlp等)生成一個情感得分,計算整個論文模塊的情感得分標準差作為情感變化的一個指標,即句子情感變化程度。對所有句子的可讀性分數取平均值得到平均句子可讀性分數,其中,每個句子的可讀性分數可以使用flesch可讀性評分,其計算公式如下:

22、flesch可讀性評分=206.835-(1.015*asl)-(84.6*asw)

23、其中,asl是句子的平均詞數,等于總詞數除以句子數;asw是每個詞的平均音節數,等于總音節數除以總詞數,所述總詞數是指經過分詞處理得到詞匯數量,每一個漢字代表一個音節。

24、在步驟7)選擇一種文本向量特征提取模型,輸入文本內容得到對應的高維向量。

25、文本的向量化表示是一種將文字信息編碼到高維度空間的方法,這樣的表示可以揭示文本中單詞的重要性和其背后的語義。常用的文本向量化模型有doc2vec、elmo和bert等,選用一種文本向量特征提取模型(例如sentencebert基于python的sentencetransformers庫),輸入文本數據到模型中,輸出文本對應的l(例如:768)維向量。這樣,可以將訓練集中的1.2n個論文模塊轉換為一個1.2n×l的二維矩陣,將測試集中的0.4n個論文模塊轉換為0.4n×l的二維矩陣。

26、在步驟8)選取支持向量機、隨機森林、梯度提升機(如xgboost)、多層感知機等p種(優選的,p≥4)經典的分類算法模型。在分類模型的訓練中,為避免過擬合問題,將訓練集數據進一步劃分成訓練集合與驗證集合,并采用k折交叉驗證的方式來進行模型評估指標的計算,計算的指標包括精確率、召回率和f1-score值;在模型首次訓練結果的基礎上,以f1-score值作為超參數選擇的評估指標,通過隨機搜索方法從預定義的超參數范圍中選出表現最優的超參數,對文本結構特征和文本向量特征訓練的模型分別進行一定次數的調優;針對不同的模型需要優化不同的超參數。

27、以“1”標識大語言模型生成的論文模塊,以“0”標識人類撰寫的論文模塊,步驟8)訓練的分類模型輸出的分類標簽就是“1”或“0”。步驟10)中以yi代表第i個分類模型的輸出,其值為1或0,1代表該模型判定輸入論文模塊為大語言模型生成,0代表該模型判定輸入論文模塊為人類撰寫,如果∑wi*yi>0.5*∑wi,則判定被檢測的論文模塊是由大語言模型生成的,否則判定為人類撰寫的。

28、本發明提出一種基于文本結構特征和文本向量特征融合的大語言模型生成的中文論文模塊的檢測方法,可應用于服務器、計算機設備、智能移動終端等等上。與現有的檢測方法相比,本發明的主要創新點和內容如下:

29、1.全面的訓練數據:選取人文社科領域的核心期刊論文作為數據來源,從中國知網等數據庫進行詳細采集,確保樣本的代表性和質量。

30、2.細致的特征構造:從詞匯、句子、段落到篇章不同粒度層次上,提取豐富的結構和語義特征。例如:引入先進的句子向量化方法,捕捉深層次的語義信息;引入情感分析工具構造論文模塊情感變化特征。

31、3.多模型分類訓練與融合:選取多種經典的分類模型進行訓練,如支持向量機、隨機森林

32、和梯度提升機等。通過模型融合技術,結合多個模型的優勢,進一步提高檢測的準確性。

33、4.模型的廣泛應用:本方法不僅限于特定模塊的檢測,而是可以廣泛應用于學術論文的各個結構模塊,具有很高的應用價值。

當前第1頁1 2 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
主站蜘蛛池模板: 禹州市| 开原市| 祁连县| 乌鲁木齐县| 宜州市| 图木舒克市| 社会| 桃园县| 浪卡子县| 新兴县| 双流县| 大名县| 长治市| 浏阳市| 南汇区| 威远县| 安西县| 武川县| 普兰店市| 正安县| 道真| 昌都县| 新津县| 临沂市| 惠东县| 宜宾县| 桦川县| 拉孜县| 东乌珠穆沁旗| 海安县| 安平县| 景泰县| 壤塘县| 郓城县| 普陀区| 玉溪市| 青岛市| 海口市| 奇台县| 巴马| 余江县|