本申請中實施方式涉及大模型,特別涉及一種訓(xùn)練樣本的生成方法、裝置、設(shè)備、介質(zhì)及程序產(chǎn)品。
背景技術(shù):
::1、在人工智能和機器學(xué)習(xí)領(lǐng)域,訓(xùn)練樣本的質(zhì)量和數(shù)量直接影響模型的性能和泛化能力。尤其是針對專業(yè)領(lǐng)域,例如,醫(yī)療、金融、法律等領(lǐng)域,由于領(lǐng)域的專業(yè)度較高,為提升應(yīng)用于這些領(lǐng)域的專用大模型的輸出性能,往往需要利用這些領(lǐng)域的專業(yè)語料庫對通用大模型進行監(jiān)督微調(diào)(supervised?fine-tuning,sft)。2、以醫(yī)療大模型的監(jiān)督微調(diào)為例,由于醫(yī)療大模型的輸出可能對用戶的身體健康產(chǎn)生一定影響,為提升醫(yī)療大模型的輸出的知識準確性,通常基于經(jīng)過校對的書籍和診療指南等資料生成醫(yī)療大模型的訓(xùn)練樣本。而上述資料主要以pdf(portable?documentformat,便攜式文檔格式)文件或紙質(zhì)書籍等固定內(nèi)容形式保存,為實現(xiàn)對上述資料的有效利用,需要對pdf文件或紙質(zhì)書籍中包含的信息進行提取,得到易于計算設(shè)備編輯的文本數(shù)據(jù),再基于提取出的文本數(shù)據(jù)生成醫(yī)療大模型的訓(xùn)練樣本。3、然而,研發(fā)人員在專用大模型的實際訓(xùn)練過程中發(fā)現(xiàn),基于現(xiàn)有技術(shù)提取得到的文本數(shù)據(jù)生成的訓(xùn)練樣本對專用大模型的訓(xùn)練效果不佳,訓(xùn)練出的專用大模型的輸出性能難以滿足專業(yè)領(lǐng)域要求。技術(shù)實現(xiàn)思路1、有鑒于此,本申請多個實施方式致力于提供一種訓(xùn)練樣本的生成方法、裝置、設(shè)備、介質(zhì)及程序產(chǎn)品,以提升專業(yè)領(lǐng)域的專用大模型的訓(xùn)練效果。2、本申請的一個實施方式提供一種訓(xùn)練樣本的生成方法,所述方法包括:從固定內(nèi)容文件中識別得出文本數(shù)據(jù)段;基于所述文本數(shù)據(jù)段和所述固定內(nèi)容文件調(diào)用多模態(tài)大模型,生成所述固定內(nèi)容文件對應(yīng)的目錄數(shù)據(jù);其中,所述目錄數(shù)據(jù)包括與文本數(shù)據(jù)段對應(yīng)的目錄項;所述目錄項用于指示文本數(shù)據(jù)段的位置;依照所述目錄項排列所述文本數(shù)據(jù)段得到所述固定內(nèi)容文件對應(yīng)的目標文本數(shù)據(jù);其中,所述固定內(nèi)容文件和所述目標文本數(shù)據(jù)形成所述訓(xùn)練樣本。3、本申請的一個實施方式提供一種訓(xùn)練樣本的生成裝置,所述裝置包括:識別模塊,用于從固定內(nèi)容文件中識別得出文本數(shù)據(jù)段;生成模塊,用于基于所述文本數(shù)據(jù)段和所述固定內(nèi)容文件調(diào)用多模態(tài)大模型,生成所述固定內(nèi)容文件對應(yīng)的目錄數(shù)據(jù);其中,所述目錄數(shù)據(jù)包括與文本數(shù)據(jù)段對應(yīng)的目錄項;所述目錄項用于指示文本數(shù)據(jù)段的位置;排列模塊,用于依照所述目錄項排列所述文本數(shù)據(jù)段得到所述固定內(nèi)容文件對應(yīng)的目標文本數(shù)據(jù);其中,所述固定內(nèi)容文件和所述目標文本數(shù)據(jù)形成所述訓(xùn)練樣本。4、本申請的一個實施方式提供一種計算機設(shè)備,所述計算機設(shè)備包括存儲器及處理器,所述存儲器中存儲有至少一條計算機程序,所述至少一條計算機程序由所述處理器加載并執(zhí)行,以實現(xiàn)如前述的訓(xùn)練樣本的生成方法。5、本申請的一個實施方式提供一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)中存儲有至少一條計算機程序,所述至少一條計算機程序被處理器執(zhí)行時能夠?qū)崿F(xiàn)如前述的訓(xùn)練樣本的生成方法。6、本申請的一個實施方式提供一種計算機程序產(chǎn)品,計算機程序產(chǎn)品用于實現(xiàn)如前述的訓(xùn)練樣本的生成方法。7、在本申請?zhí)峁┑亩鄠€實施方式中,基于固定內(nèi)容文件以及從固定內(nèi)容文件中識別得出的文本數(shù)據(jù)段調(diào)用多模態(tài)大模型,利用多模態(tài)大模型生成固定內(nèi)容文件對應(yīng)的目錄數(shù)據(jù),其中,目錄數(shù)據(jù)包括用于指示文本數(shù)據(jù)段的位置的目錄項,再依照目錄項排列文本數(shù)據(jù)段,得到固定內(nèi)容文件和對應(yīng)的目標文本數(shù)據(jù),通過固定內(nèi)容文件和相應(yīng)的目標文本數(shù)據(jù)形成訓(xùn)練樣本。如此,可以先利用多模態(tài)大模型生成用于對固定內(nèi)容文件包含的文本信息進行層級劃分的目錄數(shù)據(jù),再依據(jù)目錄數(shù)據(jù)排列與該文本信息對應(yīng)的文本數(shù)據(jù)段,由固定內(nèi)容文件和具有層級結(jié)構(gòu)的目標文本數(shù)據(jù)形成訓(xùn)練樣本,提升了對專業(yè)領(lǐng)域的專用大模型的訓(xùn)練效果。技術(shù)特征:1.一種訓(xùn)練樣本的生成方法,其特征在于,所述方法包括:2.根據(jù)權(quán)利要求1所述的方法,其特征在于,從固定內(nèi)容文件中識別得出文本數(shù)據(jù)段的步驟,包括:3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述文本數(shù)據(jù)段包括多種類型;所述方法還包括:4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括:5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述固定內(nèi)容文件包括多個內(nèi)容頁;將文本數(shù)據(jù)段的段首句子向量表示,與另一文本數(shù)據(jù)段的段尾句子向量表示進行向量匹配,得出存在連續(xù)上下文關(guān)系的文本數(shù)據(jù)段的步驟,包括:6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述方法還包括:7.一種訓(xùn)練樣本的生成裝置,其特征在于,包括:8.一種計算機設(shè)備,其特征在于,所述計算機設(shè)備包括存儲器及處理器,所述存儲器中存儲有至少一條計算機程序,所述至少一條計算機程序由所述處理器加載并執(zhí)行,以實現(xiàn)如權(quán)利要求1至6中任一項所述的訓(xùn)練樣本的生成方法。9.一種計算機可讀存儲介質(zhì),其特征在于,所述計算機可讀存儲介質(zhì)中存儲有至少一條計算機程序,所述至少一條計算機程序被處理器執(zhí)行時能夠?qū)崿F(xiàn)如權(quán)利要求1至6中任一項所述的訓(xùn)練樣本的生成方法。10.一種計算機程序產(chǎn)品,其特征在于,計算機程序產(chǎn)品用于實現(xiàn)如權(quán)利要求1至6中任一項所述的訓(xùn)練樣本的生成方法。技術(shù)總結(jié)本申請實施方式提供了一種訓(xùn)練樣本的生成方法、裝置、設(shè)備、介質(zhì)及程序產(chǎn)品。所述方法包括:從固定內(nèi)容文件中識別得出文本數(shù)據(jù)段;基于所述文本數(shù)據(jù)段和所述固定內(nèi)容文件調(diào)用多模態(tài)大模型,生成所述固定內(nèi)容文件對應(yīng)的目錄數(shù)據(jù);其中,所述目錄數(shù)據(jù)包括與文本數(shù)據(jù)段對應(yīng)的目錄項;所述目錄項用于指示文本數(shù)據(jù)段的位置;依照所述目錄項排列所述文本數(shù)據(jù)段得到所述固定內(nèi)容文件對應(yīng)的目標文本數(shù)據(jù);其中,所述固定內(nèi)容文件和所述目標文本數(shù)據(jù)形成所述訓(xùn)練樣本。訓(xùn)練樣本的生成方法、裝置、設(shè)備、介質(zhì)及程序產(chǎn)品可以實現(xiàn)對固定內(nèi)容文件包含的文本信息的結(jié)構(gòu)化處理,增強訓(xùn)練樣本的結(jié)構(gòu)化程度,提升專業(yè)領(lǐng)域的專用大模型的訓(xùn)練效果。技術(shù)研發(fā)人員:董哲,吳正清,馬朋坤,張雅婷受保護的技術(shù)使用者:阿里健康科技(杭州)有限公司技術(shù)研發(fā)日:技術(shù)公布日:2025/4/28