本發明涉及新聞采編,具體涉及一種基于大型語言模型的財經新聞剪輯方法。
背景技術:
1、新聞采編工作是對新聞信息進行認定、采集、加工、制作的過程。新聞采編過程通常包括相應的廣播電視素材錄制、剪輯、新聞稿撰寫、播報以及后期的導播、效果制作等過程。隨著網絡媒體的興起,通常還包括流媒體視頻制作、上傳,以及相應的文字新聞稿制作、排版過程。
2、財經新聞屬于新聞的一個細分類目,側重點是采集、報道、發布財經領域的新聞。財經新聞有廣義和狹義之分。廣義的財經新聞或稱泛經濟新聞,覆蓋全部社會經濟生活和與經濟有關的領域,包括從生產到消費、從城市到農村、從宏觀到微觀、從安全生產到服務質量,從經濟工作到政治、社會生活中的相關領域。狹義的財經新聞,則重點關注資本市場的各項交易活動。由于商業活動本身具有極高的時效性,因此,對于新聞的采編工作也產生了極高的時效性要求。
3、為提高新聞采編工作的效率,現有技術中已存在了部分輔助新聞采編的技術方案。
4、比如,中國專利cn201610154211.x公開了一種互聯網新聞的自動生成方法和裝置,方法包括以下步驟:利用分布式爬蟲從特定的新聞網站抓取新聞頁面的源代碼;分別從各個新聞頁面的源代碼中提取新聞信息,并分別將各個新聞信息封裝成相同結構的結構化新聞;對獲取到的結構化新聞進行識別,得到相互獨立的新聞事件,每個新聞事件中包括多個屬于同一事件的結構化新聞,且同一新聞事件中的每個結構化新聞分別表示不同的事件階段;分別對新聞事件中的每個結構化新聞生成對應的新聞摘要;將新聞事件中的多個結構化新聞以發布時間為條件進行排序,排序后以各個結構化新聞所對應的新聞摘要生成事件脈絡結構。以時間為主線展現完整的新聞事件,讓用戶輕松了解事件的發展過程。
5、再比如,中國專利cn202311353653.3公開了基于智能寫作的自動新聞生成系統。所述系統包括:關鍵詞錄入單元,用于提供給用戶輸入關鍵詞,所述關鍵詞至少包括:時間、地點和事件關鍵詞,并針對輸入的事件關鍵詞進行關鍵詞派生,得到派生事件關鍵詞;新聞核實部分,用于基于時間、地點和派生關鍵詞,進行新聞搜索,以獲取目標新聞,對目標新聞進行文本內容分析,確定關聯關鍵詞,并為每個關聯關鍵詞分配權重;內容生成部分,用于基于每個關聯關鍵詞和其對應的權重,以及時間、地點和派生事件關鍵詞,進行內容生成。實現了個性化、高質量和高效的新聞報道生成,提升了信息傳播的質量和效率。
6、但是,在實際實施過程中,發明人發現,該類技術方案通常僅側重于對單一的文本內容的新聞素材的處理、輔助寫作,而隨著網絡類型媒體的流行,更多的新聞稿是圖文、文字與視頻結合、流媒體的形式進行發出的,現有技術中的技術方案對該類型的新聞素材處理效果不佳。
技術實現思路
1、針對現有技術中存在的上述問題,現提供一種基于大型語言模型的財經新聞剪輯方法。
2、具體技術方案如下:
3、一種基于大型語言模型的財經新聞剪輯方法,包括:
4、步驟s1:針對原始視頻內容,采用混合專家模型進行處理以得到視頻分段信息;
5、步驟s2:根據所述視頻分段信息對所述原始視頻內容進行拆分以得到分段視頻;
6、步驟s3:獲取待處理新聞素材并輸入所述混合專家模型,以得到所述待處理新聞素材的內容摘要;
7、步驟s4:根據所述內容摘要生成文字編輯內容并匹配所述分段視頻形成待組織內容;
8、步驟s5:根據所述待組織內容形成編輯后稿件并輸出。
9、另一方面,所述混合專家模型包括:
10、初始化層,所述初始化層對輸入信息進行向量化表示形成初始化向量;
11、注意力層,所述注意力層連接所述初始化層;
12、所述注意力層針對每個所述初始化向量分別計算相關性并形成向量關聯信息;
13、第一殘差模塊,所述第一殘差模塊的第一輸入端連接所述初始化層,所述第一殘差模塊的第二輸入端連接所述注意力層的輸出端;
14、所述第一殘差模塊根據所述初始化向量的殘差信息與所述向量關聯信息進行疊加形成待處理向量;
15、路由網關,所述路由網關的輸入端連接所述第一殘差模塊的輸出端;
16、所述路由網關的輸出端分別連接多個專家模型;
17、所述路由網關基于控制門機制向所述專家模型分配所述待處理向量;
18、加權融合模塊,所述加權融合模塊的輸入端分別連接每個所述專家模型;
19、所述加權融合模塊根據所述專家模型的輸出概率對所述專家模型的輸出結果進行加權融合得到隱藏狀態張量;
20、第二殘差模塊,所述第二殘差模塊的第一輸入端連接所述第一殘差模塊的輸出端,所述第二殘差模塊的第二輸入端連接所述加權融合模塊的輸出端;
21、所述第二殘差模塊根據所述待處理向量的殘差信息與所述隱藏狀態張量進行疊加后形成模型輸出結果并輸出;
22、所述模型輸出結果為所述內容摘要或所述視頻分段信息。
23、另一方面,于執行所述步驟s1之前,還包括專家模型生成過程,所述專家模型生成過程包括:
24、步驟a1:采集對應于財經新聞的新聞語料并構建財經類數據集;
25、步驟a2:對mixtral模型的詞匯表中嵌入中文語義單元以得到中文調整模型;
26、步驟a3:采用所述財經類數據集對所述中文調整模型進行訓練,于訓練過程中基于lora微調技術對所述中文調整模型進行調整得到預訓練模型;
27、步驟a4:對所述預訓練模型和所述mixtral模型進行參數融合以得到所述專家模型。
28、另一方面,所述步驟s1包括:
29、步驟s11:對所述原始視頻內容分別提取視頻流和音頻流;
30、步驟s12:自所述視頻流中提取畫面起始標識,以及,自所述音頻流中提取音頻起始標識;
31、步驟s13:根據所述畫面起始標識和所述音頻起始標識對所述音頻流和所述視頻流進行對齊得到處理后視頻;
32、步驟s14:將所述音頻流輸入語音轉寫模型以獲得文本內容;
33、步驟s15:對所述文本內容進行語義識別并分段得到分段語義,針對分段語義的每個段落對應的所述音頻流的時間區間,自所述視頻流中分別提取畫面幀,并與所述分段語義組裝得到多模態輸入數據;
34、步驟s16:將所述多模態輸入數據輸入所述混合專家模型處理得到所述視頻分段信息。
35、另一方面,所述視頻分段信息包括:內容密集片段區間、內容主題和內容重要性得分;
36、所述步驟s2包括:
37、步驟s21:自所述原始視頻內容中根據所述內容密集片段區間提取預裁切內容;
38、步驟s22:根據音頻流的音量幅值間隔對所述預裁切內容的節點進行偏移,以形成修正視頻內容;
39、步驟s23:根據所述內容主題和所述內容重要性得分對所述修正視頻內容進行標注以形成所述分段視頻。
40、另一方面,所述步驟s3包括:
41、步驟s31:對所述待處理新聞素材進行預處理以得到預處理信息;
42、步驟s32:對所述預處理信息進行分類以添加分類標注信息;
43、步驟s33:將所述分類標注信息輸入所述混合專家模型以得到所述內容摘要。
44、另一方面,所述步驟s31包括:
45、步驟s311:對所述待處理新聞素材中的噪聲信息進行識別并去除得到去噪信息;
46、步驟s312:對所述去噪信息進行格式化處理得到所述預處理信息;
47、所述格式化處理包括統一編碼格式和大小寫轉換。
48、另一方面,于執行所述步驟s3之前還包括新聞采集過程,所述新聞采集過程包括:
49、步驟b1:自目標網站采用爬蟲軟件獲取原始網頁數據;
50、步驟b2:自所述原始網頁數據中提取所述原始新聞素材。
51、另一方面,所述步驟s4包括:
52、步驟s41:根據所述內容摘要生成語義向量;
53、步驟s42:基于所述語義向量對所述待處理新聞素材進行提取以獲取關聯段落并編輯得到所述文字編輯內容,以及,基于所述語義向量對素材庫進行查找,以獲得匹配的所述分段視頻;
54、步驟s43:根據所述文字編輯內容和所述分段視頻生成所述待組織內容。
55、另一方面,所述步驟s5包括:
56、步驟s51:根據所述內容摘要查找對應的新聞模板;
57、步驟s52:于所述新聞模板中填充所述文字編輯內容和所述分段視頻以形成所述編輯后稿件。
58、上述技術方案具有如下優點或有益效果:
59、針對現有技術中的新聞輔助處理方案僅能夠處理文字類的新聞內容,對涉及視頻素材的新聞內容處理效果不佳的問題,本方案中,引入了基于混合專家模型的新聞剪輯方法,具體來說,針對原始視頻內容,首先通過混合專家模型進行處理提取視頻分段信息并進行拆分,得到對應于不同表達語義的分段視頻,在此基礎之上將待處理的文字的新聞素材輸入至混合專家模型中,從而提取內容摘要,并匹配分段視頻進行組織,最終得到新聞稿件并進行發出,提高了對多媒體類新聞的處理效率。