本發(fā)明涉及搜索引擎,具體涉及一種增強(qiáng)型ai搜索系統(tǒng)。
背景技術(shù):
1、傳統(tǒng)的搜索引擎作為互聯(lián)網(wǎng)的重要組成部分,極大地改變了人們獲取信息的方式。從最初的簡(jiǎn)單關(guān)鍵詞匹配到現(xiàn)在的基于語義理解的智能搜索,搜索引擎經(jīng)歷了巨大的變革。然而,在快速發(fā)展的同時(shí),搜索引擎也面臨著一些挑戰(zhàn),這些挑戰(zhàn)主要來自于用戶需求的變化和技術(shù)上的限制。
2、用戶通常希望能在短時(shí)間內(nèi)找到所需的信息,因此他們傾向于瀏覽搜索結(jié)果頁面的前幾條記錄。隨著大數(shù)據(jù)和機(jī)器學(xué)習(xí)技術(shù)的應(yīng)用,搜索引擎能夠根據(jù)用戶的搜索歷史和偏好提供個(gè)性化的推薦結(jié)果,用戶也越來越依賴這些推薦。但是,這種推薦機(jī)制有時(shí)也會(huì)導(dǎo)致“信息繭房”效應(yīng),即用戶接收到的信息范圍越來越狹窄,因?yàn)橄到y(tǒng)總是傾向于展示與用戶過往行為相似的內(nèi)容,這可能影響用戶獲取全面信息的能力。
3、另外,盡管搜索引擎已經(jīng)相當(dāng)成熟,但用戶在使用過程中仍然會(huì)遇到不少問題。首先,面對(duì)海量的信息,用戶往往難以篩選出最相關(guān)的內(nèi)容,這種信息過載現(xiàn)象讓許多用戶感到困擾。其次,商業(yè)廣告可能會(huì)占據(jù)搜索結(jié)果中的顯著位置,影響用戶的搜索體驗(yàn)。再者,由于搜索引擎依賴于大數(shù)據(jù)分析來進(jìn)行推薦,這種機(jī)制可能會(huì)導(dǎo)致用戶在搜索時(shí)遇到不相關(guān)的結(jié)果,從而影響用戶的檢索質(zhì)量和效率。
4、雖然傳統(tǒng)搜索引擎在很多方面取得了進(jìn)步,但仍有許多待改進(jìn)的地方。隨著技術(shù)的進(jìn)步和用戶需求的不斷變化,搜索引擎需要不斷創(chuàng)新,才能更好地滿足用戶的需求。
技術(shù)實(shí)現(xiàn)思路
1、針對(duì)現(xiàn)有技術(shù)的不足,本發(fā)明旨在提供一種增強(qiáng)型ai搜索系統(tǒng)。
2、為了實(shí)現(xiàn)上述目的,本發(fā)明采用如下技術(shù)方案:
3、一種增強(qiáng)型ai搜索系統(tǒng),包括交互模塊、近似推薦問題生成模塊、檢索模塊和總結(jié)反饋模塊;
4、交互模塊用于提供查詢交互界面,用戶通過查詢交互界面輸入查詢問題以及獲得檢索結(jié)果;
5、近似推薦問題生成模塊用于根據(jù)用戶輸入的查詢問題,生成近似的推薦問題,并將生成的近似的推薦問題發(fā)送至檢索模塊;
6、檢索模塊用于根據(jù)用戶輸入的查詢問題和/或近似推薦問題生成模塊生成的近似的推薦問題,利用搜索引擎進(jìn)行內(nèi)容檢索;
7、總結(jié)反饋模塊用于接收檢索模塊的檢索結(jié)果,并利用生成式ai模型一生成檢索總結(jié)并返回交互模塊。
8、進(jìn)一步地,所述交互模塊為用戶提供查詢模式的選擇,包括簡(jiǎn)單和深度;如果用戶選擇的查詢模式為簡(jiǎn)單模式,交互模塊直接將查詢問題發(fā)送給檢索模塊進(jìn)行,否則將查詢問題發(fā)送給近似推薦問題生成模塊進(jìn)一步生成近似的推薦問題。
9、進(jìn)一步地,所述交互模塊還為用戶提供查詢類型的選項(xiàng),包括全網(wǎng)查詢和學(xué)術(shù)查詢,當(dāng)用戶選擇全網(wǎng)查詢時(shí),檢索模塊利用綜合搜索引擎進(jìn)行綜合檢索,當(dāng)用戶選擇學(xué)術(shù)查詢時(shí),檢索模塊則利用學(xué)術(shù)搜索引擎進(jìn)行檢索。
10、進(jìn)一步地,近似推薦問題生成模塊通過使用生成式ai模型二生成與原始查詢問題近似的推薦問題。
11、進(jìn)一步地,所述檢索模塊接入多個(gè)搜索引擎的服務(wù),并且并行地向所有符合查詢類型要求的搜索引擎發(fā)送查詢請(qǐng)求。
12、進(jìn)一步地,所述總結(jié)反饋模塊在生成檢索總結(jié)前,先對(duì)各個(gè)搜索引擎得到的檢索結(jié)果進(jìn)行如下預(yù)處理:
13、去重處理:由于同一個(gè)查詢問題可能在不同的搜索引擎中返回相同的檢索結(jié)果,總結(jié)反饋模塊對(duì)檢索結(jié)果中相同的鏈接地址進(jìn)行去重,以消除重復(fù)內(nèi)容;
14、內(nèi)容檢測(cè):去重后,總結(jié)反饋模塊采用正則匹配的方式對(duì)檢索結(jié)果進(jìn)行內(nèi)容檢測(cè)和過濾;
15、檢索結(jié)果校驗(yàn):總結(jié)反饋模塊檢查每個(gè)請(qǐng)求的響應(yīng),如果請(qǐng)求在設(shè)定的超時(shí)時(shí)間內(nèi)返回了200ok的狀態(tài)碼,表示鏈接有效;如果請(qǐng)求超時(shí)或返回了錯(cuò)誤狀態(tài)碼,則認(rèn)為鏈接無效。
16、更進(jìn)一步地,總結(jié)反饋模塊對(duì)預(yù)處理后的檢索結(jié)果進(jìn)行后處理:
17、(1)內(nèi)容分割:將鏈接的頁面內(nèi)容按設(shè)定的第一字?jǐn)?shù)劃分為多個(gè)短路,每個(gè)段落之間預(yù)留設(shè)定的第二字?jǐn)?shù)作為上下文過渡,以確保內(nèi)容的連貫性和完整性;
18、(2)向量化處理:使用嵌入模型將每個(gè)段落進(jìn)行向量化;
19、(3)相似度計(jì)算:計(jì)算原始查詢問題的向量與步驟(2)得到的每個(gè)段落的向量之間的余弦相似度;
20、(4)結(jié)果排序:根據(jù)計(jì)算得到的相似度得分對(duì)各個(gè)段落進(jìn)行排序,并選擇得分最高的前n個(gè)段落作為最終檢索結(jié)果。
21、更進(jìn)一步地,所述總結(jié)反饋模塊通過生成式ai模型一,結(jié)合后處理得到的最終檢索結(jié)果,依據(jù)不同的查詢模式采用不同的生成策略來生成檢索總結(jié),以適應(yīng)用戶的具體需求;所述生成式ai模型一部署在第三方服務(wù)器上,所述總結(jié)反饋模塊集成生成式ai模型一的接口,以實(shí)現(xiàn)生成式ai模型一的遠(yuǎn)程調(diào)用,總結(jié)反饋模塊利用服務(wù)器發(fā)送事件sse機(jī)制支持流式響應(yīng)返回,當(dāng)用戶發(fā)起一個(gè)查詢請(qǐng)求時(shí),總結(jié)反饋模塊開始逐步返回檢索總結(jié),而不需要等到整個(gè)檢索過程完成。
22、更進(jìn)一步地,所述檢索模塊將各個(gè)搜索引擎檢索得到的網(wǎng)頁信息以及文檔存儲(chǔ)到文檔檢索庫,所述檢索模塊接收到查詢問題或推薦問題時(shí),同步根據(jù)用戶輸入的檢索問題在文檔檢索庫中的檢索出對(duì)應(yīng)的響應(yīng)結(jié)果;
23、文檔檢索庫先對(duì)接收到的網(wǎng)頁信息以及文檔進(jìn)行解析,然后對(duì)解析得到的內(nèi)容進(jìn)行預(yù)處理,對(duì)于非結(jié)構(gòu)化文本,采用規(guī)則切割的方式,將文本內(nèi)容分割成更小的塊,并在塊之間保留一定量的文本重疊,以提高檢索的準(zhǔn)確性;對(duì)于結(jié)構(gòu)化文本,按文本的組織結(jié)構(gòu)和層級(jí)邏輯進(jìn)行分割;最后將預(yù)處理后的文檔內(nèi)容轉(zhuǎn)換成文檔向量并存儲(chǔ)在文檔檢索庫中。
24、進(jìn)一步地,檢索模塊在文檔檢索庫中進(jìn)行檢索的過程具體包括查詢處理、向量匹配和逆向排名融合:檢索模塊將原始查詢問題和推薦問題構(gòu)成一個(gè)問題列表,對(duì)問題列表中的每個(gè)問題分別在文檔檢索庫中進(jìn)行匹配,分別召回與目標(biāo)問題最相似的n個(gè)文檔向量,最后檢索模塊采用rrf算法來合并不同問題的召回結(jié)果;rrf算法通過加權(quán)文檔向量在不同問題的召回結(jié)果中的排名來計(jì)算每個(gè)文檔向量的綜合分?jǐn)?shù),然后根據(jù)每個(gè)文檔向量的綜合分?jǐn)?shù),對(duì)所有問題的召回結(jié)果中的文檔向量進(jìn)行綜合排序,去除重復(fù)的文檔向量,確保每個(gè)文檔只出現(xiàn)一次,并過濾掉得分低于設(shè)定相似度閾值的文檔向量,以提高結(jié)果的質(zhì)量,最終實(shí)現(xiàn)合并不同問題的召回結(jié)果;最后,總結(jié)反饋模塊調(diào)用語言模型,將最終的召回結(jié)果生成詳細(xì)且連貫的響應(yīng)內(nèi)容并返回至交互模塊,供用戶查看。
25、本發(fā)明的有益效果在于:利用本發(fā)明的增強(qiáng)型ai搜索系統(tǒng),可以提升搜索的智能化、個(gè)性化和高效化,提高檢索結(jié)果的準(zhǔn)確性,為用戶提高更好的信息檢索服務(wù)。
1.一種增強(qiáng)型ai搜索系統(tǒng),其特征在于,包括交互模塊、近似推薦問題生成模塊、檢索模塊和總結(jié)反饋模塊;
2.根據(jù)權(quán)利要求1所述的增強(qiáng)型ai搜索系統(tǒng),其特征在于,所述交互模塊為用戶提供查詢模式的選擇,包括簡(jiǎn)單和深度;如果用戶選擇的查詢模式為簡(jiǎn)單模式,交互模塊直接將查詢問題發(fā)送給檢索模塊進(jìn)行,否則將查詢問題發(fā)送給近似推薦問題生成模塊進(jìn)一步生成近似的推薦問題。
3.根據(jù)權(quán)利要求1所述的增強(qiáng)型ai搜索系統(tǒng),其特征在于,所述交互模塊還為用戶提供查詢類型的選項(xiàng),包括全網(wǎng)查詢和學(xué)術(shù)查詢,當(dāng)用戶選擇全網(wǎng)查詢時(shí),檢索模塊利用綜合搜索引擎進(jìn)行綜合檢索,當(dāng)用戶選擇學(xué)術(shù)查詢時(shí),檢索模塊則利用學(xué)術(shù)搜索引擎進(jìn)行檢索。
4.根據(jù)權(quán)利要求1所述的增強(qiáng)型ai搜索系統(tǒng),其特征在于,近似推薦問題生成模塊通過使用生成式ai模型二生成與原始查詢問題近似的推薦問題。
5.根據(jù)權(quán)利要求1所述的增強(qiáng)型ai搜索系統(tǒng),其特征在于,所述檢索模塊接入多個(gè)搜索引擎的服務(wù),并且并行地向所有符合查詢類型要求的搜索引擎發(fā)送查詢請(qǐng)求。
6.根據(jù)權(quán)利要求1所述的增強(qiáng)型ai搜索系統(tǒng),其特征在于,所述總結(jié)反饋模塊在生成檢索總結(jié)前,先對(duì)各個(gè)搜索引擎得到的檢索結(jié)果進(jìn)行如下預(yù)處理:
7.根據(jù)權(quán)利要求6所述的增強(qiáng)型ai搜索系統(tǒng),其特征在于,總結(jié)反饋模塊對(duì)預(yù)處理后的檢索結(jié)果進(jìn)行后處理:
8.根據(jù)權(quán)利要求7所述的增強(qiáng)型ai搜索系統(tǒng),其特征在于,所述總結(jié)反饋模塊通過生成式ai模型一,結(jié)合后處理得到的最終檢索結(jié)果,依據(jù)不同的查詢模式采用不同的生成策略來生成檢索總結(jié),以適應(yīng)用戶的具體需求;所述生成式ai模型一部署在第三方服務(wù)器上,所述總結(jié)反饋模塊集成生成式ai模型一的接口,以實(shí)現(xiàn)生成式ai模型一的遠(yuǎn)程調(diào)用,總結(jié)反饋模塊利用服務(wù)器發(fā)送事件sse機(jī)制支持流式響應(yīng)返回,當(dāng)用戶發(fā)起一個(gè)查詢請(qǐng)求時(shí),總結(jié)反饋模塊開始逐步返回檢索總結(jié),而不需要等到整個(gè)檢索過程完成。
9.根據(jù)權(quán)利要求1所述的增強(qiáng)型ai搜索系統(tǒng),其特征在于,所述檢索模塊將各個(gè)搜索引擎檢索得到的網(wǎng)頁信息以及文檔存儲(chǔ)到文檔檢索庫,所述檢索模塊接收到查詢問題或推薦問題時(shí),同步根據(jù)用戶輸入的檢索問題在文檔檢索庫中的檢索出對(duì)應(yīng)的響應(yīng)結(jié)果;
10.根據(jù)權(quán)利要求9所述的增強(qiáng)型ai搜索系統(tǒng),其特征在于,檢索模塊在文檔檢索庫中進(jìn)行檢索的過程具體包括查詢處理、向量匹配和逆向排名融合:檢索模塊將原始查詢問題和推薦問題構(gòu)成一個(gè)問題列表,對(duì)問題列表中的每個(gè)問題分別在文檔檢索庫中進(jìn)行匹配,分別召回與目標(biāo)問題最相似的n個(gè)文檔向量,最后檢索模塊采用rrf算法來合并不同問題的召回結(jié)果;rrf算法通過加權(quán)文檔向量在不同問題的召回結(jié)果中的排名來計(jì)算每個(gè)文檔向量的綜合分?jǐn)?shù),然后根據(jù)每個(gè)文檔向量的綜合分?jǐn)?shù),對(duì)所有問題的召回結(jié)果中的文檔向量進(jìn)行綜合排序,去除重復(fù)的文檔向量,確保每個(gè)文檔只出現(xiàn)一次,并過濾掉得分低于設(shè)定相似度閾值的文檔向量,以提高結(jié)果的質(zhì)量,最終實(shí)現(xiàn)合并不同問題的召回結(jié)果;最后,總結(jié)反饋模塊調(diào)用語言模型,將最終的召回結(jié)果生成詳細(xì)且連貫的響應(yīng)內(nèi)容并返回至交互模塊,供用戶查看。