麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

基于人工智能的文章分類方法及裝置、設備與可讀介質與流程

文檔序號:11250910閱讀:1071來源:國知局
基于人工智能的文章分類方法及裝置、設備與可讀介質與流程

【技術領域】

本發明涉及計算機應用技術領域,尤其涉及一種基于人工智能的文章分類方法及裝置、設備與可讀介質。



背景技術:

人工智能(artificialintelligence;ai),是研究、開發用于模擬、延伸和擴展人的智能的理論、方法、技術及應用系統的一門新的技術科學。人工智能是計算機科學的一個分支,它企圖了解智能的實質,并生產出一種新的能以人類智能相似的方式做出反應的智能機器,該領域的研究包括機器人、語言識別、圖像識別、自然語言處理和專家系統等。

隨著網絡科技的發展,網絡上的電子多媒體使用越來越普及。為了有效地對網絡上的各種新聞資訊進行有效地管理,通常可以將新聞資訊分為不同的主題類別。

現有技術中通過建立層級的主題分類體系,來對新聞資訊的文章的主題類別進行管理。例如新聞資訊可以被分為“娛樂”、“體育”、“教育”等等主題類別。在這個基礎上,還可以進一步細分,比如“體育”可以分為“足球”,“籃球”,“羽毛球”等。這樣,在為用戶展示文章時可以進行分類展示,用戶也可以按照主題分類體系中的主題類別選擇自己感興趣的主題類別進行閱讀。為了有效地對網絡中的新聞資訊的文章進行有效地分類,現有技術中多采用人工標識的方法來為文章進行分類。例如具體可以在文章發布之前,由網站工作人員根據新聞資訊的文章的標題,主觀對該文章進行分類,并打上對應主題類別的標簽。

但是,現有技術中由工作人員根據新聞資訊的文章的標題,主觀對該文章進行分類,不僅費時費力,而且對文章分類的準確性也非常差。



技術實現要素:

本發明提供了一種基于人工智能的文章分類方法及裝置、設備與可讀介質,用于提高對文章分類的準確性。

本發明提供一種基于人工智能的文章分類方法,所述方法包括:

獲取目標文章的文本;

對所述目標文章的文本進行至少兩種不同分詞粒度的分詞處理,得到各所述分詞粒度對應的分詞;

根據所述目標文章的各所述分詞粒度對應的分詞和在目標分類體系中預先訓練的各層級的打分標簽模型,預測所述目標文章與各所述層級上的各個主題類別的相似度;

根據所述目標文章與各所述層級上的各個主題類別的相似度以及預設的相似度閾值,對所述目標文章在各所述層級上進行分類。

進一步可選地,如上所述的方法中,根據所述目標文章與各所述層級上的各個主題類別的相似度以及預設的相似度閾值,對所述目標文章在各所述層級上進行分類之后,所述方法還包括:

校驗所述目標文章在各所述層級上的分類。

進一步可選地,如上所述的方法中,校驗所述目標文章在各所述層級上的分類,具體包括如下至少一種:

檢測所述目標文章的各所述層級的分類是否沖突;若沖突,取消所述目標文章在下游層級的分類;

若所述目標文章的特定層級的分類為特定主題類別時,檢測所述目標文章中的特定關鍵詞的出現頻率是否達到預設頻率閾值,若未達到,取消所述目標文章在所述特定層級的所述特定主題類別的分類;和

若所述目標文章的特定層級的分類為特定主題類別時,檢測所述目標文章中是否出現特定關鍵詞,若出現,取消所述目標文章在所述特定層級的所述特定主題類別的分類。

進一步可選地,如上所述的方法中,根據所述目標文章的各所述分詞粒度對應的分詞和在目標分類體系中預先訓練的各層級的打分標簽模型,預測所述目標文章與各所述層級上的各個主題類別的相似度之前,所述方法還包括:

從各資訊網站抓取數個訓練語料,各所述訓練語料包括訓練文章和所述訓練文章在對應的所述資訊網站中的原分類;

將各所述訓練語料中的所述訓練文章在對應的所述資訊網站中的原分類映射為所述目標分類體系中的主題類別;

對各所述訓練語料的文本進行至少兩種不同分詞粒度的分詞處理,得到數個正例的訓練數據;

根據所述數個正例的訓練數據,構造各所述正例的訓練數據中的訓練語料在各所述層級上的多個不相干的主題類別,生成數個負例的訓練數據;

使用所述數個正例的訓練數據和所述數個負例的訓練數據,訓練各層級的所述打分標簽模型。

本發明還提供一種基于人工智能的文章分類裝置,所述裝置包括:

獲取模塊,用于獲取目標文章的文本;

分詞模塊,用于對所述目標文章的文本進行至少兩種不同分詞粒度的分詞處理,得到各所述分詞粒度對應的分詞;

預測模塊,用于根據所述目標文章的各所述分詞粒度對應的分詞和在目標分類體系中預先訓練的各層級的打分標簽模型,預測所述目標文章與各所述層級上的各個主題類別的相似度;

分類模塊,用于根據所述目標文章與各所述層級上的各個主題類別的相似度以及預設的相似度閾值,對所述目標文章在各所述層級上進行分類。

進一步可選地,如上所述的裝置中,還包括:

校驗模塊,用于校驗所述目標文章在各所述層級上的分類。

進一步可選地,如上所述的裝置中,

所述校驗模塊,具體用于執行如下至少一種:

檢測所述目標文章的各所述層級的分類是否沖突;若沖突,取消所述目標文章在下游層級的分類;

若所述目標文章的特定層級的分類為特定主題類別時,檢測所述目標文章中的特定關鍵詞的出現頻率是否達到預設頻率閾值,若未達到,取消所述目標文章在所述特定層級的所述特定主題類別的分類;和

若所述目標文章的特定層級的分類為特定主題類別時,檢測所述目標文章中是否出現特定關鍵詞,若出現,取消所述目標文章在所述特定層級的所述特定主題類別的分類。

進一步可選地,如上所述的裝置中,還包括:

抓取模塊,用于從各資訊網站抓取數個訓練語料,各所述訓練語料包括訓練文章和所述訓練文章在對應的所述資訊網站中的原分類;

映射模塊,用于將各所述訓練語料中的所述訓練文章在對應的所述資訊網站中的原分類映射為所述目標分類體系中的主題類別,

正例生成模塊,用于對各所述訓練語料的文本進行至少兩種不同分詞粒度的分詞處理,得到數個正例的訓練數據;

負例生成模塊,用于根據所述數個正例的訓練數據,構造各所述正例的訓練數據中的訓練語料在各所述層級上的多個不相干的主題類別,生成數個負例的訓練數據;

訓練模塊,用于使用所述數個正例的訓練數據和所述數個負例的訓練數據,訓練各層級的所述打分標簽模型。

本發明還提供一種計算機設備,所述設備包括:

一個或多個處理器;

存儲器,用于存儲一個或多個程序,

當所述一個或多個程序被所述一個或多個處理器執行,使得所述一個或多個處理器實現如上所述的基于人工智能的文章分類方法。

本發明還提供一種計算機可讀介質,其上存儲有計算機程序,該程序被處理器執行時實現如上所述的基于人工智能的文章分類方法。

本發明的基于人工智能的文章分類方法及裝置、設備與可讀介質,通過獲取目標文章的文本;對目標文章的文本進行至少兩種不同分詞粒度的分詞處理,得到各分詞粒度對應的分詞;根據目標文章的各分詞粒度對應的分詞和在目標分類體系中預先訓練的各層級的打分標簽模型,預測目標文章與各層級上的各個主題類別的相似度;根據目標文章與各層級上的各個主題類別的相似度以及預設的相似度閾值,對目標文章在各層級上進行分類。本發明的技術方案,通過獲取目標文章的文本進行至少兩種不同分詞粒度的分詞,可以使得預測目標文章與各層級上的各個主題類別的相似度時,輸入至打分標簽模型中的該目標文章的信息量非常豐富,從而能夠準確預測出目標文章與各層級上的各個主題類別的相似度;進而能夠非常準確地對該目標文章在該層級上進行分類。因此,本發明的技術方案,不僅對文章進行分類的準確性較高,而且能夠自動地實現對文章進行分類,省時、省力,對文章分類的效率非常高。

【附圖說明】

圖1為本發明的基于人工智能的文章分類方法實施例的流程圖。

圖2為本發明的基于人工智能的文章分類裝置實施例一的結構圖。

圖3為本發明的基于人工智能的文章分類裝置實施例二的結構圖。

圖4為本發明的計算機設備實施例的結構圖。

圖5為本發明提供的一種計算機設備的示例圖。

【具體實施方式】

為了使本發明的目的、技術方案和優點更加清楚,下面結合附圖和具體實施例對本發明進行詳細描述。

圖1為本發明的基于人工智能的文章分類方法實施例的流程圖。如圖1所示,本實施例的基于人工智能的文章分類方法,具體可以包括如下步驟:

100、獲取目標文章的文本;

本發明的基于人工智能的文章分類方法的執行主體為基于人工智能的文章分類裝置,該基于人工智能的文章分類裝置可以為一電子的實體裝置,也可以為采用軟件集成的裝置。

本實施例中的目標文章為網絡上的新聞資訊對應的文章,為了對網絡上的新聞資訊進行有效地管理,每一個新聞資訊發布之后,均需要將該新聞資訊的文章作為目標文章,采用本實施例的基于人工智能的文章分類方法對該新聞資訊對應的文章進行分類。

101、對目標文章的文本進行至少兩種不同分詞粒度的分詞處理,得到各分詞粒度對應的分詞;

本實施例中,需要對目標文章的文本進行至少兩種不同分詞粒度的分詞處理,例如至少兩種不同的分詞粒度可以包括基本粒度、混版粒度等不同的分詞粒度。本實施例中通過對目標文章的文本進行至少兩種不同分詞粒度的分詞處理,以獲取該目標文章的文本各種粒度的分詞信息,以更加準確地對目標文章的文本進行分類。

需要說明的是,目標文章的文本不僅包括標題還包括正文。本實施例中,在對目標文章的文本按照每一種分詞粒度進行分詞時,可以按照該種分詞粒度分別對目標文章的標題和正文進行分詞,得到該分詞粒度下、該目標文章對應的標題的分詞和該目標文章對應的正文的分詞。

102、根據目標文章的各分詞粒度對應的分詞和在目標分類體系中預先訓練的各層級的打分標簽模型,預測目標文章與各層級上的各個主題類別的相似度;

本實施例的目標分類體系為本實施例中對目標文章進行分類的依據。網站為了管理文章,可以預先定義好該目標分類體系中包括幾層主題類別,以及每一層所包括的主題類別。本實施例中,對于目標分類體系中的每一層級還預先訓練有對應的打分標簽模型,每一層級的打分標簽模型中可以預先訓練有目標分類體系中該層級的各個主題類別的一維向量。該打分標簽模型在預測目標文章與各層級上的各個主題類別的相似度的時候,可以將各分詞粒度對應的分詞輸入至該打分標簽模型,然后打分標簽模型便可以根據內部預先訓練好的該層級的各個主題類別的一維向量,分別預測出該目標文章與該層級上的各個主題類別的相似度。其中輸入該打分標簽模型的各分詞粒度對應的分詞具體可以采用詞向量的形式輸入,而每個詞對應的詞向量也可以通過預先訓練確定。比如相同語義的詞,對應的詞向量的相似度應該是比較高,如果詞向量的相似度不高,可以調整詞向量中的數值,使得兩個詞向量的相似度朝向升高的方向改變。同理,如不同語義的詞,對應的詞向量的相似度應該是比較低,如果詞向量的相似度較高,可以調整詞向量的數值,使得兩個詞向量的相似度朝向降低的方向改變。通過不斷訓練和調整,可以確定每個詞的詞表。

在向該打分標簽模型輸入各分詞粒度對應的分詞時,可以將各分詞粒度、以及目標文章的標題和正文的分詞分域輸入。例如對于采用兩種分詞粒度對目標文章的標題和正文進行分詞時,對應輸入的分詞可以分為如下四個域:(分詞粒度1對應的標題分詞)、(分詞粒度1對應的正文分詞)、(分詞粒度2對應的標題分詞)以及(分詞粒度2對應的正文分詞)。然后打分標簽模型根據輸入的各種分詞粒度的分詞,來準確預測該目標文章與該層級上的各個主題類別的相似度。實際應用中,在對目標文章進行分詞時,選擇的分詞粒度的種類越多,各種大小信息量的分詞越豐富,雖然計算過程會略有復雜,但是打分標簽模型預測的該目標文章與該層級上的各個主題類別的相似度越準確。

本實施例的打分標簽模型可以采用詞袋(bag-of-words;bow)模型或者卷積神經網絡(convolutionalneuralnetwork;cnn)模型的架構進行訓練得到。

103、根據目標文章與各層級上的各個主題類別的相似度以及預設的相似度閾值,對目標文章在各層級上進行分類。

對于目標分類體系中的每一個層級,打分標簽模型預測的是目標文章與該層級上的各個主題類別的相似度。即目標分類體系中該層級包括有多少個主題類別,該層級的打分標簽模型便可以輸出多少個相似度,分別為該目標文章與該層級上的各個主題類的相似度。然后可以判斷該層級的打分標簽模型輸出的各個相似度與相似度閾值的大小關系,若目標文章與該層級的某個主題類別的相似度大于或者等于預設的相似度閾值,此時該目標文章在該層級上可以分配至該主題類別中;否則若目標文章與該層級的某個主題類別的相似度小于預設的相似度閾值,此時該目標文章在該層級上不可以分至該主題類別中。本實施例中,具體可以通過為該目標文章打上主題類別的標簽,以標識該目標文章在該層級上分配至該主題類別中。

采用本實施例的技術方案,目標文章在目標分類體系中可以被分至多個主題類別中,也有可能不會分配至任一主題類別中。

而且可選地,本實施例的目標分類體系中所有層級的所有主題類別的預設的相似度閾值可以相同;也可以每一層級的所有主題類別的預設的相似度閾值相同,不同層級的主題類別對應的預設的相似度閾值不相同;或者各個主題類別的預設的相似度閾值也可以均不相同?;蛘咭部梢詢H對較為特殊的主題類別設置較大或者較小的預設的相似度閾值,其它主題類別設置相同的預設的相似度閾值。例如,對容易分錯的主題類別的預設的相似度閾值進行獨立控制,加大預設的相似度閾值。比如主題類別為“搞笑”比較難以分類,那么只有當打分標簽模型預測到目標文章與該主題類別的相似度閾值足夠高時,目標文章才會被分到這個主題類別。

本實施例的基于人工智能的文章分類方法,通過獲取目標文章的文本;對目標文章的文本進行至少兩種不同分詞粒度的分詞處理,得到各分詞粒度對應的分詞;根據目標文章的各分詞粒度對應的分詞和在目標分類體系中預先訓練的各層級的打分標簽模型,預測目標文章與各層級上的各個主題類別的相似度;根據目標文章與各層級上的各個主題類別的相似度以及預設的相似度閾值,對目標文章在各層級上進行分類。本實施例的技術方案,通過獲取目標文章的文本進行至少兩種不同分詞粒度的分詞,可以使得預測目標文章與各層級上的各個主題類別的相似度時,輸入至打分標簽模型中的該目標文章的信息量非常豐富,從而能夠準確預測出目標文章與各層級上的各個主題類別的相似度;進而能夠非常準確地對該目標文章在該層級上進行分類。因此,本實施例的技術方案,不僅對文章進行分類的準確性較高,而且能夠自動地實現對文章進行分類,省時、省力,對文章分類的效率非常高。

進一步可選地,在上述實施例的技術方案的基礎上,步驟103“根據目標文章與各層級上的各個主題類別的相似度以及預設的相似度閾值,對目標文章在各層級上進行分類”之后,所述方法還包括:校驗目標文章在各層級上的分類。

本實施例中,在對目標文章在各層上進行分類之后,還可以進一步校驗目標文章在各層級上的分類,以進一步提高對目標文章分類的準確性。

例如,校驗目標文章在各層級上的分類,具體可以包括如下至少一種方式:

(a1)檢測目標文章的各層級的分類是否沖突;若沖突,取消目標文章在下游層級的分類;否則,若不沖突,則暫不執行任何操作。

本實施例的基于人工智能的文章分類裝置,可以進一步檢測目標文章在各層級的分類對應的主題類別的相關性,若上下兩層級的主題類別完全不相關,可以認為上下兩層的主題類別相沖突。此時可以保留上游層級的主題類別的分類,而取消該目標文章在下游層級的主題類別的分類。

例如,若某目標文章在一級分類中打上了“娛樂”的標簽,即表示在第一層被分配至主題類別為“娛樂”的分類中;而位于該“娛樂”之下的二級分類中打上了“籃球”的標簽,即表示在第二層被分配至主題類別為“籃球”的分類中;此時,可以保留一級分類中的主題類別為“娛樂”的分類,而一級分類之下的二級分類中取消主題類別為“籃球”的分類。

(a2)若目標文章的特定層級的分類為特定主題類別時,檢測目標文章中的特定關鍵詞的出現頻率是否達到預設頻率閾值,若未達到,取消目標文章在特定層級的所述特定主題類別的分類;若達到,暫不執行任何操作;和

(a3)若目標文章的特定層級的分類為特定主題類別時,檢測目標文章中是否出現特定關鍵詞,若出現,取消目標文章在特定層級的特定主題類別的分類;否則,暫不執行任何操作。

本實施例還可以針對某些特征主題類別的要求對目標文章的分類進行校驗。例如,可以采用正則表達式進行匹配,符合某一要求才屬于某個主題類別,或者符合某一要求就一定不屬于某個主題類別。例如,根據上述步驟(a2)的校驗方式,若二級分類的主題類別為“電影”的條件,可以要求目標文章中出現關鍵詞“電影”必須出現預設頻率閾值以上的次數,如二次以上。這樣,可以對所有二級分類的主題類別為“電影”的目標文章進行檢測,若目標文章中該特定關鍵詞“電影”的出現頻率未達到預設頻率閾值,此時可以直接取消該目標文章在二級分類中的主題類別為“電影”的分類。

再例如,根據上述步驟(a3)的校驗方式,若目標文章的二級分類的主題類別為“熊貓”時,檢測目標文章中是否出現特定關鍵詞“直播”,若出現,則取消目標文章在二級分類的主題類別為“熊貓”的分類。

實際應用中,上述(a1)、(a2)和(a3)三種校驗目標文章在各層級上的分類的方式,可以互相配合來使用。而且,通過上述校驗,可以進一步提高目標文章分類的準確性。

進一步可選地,在上述實施例的技術方案的基礎上,在步驟102“根據目標文章的各分詞粒度對應的分詞和在目標分類體系中預先訓練的各層級的打分標簽模型,獲取目標文章與各層級上的各個主題類別的相似度”之前,還可以包括如下步驟:

(b1)從各資訊網站抓取數個訓練語料,各訓練語料包括訓練文章和訓練文章在對應的資訊網站中的原分類;

本實施例中,訓練語料的獲取具體可以從各門戶網站等資訊網站抓取,抓取的訓練語料可以包括新聞資訊的文章的標題和正文,必要時還可以抓取該文章的統一資源定位符(uniformresourcelocator;url),以便于可以根據url對抓取的信息進行清洗。另外,在每一個資訊網站中的每一文章中還標識有該文章在該資訊網站的分類體系中的分類,因此,在抓取該文章作為訓練語料時,還需要抓取該文章在該資訊網站中的分類,此處稱為原分類。例如,若從新浪新聞中抓取教育類目下的新聞文章作為訓練語料時,抓取的該文章的原分類為“教育”。

(b2)將各訓練語料中的訓練文章在對應的資訊網站中的原分類映射為目標分類體系中的主題類別;

由于不同的資訊網站的分類體系的主題類別的劃分以及類別的定義并不相同,為了將訓練語料能夠在本實施例的目標分類體系中進行訓練,因此,本實施例中,需要將各訓練語料中的訓練文章在對應的資訊網站中的原分類映射為目標分類體系中的分類。在映射時,盡量保證原分類的名稱和目標分類體系中的主題類別的名稱相同。如果目標分類體系中不存在與原分類名稱相同的主題名稱,此時還可以對原分類以及目標分類體系中的每一個主題類別進行語義分析,獲取與原分類語義相同的主題類別,將原分類映射在目標體系下與該原分類語義相同的主題類別。還可以根據原分類和目標分類體系中的每一個主題類別所包括的范圍,來將原分類映射至目標分類體系下的某一主題類別中。例如,目標分類體系下設置一級類別包含人文類,而不包括歷史類,那么可以將來源中歷史類的資訊映射到認為類這一主題類別中。

進一步可選地,在上述步驟(b1)之后,步驟(b2)之前,還可以人工采樣評估某個來源在各個類別上的準確,例如人工手動地從某資訊網站選擇10篇文章,發現8篇的類別標識的都不準確。此時可以根據url,舍棄從該資訊網站的抓取的所有訓練語料資源。

進一步可選地,本實施例中,還可以對各訓練語料進行清洗。例如對內容或者標題缺失的劣質訓練語料,以及由于定義不同造成的錯誤分類資源進行過濾。比如在原分類為房產,但是主題和內容都是“棚戶改造”的訓練語料;在做映射時,該訓練語料被映射到目標分類體系下的主題類別為“房產”的分類中,此時在對訓練語料清洗時,可以對具有關鍵詞“棚戶改造”的資訊進行過濾。

(b3)對各訓練語料的文本進行至少兩種不同分詞粒度的分詞處理,得到數個正例的訓練數據;

例如,具體可以按照步驟101的方式對各訓練語料進行至少兩種不同分詞粒度的分詞處理,得到數個正例的訓練數據。正例的訓練數據即為正確的訓練數據版本。每個訓練數據中可以包括訓練語料對應的至少兩種分詞粒度的分詞,該訓練數據在該目標分類體系中主題類別以及該訓練數據為正例。

(b4)根據數個正例的訓練數據,構造各正例的訓練數據中的訓練語料在各層級上的多個不相干的主題類別,生成數個負例的訓練數據;

在訓練打分標簽模型的時候,不僅需要正例,還需要負例,因此,本實施例中還需要根據各正例的訓練數據,構造各訓練數據中訓練語料在各層級上的多個不相干的主題類別,從而生成負例的訓練數據;負例的訓練數據即為錯誤的訓練數據版本。對于每一個正例的訓練數據,可以生成對應三個或者四個負例的訓練數據,具體數量可以根據實際需求來設置。同理每個訓練數據中可以包括訓練語料對應的至少兩種分詞粒度的分詞,該訓練數據在該目標分類體系中構造的主題類別以及該訓練數據為負例。

(b4)使用數個正例的訓練數據和數個負例的訓練數據,訓練打分標簽模型。

本實施例的各層級的打分標簽模型中設置有該層級的所有主題類別對應的一維向量。在訓練之前,對于該層級的所有主題類別的一維向量可以隨機預設初始值。然后開始訓練時,先向打分標簽模型輸入一個訓練數據,輸入時,訓練數據中的訓練語料對應的至少兩種分詞粒度的分詞同樣可以分域輸入;且輸入時,具體可以采用詞向量表示每一個分詞,詞向量的表示方式可以參考上述相關實施例的記載。然后打分標簽模型根據該輸入的訓練數據的信息,預測該訓練數據與該層級的每一個主題類別的相似度。例如若該訓練數據為正例時,可以判斷該訓練數據與正例中確定的主題類別的相似度是否達到預設相似度閾值,若未達到,調整該主題類別對應的一維向量以及打分標簽模型的參數,使得輸出的該訓練數據與正例中確定的主題類別的相似度朝向增大的方向變化;若該訓練數據為負例時,可以判斷該訓練數據與負例中確定的主題類別的相似度是否小于預設相似度閾值,若未小于,調整該主題類別對應的一維向量以及打分標簽模型的參數,使得輸出的該訓練數據與輔例中確定的主題類別的相似度朝向較小的方向變化;經過無數條訓練數據的訓練,可以使得訓練的打分標簽模型能夠準確預測出目標文章與該層級上的各個主題類別的相似度。此時打分標簽模型的參數和其中的該層級的各主題類別的一維向量確定,對應的打分標簽模型確定。

上述實施例的基于人工智能的文章分類方法,通過獲取目標文章的文本進行至少兩種不同分詞粒度的分詞,可以使得預測目標文章與各層級上的各個主題類別的相似度時,輸入至打分標簽模型中的該目標文章的信息量非常豐富,從而能夠準確預測出目標文章與各層級上的各個主題類別的相似度;進而能夠非常準確地對該目標文章在該層級上進行分類。因此,上述實施例的技術方案,不僅對文章進行分類的準確性較高,而且能夠自動地實現對文章進行分類,省時、省力,對文章分類的效率非常高。

圖2為本發明的基于人工智能的文章分類裝置實施例一的結構圖。如圖2所示,本實施例的基于人工智能的文章分類裝置,具體可以包括:獲取模塊10、分詞模塊11和預測模塊12和分類模塊13。

其中獲取模塊10用于獲取目標文章的文本;分詞模塊11用于對獲取模塊10獲取的目標文章的文本進行至少兩種不同分詞粒度的分詞處理,得到各分詞粒度對應的分詞;預測模塊12用于根據分詞模塊11獲取的目標文章的各分詞粒度對應的分詞和在目標分類體系中預先訓練的各層級的打分標簽模型,預測目標文章與各層級上的各個主題類別的相似度;分類模塊13用于根據預測模塊12預測的目標文章與各層級上的各個主題類別的相似度以及預設的相似度閾值,對目標文章在各所述層級上進行分類。

本實施例的基于人工智能的文章分類裝置,通過采用上述模塊實現文章分類的實現原理以及技術效果與上述相關方法實施例的實現相同,詳細可以參考上述相關方法實施例的記載,在此不再贅述。

圖3為本發明的基于人工智能的文章分類裝置實施例二的結構圖。如圖3所示,本實施例的基于人工智能的文章分類裝置,在上述圖2所示實施例的技術方案的基礎上,進一還可以包括如下技術方案。

如圖3所示,本實施例的基于人工智能的文章分類裝置還包括:校驗模塊14。

該校驗模塊14用于校驗分類模塊13得到的目標文章在各層級上的分類。

進一步可選地,本實施例的基于人工智能的文章分類裝置中,該校驗模塊14具體用于執行如下至少一種:

檢測目標文章的各層級的分類是否沖突;若沖突,取消目標文章在下游層級的分類;

若目標文章的特定層級的分類為特定主題類別時,檢測目標文章中的特定關鍵詞的出現頻率是否達到預設頻率閾值,若未達到,取消目標文章在特定層級的特定主題類別的分類;和

若目標文章的特定層級的分類為特定主題類別時,檢測目標文章中是否出現特定關鍵詞,若出現,取消目標文章在所述特定層級的特定主題類別的分類。

進一步可選地,本實施例的基于人工智能的文章分類裝置中,還包括:

抓取模塊15用于從各資訊網站抓取數個訓練語料,各訓練語料包括訓練文章和訓練文章在對應的資訊網站中的原分類;

映射模塊16用于將抓取模塊15抓取的各訓練語料中的訓練文章在對應的資訊網站中的原分類映射為目標分類體系中的主題類別,

正例生成模塊17用于對映射模塊16處理后的各訓練語料的文本進行至少兩種不同分詞粒度的分詞處理,得到數個正例的訓練數據;

負例生成模塊18用于根據正例生成模塊17獲取的數個正例的訓練數據,構造各正例的訓練數據中的訓練語料在各層級上的多個不相干的主題類別,生成數個負例的訓練數據;

訓練模塊19用于使用正例生成模塊17生成的數個正例的訓練數據和負例生成模塊18生成的數個負例的訓練數據,訓練各層級的打分標簽模型。

對應地,預測模塊12用于根據分詞模塊11獲取的目標文章的各分詞粒度對應的分詞和在目標分類體系中訓練模塊19預先訓練的各層級的打分標簽模型,預測目標文章與各層級上的各個主題類別的相似度。

本實施例的基于人工智能的文章分類裝置,通過采用上述模塊實現文章分類的實現原理以及技術效果與上述相關方法實施例的實現相同,詳細可以參考上述相關方法實施例的記載,在此不再贅述。

圖4為本發明的計算機設備實施例的結構圖。如圖4所示,本實施例的計算機設備,包括:一個或多個處理器30,以及存儲器40,存儲器40用于存儲一個或多個程序,當存儲器40中存儲的一個或多個程序被一個或多個處理器30執行,使得一個或多個處理器30實現如上實施例的基于人工智能的文章分類方法。圖4所示實施例中以包括多個處理器30為例。

例如,圖5為本發明提供的一種計算機設備的示例圖。圖5示出了適于用來實現本發明實施方式的示例性計算機設備12a的框圖。圖5顯示的計算機設備12a僅僅是一個示例,不應對本發明實施例的功能和使用范圍帶來任何限制。

如圖5所示,計算機設備12a以通用計算設備的形式表現。計算機設備12a的組件可以包括但不限于:一個或者多個處理器16a,系統存儲器28a,連接不同系統組件(包括系統存儲器28a和處理器16a)的總線18a。

總線18a表示幾類總線結構中的一種或多種,包括存儲器總線或者存儲器控制器,外圍總線,圖形加速端口,處理器或者使用多種總線結構中的任意總線結構的局域總線。舉例來說,這些體系結構包括但不限于工業標準體系結構(isa)總線,微通道體系結構(mac)總線,增強型isa總線、視頻電子標準協會(vesa)局域總線以及外圍組件互連(pci)總線。

計算機設備12a典型地包括多種計算機系統可讀介質。這些介質可以是任何能夠被計算機設備12a訪問的可用介質,包括易失性和非易失性介質,可移動的和不可移動的介質。

系統存儲器28a可以包括易失性存儲器形式的計算機系統可讀介質,例如隨機存取存儲器(ram)30a和/或高速緩存存儲器32a。計算機設備12a可以進一步包括其它可移動/不可移動的、易失性/非易失性計算機系統存儲介質。僅作為舉例,存儲系統34a可以用于讀寫不可移動的、非易失性磁介質(圖5未顯示,通常稱為“硬盤驅動器”)。盡管圖5中未示出,可以提供用于對可移動非易失性磁盤(例如“軟盤”)讀寫的磁盤驅動器,以及對可移動非易失性光盤(例如cd-rom,dvd-rom或者其它光介質)讀寫的光盤驅動器。在這些情況下,每個驅動器可以通過一個或者多個數據介質接口與總線18a相連。系統存儲器28a可以包括至少一個程序產品,該程序產品具有一組(例如至少一個)程序模塊,這些程序模塊被配置以執行本發明上述圖1-圖3各實施例的功能。

具有一組(至少一個)程序模塊42a的程序/實用工具40a,可以存儲在例如系統存儲器28a中,這樣的程序模塊42a包括——但不限于——操作系統、一個或者多個應用程序、其它程序模塊以及程序數據,這些示例中的每一個或某種組合中可能包括網絡環境的實現。程序模塊42a通常執行本發明所描述的上述圖1-圖3各實施例中的功能和/或方法。

計算機設備12a也可以與一個或多個外部設備14a(例如鍵盤、指向設備、顯示器24a等)通信,還可與一個或者多個使得用戶能與該計算機設備12a交互的設備通信,和/或與使得該計算機設備12a能與一個或多個其它計算設備進行通信的任何設備(例如網卡,調制解調器等等)通信。這種通信可以通過輸入/輸出(i/o)接口22a進行。并且,計算機設備12a還可以通過網絡適配器20a與一個或者多個網絡(例如局域網(lan),廣域網(wan)和/或公共網絡,例如因特網)通信。如圖所示,網絡適配器20a通過總線18a與計算機設備12a的其它模塊通信。應當明白,盡管圖中未示出,可以結合計算機設備12a使用其它硬件和/或軟件模塊,包括但不限于:微代碼、設備驅動器、冗余處理器、外部磁盤驅動陣列、raid系統、磁帶驅動器以及數據備份存儲系統等。

處理器16a通過運行存儲在系統存儲器28a中的程序,從而執行各種功能應用以及數據處理,例如實現上述實施例所示的基于人工智能的文章分類方法。

本發明還提供一種計算機可讀介質,其上存儲有計算機程序,該程序被處理器執行時實現如上述實施例所示的基于人工智能的文章分類方法。

本實施例的計算機可讀介質可以包括上述圖5所示實施例中的系統存儲器28a中的ram30a、和/或高速緩存存儲器32a、和/或存儲系統34a。

隨著科技的發展,計算機程序的傳播途徑不再受限于有形介質,還可以直接從網絡下載,或者采用其他方式獲取。因此,本實施例中的計算機可讀介質不僅可以包括有形的介質,還可以包括無形的介質。

本實施例的計算機可讀介質可以采用一個或多個計算機可讀的介質的任意組合。計算機可讀介質可以是計算機可讀信號介質或者計算機可讀存儲介質。計算機可讀存儲介質例如可以是——但不限于——電、磁、光、電磁、紅外線、或半導體的系統、裝置或器件,或者任意以上的組合。計算機可讀存儲介質的更具體的例子(非窮舉的列表)包括:具有一個或多個導線的電連接、便攜式計算機磁盤、硬盤、隨機存取存儲器(ram)、只讀存儲器(rom)、可擦式可編程只讀存儲器(eprom或閃存)、光纖、便攜式緊湊磁盤只讀存儲器(cd-rom)、光存儲器件、磁存儲器件、或者上述的任意合適的組合。在本文件中,計算機可讀存儲介質可以是任何包含或存儲程序的有形介質,該程序可以被指令執行系統、裝置或者器件使用或者與其結合使用。

計算機可讀的信號介質可以包括在基帶中或者作為載波一部分傳播的數據信號,其中承載了計算機可讀的程序代碼。這種傳播的數據信號可以采用多種形式,包括——但不限于——電磁信號、光信號或上述的任意合適的組合。計算機可讀的信號介質還可以是計算機可讀存儲介質以外的任何計算機可讀介質,該計算機可讀介質可以發送、傳播或者傳輸用于由指令執行系統、裝置或者器件使用或者與其結合使用的程序。

計算機可讀介質上包含的程序代碼可以用任何適當的介質傳輸,包括——但不限于——無線、電線、光纜、rf等等,或者上述的任意合適的組合。

可以以一種或多種程序設計語言或其組合來編寫用于執行本發明操作的計算機程序代碼,所述程序設計語言包括面向對象的程序設計語言—諸如java、smalltalk、c++,還包括常規的過程式程序設計語言—諸如”c”語言或類似的程序設計語言。程序代碼可以完全地在用戶計算機上執行、部分地在用戶計算機上執行、作為一個獨立的軟件包執行、部分在用戶計算機上部分在遠程計算機上執行、或者完全在遠程計算機或服務器上執行。在涉及遠程計算機的情形中,遠程計算機可以通過任意種類的網絡——包括局域網(lan)或廣域網(wan)—連接到用戶計算機,或者,可以連接到外部計算機(例如利用因特網服務提供商來通過因特網連接)。

在本發明所提供的幾個實施例中,應該理解到,所揭露的系統,裝置和方法,可以通過其它的方式實現。例如,以上所描述的裝置實施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實際實現時可以有另外的劃分方式。

所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個網絡單元上??梢愿鶕嶋H的需要選擇其中的部分或者全部單元來實現本實施例方案的目的。

另外,在本發明各個實施例中的各功能單元可以集成在一個處理單元中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個單元中。上述集成的單元既可以采用硬件的形式實現,也可以采用硬件加軟件功能單元的形式實現。

上述以軟件功能單元的形式實現的集成的單元,可以存儲在一個計算機可讀取存儲介質中。上述軟件功能單元存儲在一個存儲介質中,包括若干指令用以使得一臺計算機設備(可以是個人計算機,服務器,或者網絡設備等)或處理器(processor)執行本發明各個實施例所述方法的部分步驟。而前述的存儲介質包括:u盤、移動硬盤、只讀存儲器(read-onlymemory,rom)、隨機存取存儲器(randomaccessmemory,ram)、磁碟或者光盤等各種可以存儲程序代碼的介質。

以上所述僅為本發明的較佳實施例而已,并不用以限制本發明,凡在本發明的精神和原則之內,所做的任何修改、等同替換、改進等,均應包含在本發明保護的范圍之內。

當前第1頁1 2 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
主站蜘蛛池模板: 蛟河市| 定兴县| 龙岩市| 临沂市| 萍乡市| 周至县| 永川市| 巍山| 庐江县| 浪卡子县| 光泽县| 长垣县| 易门县| 翁牛特旗| 通山县| 碌曲县| 高碑店市| 罗平县| 玛沁县| 辛集市| 洪洞县| 苍南县| 五莲县| 邹城市| 自治县| 饶平县| 岳池县| 广安市| 永城市| 日照市| 淳安县| 齐齐哈尔市| 太保市| 五家渠市| 和田县| 平罗县| 灵台县| 澄迈县| 罗源县| 青浦区| 莎车县|