1.一種語音識別系統,其特征在于:包括
-基于聲學模型到拼音映射網絡的基礎識別器,用于將語音映射為由多個候選拼音序列組織成的網絡;
-多個并列的針對不同應用領域的基于拼音到詞語映射網絡的特定識別器,用于分別與由多個候選拼音序列組織成的網絡進行組合,得到多個最佳詞序列及置信度;
-綜合決策單元,用于接收多個最佳詞序列及置信度,然后根據置信度再加上預先給定的先驗知識和規則以及附加知識,進行決策,選擇最佳的詞序列輸出。
2.根據權利要求1所述的語音識別系統,其特征在于:通過調整拼音到詞語映射網絡,添加新的識別內容到已有領域的基于拼音到詞語映射網絡的特定識別器中,更新已有領域的識別內容;通過離線構造對應的基于拼音到詞語映射網絡的特定識別器,然后將擴展內容在線添加到基于拼音到詞語映射網絡的特定識別器中,創建新的應用領域的識別內容。
3.根據權利要求1所述的語音識別系統,其特征在于:所述基于聲學模型到拼音映射網絡的基礎識別器根據輸入的音頻特征動態計算聲學得分,并在其網絡上保存有拼音序列的語言模型得分,采用動態規劃算法結合聲學得分和語言模型得分,搜索得分最高的若干拼音序列輸出。
4.根據權利要求3所述的語音識別系統,其特征在于:所述拼音序列的語言模型采用基于長短時記憶單元的遞歸神經網絡進行建模。
5.根據權利要求1所述的語音識別系統,其特征在于:所述綜合決策單元通過融合識別置信度、先驗知識和預設規則以及附加信息來選擇最佳候選詞序列。
6.根據權利要求5所述的語音識別系統,其特征在于:所述先驗知識至少包括所述語音識別系統之外輸入的關于領域的標識信息,或者根據識別結果歷史信息得到的領域標識信息。
7.根據權利要求6所述的語音識別系統,其特征在于:所述領域標識信息為離散的0/1置,或連續的概率值。
8.根據權利要求5所述的語音識別系統,其特征在于:所述預設規則至少包括根據音頻長度預估的詞數范圍。
9.根據權利要求5所述的語音識別系統,其特征在于:所述附加信息包括根據超級語言模型得到的關于識別結果詞串符合語法規范的程度度量。
10.根據權利要求5-9任一項所述的語音識別系統,其特征在于:所述綜合決策單元將所述附加信息和預設規則通過分層加權的方式和置信度評分一起作為決策準則來選擇候選詞序列作為最終識別結果輸出。