一種用于上下文語音識別的熱詞排序與選擇方法

文檔序號：42298434發(fā)布日期：2025-06-27 18:38閱讀：19來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本發(fā)明涉及語音識別，尤其涉及一種用于上下文語音識別的熱詞排序與選擇方法。

背景技術(shù)：

1、隨著語音識別技術(shù)不斷發(fā)展，端到端自動語音識別(asr)系統(tǒng)取得顯著成果，主要包含連接主義時間分類(ctc)模型、基于注意力的編碼器-解碼器模型和基于變換器的模型這三類，在各類asr任務(wù)中廣泛應(yīng)用。不過，標(biāo)準(zhǔn)asr系統(tǒng)在識別罕見詞、專有名詞等低頻詞匯時，存在較大困難，主要原因是訓(xùn)練數(shù)據(jù)里低頻詞匯呈長尾分布，致使轉(zhuǎn)錄結(jié)果不準(zhǔn)確。

2、為解決這些問題，上下文熱詞技術(shù)得以應(yīng)用，像淺層融合與深度融合技術(shù)，通過把上下文信息融入asr過程，有效提高了asr性能。淺層融合在解碼時將預(yù)訓(xùn)練語言模型(lm)和聲學(xué)模型結(jié)合，先由聲學(xué)模型生成候選轉(zhuǎn)錄，再由lm依據(jù)語言可能性對其重新評分；深度融合則是聯(lián)合訓(xùn)練聲學(xué)模型和lm，在推理階段讓二者更深度交互，通過合并最終預(yù)測層前的中間表示，強化聲學(xué)和語言信息的融合，進而提升asr準(zhǔn)確率。近年來，不少研究聚焦于將大規(guī)模基礎(chǔ)模型與上下文asr技術(shù)融合，期望借助這些先進模型的能力，在上下文場景中更好地識別罕見詞、特定領(lǐng)域術(shù)語，更精準(zhǔn)地處理各種語言細(xì)節(jié)。

3、雖然上下文自動語音識別(asr)系統(tǒng)有了很大進步，但在處理大量熱詞時仍面臨挑戰(zhàn)。當(dāng)熱詞數(shù)量眾多(比如超過1000個)，上下文asr模型常常難以應(yīng)對，無法高效處理。尤其是基于大規(guī)?；A(chǔ)模型構(gòu)建的模型，對熱詞數(shù)量非常敏感。這是由于上下文長度有限，限制了模型處理和整合大量熱詞的能力；同時，計算效率方面的限制，也使得模型難以處理因大量熱詞導(dǎo)致的指數(shù)級增長的復(fù)雜度，最終影響了上下文asr系統(tǒng)的整體性能。

4、因此，本領(lǐng)域的技術(shù)人員致力于開發(fā)一種用于上下文語音識別的熱詞排序與選擇方法。提出打分器網(wǎng)絡(luò)，綜合利用tts模型、音頻編碼器、交叉注意力機制和cnn(卷積神經(jīng)網(wǎng)絡(luò))等技術(shù)，精準(zhǔn)篩選和排序熱詞，提升模型識別熱詞的能力。

技術(shù)實現(xiàn)思路

1、有鑒于現(xiàn)有技術(shù)的上述缺陷，本發(fā)明所要解決的技術(shù)問題是上下文asr模型處理大量熱詞時的性能瓶頸問題。

2、為實現(xiàn)上述目的，本發(fā)明提供了一種用于上下文語音識別的熱詞排序與選擇方法，包括打分器網(wǎng)絡(luò)，對熱詞進行篩選，在將熱詞融入asr系統(tǒng)前減少熱詞總數(shù)。

3、進一步地，借助tts模型把熱詞轉(zhuǎn)為熱詞音頻，與語音音頻融合；利用預(yù)訓(xùn)練音頻編碼器分別從語音和熱詞音頻提取特征，通過交叉注意力機制捕捉跨模態(tài)關(guān)系；再用cnn提取局部特征，經(jīng)全局池化層得到全局特征；最后由softmax層為熱詞打分，依據(jù)分?jǐn)?shù)篩選熱詞。

4、進一步地，設(shè)置不同的熱詞排列方式，用打分器網(wǎng)絡(luò)生成熱詞分?jǐn)?shù)，按不同順序輸入熱詞到模型，觀察模型性能變化，選擇最佳熱詞排序方式。

5、進一步地，所述熱詞排列方式包括隨機順序排列方式、升序排列方式、降序排列方式。

6、進一步地，所述升序排列方式，高概率熱詞放末尾。

7、進一步地，所述降序排列方式，高概率熱詞放開頭。

8、進一步地，使用命名實體識別模型生成貼近現(xiàn)實場景的專有名詞熱詞列表。

9、進一步地，所述命名實體識別模型對文本中的詞匯逐個篩選，識別出其中的專有名詞，構(gòu)建全面的熱詞列表。

10、進一步地，所述專有名詞包括聯(lián)系人姓名、電話號碼、個人名字、位置名稱。

11、進一步地，包括以下步驟：

12、步驟1、數(shù)據(jù)準(zhǔn)備；

13、步驟2、模型構(gòu)建與訓(xùn)練；

14、步驟3、熱詞排序與選擇；

15、步驟4、對比與分析。

16、現(xiàn)有上下文asr模型面對大量熱詞時，受限于上下文長度和計算效率，難以有效處理，導(dǎo)致整體性能下降。本發(fā)明設(shè)計新型打分器網(wǎng)絡(luò)，對熱詞進行篩選，在將熱詞融入asr系統(tǒng)前減少熱詞總數(shù)。本發(fā)明借助tts模型把熱詞轉(zhuǎn)為熱詞音頻，與語音音頻融合。利用預(yù)訓(xùn)練音頻編碼器分別從語音和熱詞音頻提取特征，通過交叉注意力機制捕捉跨模態(tài)關(guān)系，讓模型更好關(guān)聯(lián)熱詞與語音內(nèi)容。再用cnn提取局部特征，經(jīng)全局池化層得到全局特征，最后由softmax層為熱詞打分，依據(jù)分?jǐn)?shù)篩選熱詞。本發(fā)明在librispeech數(shù)據(jù)集結(jié)合is21熱詞列表測試，熱詞錯誤率(b-wer)相對降低超40％，提升了模型識別熱詞性能，增強了上下文asr模型處理大量熱詞的可擴展性和效率，在不同模型和熱詞列表中泛化性良好。

17、現(xiàn)有未探究熱詞在輸入模型時的順序?qū)ι舷挛腶sr性能的影響，缺乏優(yōu)化熱詞輸入順序的方法。本發(fā)明研究熱詞排序?qū)δＰ托阅艿挠绊?，對比不同排序方式下模型的表現(xiàn)。本發(fā)明針對is21熱詞列表，設(shè)置隨機順序、升序(高概率熱詞放末尾)、降序(高概率熱詞放開頭)三種排列方式，用提出的打分器網(wǎng)絡(luò)生成熱詞分?jǐn)?shù)，按不同順序輸入熱詞到whisper模型，觀察模型性能變化。本發(fā)明發(fā)現(xiàn)將真實熱詞按升序輸入whisper模型時，模型性能最佳。為優(yōu)化熱詞輸入模型的順序提供了參考，有助于提升上下文asr系統(tǒng)性能。

18、現(xiàn)有熱詞列表構(gòu)建方式不夠貼近實際應(yīng)用場景，導(dǎo)致asr系統(tǒng)在處理真實場景中的熱詞時效果不佳。本發(fā)明使用命名實體識別(ner)模型生成更貼近現(xiàn)實場景的專有名詞熱詞列表。本發(fā)明利用ner模型對librispeech文本中的詞匯逐個篩選，識別出其中的專有名詞，如聯(lián)系人姓名、電話號碼、個人名字、位置名稱等，構(gòu)建全面的熱詞列表。本發(fā)明實驗結(jié)果顯示，使用該熱詞列表結(jié)合提出的方法，在whisper-turbo模型中選擇得分最高的前50個熱詞，b-wer可顯著降低30％，更有效地提升了模型在實際場景下處理熱詞的能力。

19、本發(fā)明與現(xiàn)有技術(shù)相比較，具有如下顯而易見的實質(zhì)性特點和顯著優(yōu)點：

20、1、技術(shù)優(yōu)勢：本發(fā)明通過創(chuàng)新的熱詞排序與選擇技術(shù)，有效解決了上下文asr模型處理大量熱詞時的性能瓶頸問題。所提出的打分器網(wǎng)絡(luò)，綜合利用tts模型、音頻編碼器、交叉注意力機制和cnn等技術(shù)，能夠精準(zhǔn)篩選和排序熱詞，顯著提升模型識別熱詞的能力。相比傳統(tǒng)方法，在處理相同熱詞任務(wù)時，b-wer大幅降低，這意味著在實際應(yīng)用中，語音識別的準(zhǔn)確性得到極大提高，可有效減少因熱詞識別錯誤導(dǎo)致的信息誤差，為語音交互相關(guān)產(chǎn)業(yè)提供更可靠的技術(shù)支持。

21、2、指標(biāo)方面：實驗結(jié)果有力證明了本發(fā)明技術(shù)方案的優(yōu)越性。在librispeech數(shù)據(jù)集上，無論是使用is21熱詞列表還是ner生成的熱詞列表，都能實現(xiàn)b-wer的顯著降低，最高相對減少超過40％。同時，在不同的上下文asr模型，如whisper和tcpgen-based?biasingwhisper中，本發(fā)明都能取得良好效果，提升模型性能。這表明本發(fā)明技術(shù)方案在不同數(shù)據(jù)集和模型上具有廣泛的適用性和穩(wěn)定性，為其產(chǎn)業(yè)化應(yīng)用提供了堅實的性能保障。

22、3、實施角度：本發(fā)明所采用的技術(shù)組件，如tts模型(edge-tts)、asr模型(whisper-turbo)等均有成熟的開源實現(xiàn)，降低了技術(shù)實施的門檻和成本。在實驗中詳細(xì)給出的模型參數(shù)設(shè)置，如線性層投影維度、交叉注意力機制的頭數(shù)和dropout率、cnn各層的輸出通道數(shù)和內(nèi)核大小等，為實際應(yīng)用中的模型構(gòu)建和優(yōu)化提供了明確的指導(dǎo)，便于企業(yè)和開發(fā)者快速將該技術(shù)集成到現(xiàn)有的語音識別系統(tǒng)中，加速產(chǎn)品的迭代升級，具有較高的可實施性。

23、4、本發(fā)明的技術(shù)方案具有顯著的技術(shù)優(yōu)勢、優(yōu)異的指標(biāo)表現(xiàn)和良好的實施可行性，在語音識別相關(guān)產(chǎn)業(yè)，如智能語音助手、語音轉(zhuǎn)寫、智能客服等領(lǐng)域具有廣闊的產(chǎn)業(yè)化應(yīng)用前景，具備極高的轉(zhuǎn)化價值。

24、以下將結(jié)合附圖對本發(fā)明的構(gòu)思、具體結(jié)構(gòu)及產(chǎn)生的技術(shù)效果作進一步說明，以充分地了解本發(fā)明的目的、特征和效果。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：錢彥旻,侯皓翔,龔勛
技術(shù)所有人：上海交通大學(xué)
我是此專利的發(fā)明人

上一篇：一種視頻壓縮處理方法和裝置與流程
下一篇：一種金屬粉體摻雜多孔微粒的水性防腐涂料及其制備方法與流程

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

天堂资源成人√,久热最新,欧美黄色免费在线观看,国产精品久久久久久久久久精爆,91日韩中文字幕,av免费一区二区,7777精品久久久大香线蕉电影

一種用于上下文語音識別的熱詞排序與選擇方法