本發(fā)明涉及語音識別,尤其涉及一種用于上下文語音識別的熱詞排序與選擇方法。
背景技術(shù):
1、隨著語音識別技術(shù)不斷發(fā)展,端到端自動語音識別(asr)系統(tǒng)取得顯著成果,主要包含連接主義時間分類(ctc)模型、基于注意力的編碼器-解碼器模型和基于變換器的模型這三類,在各類asr任務(wù)中廣泛應(yīng)用。不過,標(biāo)準(zhǔn)asr系統(tǒng)在識別罕見詞、專有名詞等低頻詞匯時,存在較大困難,主要原因是訓(xùn)練數(shù)據(jù)里低頻詞匯呈長尾分布,致使轉(zhuǎn)錄結(jié)果不準(zhǔn)確。
2、為解決這些問題,上下文熱詞技術(shù)得以應(yīng)用,像淺層融合與深度融合技術(shù),通過把上下文信息融入asr過程,有效提高了asr性能。淺層融合在解碼時將預(yù)訓(xùn)練語言模型(lm)和聲學(xué)模型結(jié)合,先由聲學(xué)模型生成候選轉(zhuǎn)錄,再由lm依據(jù)語言可能性對其重新評分;深度融合則是聯(lián)合訓(xùn)練聲學(xué)模型和lm,在推理階段讓二者更深度交互,通過合并最終預(yù)測層前的中間表示,強化聲學(xué)和語言信息的融合,進而提升asr準(zhǔn)確率。近年來,不少研究聚焦于將大規(guī)模基礎(chǔ)模型與上下文asr技術(shù)融合,期望借助這些先進模型的能力,在上下文場景中更好地識別罕見詞、特定領(lǐng)域術(shù)語,更精準(zhǔn)地處理各種語言細(xì)節(jié)。
3、雖然上下文自動語音識別(asr)系統(tǒng)有了很大進步,但在處理大量熱詞時仍面臨挑戰(zhàn)。當(dāng)熱詞數(shù)量眾多(比如超過1000個),上下文asr模型常常難以應(yīng)對,無法高效處理。尤其是基于大規(guī)?;A(chǔ)模型構(gòu)建的模型,對熱詞數(shù)量非常敏感。這是由于上下文長度有限,限制了模型處理和整合大量熱詞的能力;同時,計算效率方面的限制,也使得模型難以處理因大量熱詞導(dǎo)致的指數(shù)級增長的復(fù)雜度,最終影響了上下文asr系統(tǒng)的整體性能。
4、因此,本領(lǐng)域的技術(shù)人員致力于開發(fā)一種用于上下文語音識別的熱詞排序與選擇方法。提出打分器網(wǎng)絡(luò),綜合利用tts模型、音頻編碼器、交叉注意力機制和cnn(卷積神經(jīng)網(wǎng)絡(luò))等技術(shù),精準(zhǔn)篩選和排序熱詞,提升模型識別熱詞的能力。
技術(shù)實現(xiàn)思路
1、有鑒于現(xiàn)有技術(shù)的上述缺陷,本發(fā)明所要解決的技術(shù)問題是上下文asr模型處理大量熱詞時的性能瓶頸問題。
2、為實現(xiàn)上述目的,本發(fā)明提供了一種用于上下文語音識別的熱詞排序與選擇方法,包括打分器網(wǎng)絡(luò),對熱詞進行篩選,在將熱詞融入asr系統(tǒng)前減少熱詞總數(shù)。
3、進一步地,借助tts模型把熱詞轉(zhuǎn)為熱詞音頻,與語音音頻融合;利用預(yù)訓(xùn)練音頻編碼器分別從語音和熱詞音頻提取特征,通過交叉注意力機制捕捉跨模態(tài)關(guān)系;再用cnn提取局部特征,經(jīng)全局池化層得到全局特征;最后由softmax層為熱詞打分,依據(jù)分?jǐn)?shù)篩選熱詞。
4、進一步地,設(shè)置不同的熱詞排列方式,用打分器網(wǎng)絡(luò)生成熱詞分?jǐn)?shù),按不同順序輸入熱詞到模型,觀察模型性能變化,選擇最佳熱詞排序方式。
5、進一步地,所述熱詞排列方式包括隨機順序排列方式、升序排列方式、降序排列方式。
6、進一步地,所述升序排列方式,高概率熱詞放末尾。
7、進一步地,所述降序排列方式,高概率熱詞放開頭。
8、進一步地,使用命名實體識別模型生成貼近現(xiàn)實場景的專有名詞熱詞列表。
9、進一步地,所述命名實體識別模型對文本中的詞匯逐個篩選,識別出其中的專有名詞,構(gòu)建全面的熱詞列表。
10、進一步地,所述專有名詞包括聯(lián)系人姓名、電話號碼、個人名字、位置名稱。
11、進一步地,包括以下步驟:
12、步驟1、數(shù)據(jù)準(zhǔn)備;
13、步驟2、模型構(gòu)建與訓(xùn)練;
14、步驟3、熱詞排序與選擇;
15、步驟4、對比與分析。
16、現(xiàn)有上下文asr模型面對大量熱詞時,受限于上下文長度和計算效率,難以有效處理,導(dǎo)致整體性能下降。本發(fā)明設(shè)計新型打分器網(wǎng)絡(luò),對熱詞進行篩選,在將熱詞融入asr系統(tǒng)前減少熱詞總數(shù)。本發(fā)明借助tts模型把熱詞轉(zhuǎn)為熱詞音頻,與語音音頻融合。利用預(yù)訓(xùn)練音頻編碼器分別從語音和熱詞音頻提取特征,通過交叉注意力機制捕捉跨模態(tài)關(guān)系,讓模型更好關(guān)聯(lián)熱詞與語音內(nèi)容。再用cnn提取局部特征,經(jīng)全局池化層得到全局特征,最后由softmax層為熱詞打分,依據(jù)分?jǐn)?shù)篩選熱詞。本發(fā)明在librispeech數(shù)據(jù)集結(jié)合is21熱詞列表測試,熱詞錯誤率(b-wer)相對降低超40%,提升了模型識別熱詞性能,增強了上下文asr模型處理大量熱詞的可擴展性和效率,在不同模型和熱詞列表中泛化性良好。
17、現(xiàn)有未探究熱詞在輸入模型時的順序?qū)ι舷挛腶sr性能的影響,缺乏優(yōu)化熱詞輸入順序的方法。本發(fā)明研究熱詞排序?qū)δP托阅艿挠绊?,對比不同排序方式下模型的表現(xiàn)。本發(fā)明針對is21熱詞列表,設(shè)置隨機順序、升序(高概率熱詞放末尾)、降序(高概率熱詞放開頭)三種排列方式,用提出的打分器網(wǎng)絡(luò)生成熱詞分?jǐn)?shù),按不同順序輸入熱詞到whisper模型,觀察模型性能變化。本發(fā)明發(fā)現(xiàn)將真實熱詞按升序輸入whisper模型時,模型性能最佳。為優(yōu)化熱詞輸入模型的順序提供了參考,有助于提升上下文asr系統(tǒng)性能。
18、現(xiàn)有熱詞列表構(gòu)建方式不夠貼近實際應(yīng)用場景,導(dǎo)致asr系統(tǒng)在處理真實場景中的熱詞時效果不佳。本發(fā)明使用命名實體識別(ner)模型生成更貼近現(xiàn)實場景的專有名詞熱詞列表。本發(fā)明利用ner模型對librispeech文本中的詞匯逐個篩選,識別出其中的專有名詞,如聯(lián)系人姓名、電話號碼、個人名字、位置名稱等,構(gòu)建全面的熱詞列表。本發(fā)明實驗結(jié)果顯示,使用該熱詞列表結(jié)合提出的方法,在whisper-turbo模型中選擇得分最高的前50個熱詞,b-wer可顯著降低30%,更有效地提升了模型在實際場景下處理熱詞的能力。
19、本發(fā)明與現(xiàn)有技術(shù)相比較,具有如下顯而易見的實質(zhì)性特點和顯著優(yōu)點:
20、1、技術(shù)優(yōu)勢:本發(fā)明通過創(chuàng)新的熱詞排序與選擇技術(shù),有效解決了上下文asr模型處理大量熱詞時的性能瓶頸問題。所提出的打分器網(wǎng)絡(luò),綜合利用tts模型、音頻編碼器、交叉注意力機制和cnn等技術(shù),能夠精準(zhǔn)篩選和排序熱詞,顯著提升模型識別熱詞的能力。相比傳統(tǒng)方法,在處理相同熱詞任務(wù)時,b-wer大幅降低,這意味著在實際應(yīng)用中,語音識別的準(zhǔn)確性得到極大提高,可有效減少因熱詞識別錯誤導(dǎo)致的信息誤差,為語音交互相關(guān)產(chǎn)業(yè)提供更可靠的技術(shù)支持。
21、2、指標(biāo)方面:實驗結(jié)果有力證明了本發(fā)明技術(shù)方案的優(yōu)越性。在librispeech數(shù)據(jù)集上,無論是使用is21熱詞列表還是ner生成的熱詞列表,都能實現(xiàn)b-wer的顯著降低,最高相對減少超過40%。同時,在不同的上下文asr模型,如whisper和tcpgen-based?biasingwhisper中,本發(fā)明都能取得良好效果,提升模型性能。這表明本發(fā)明技術(shù)方案在不同數(shù)據(jù)集和模型上具有廣泛的適用性和穩(wěn)定性,為其產(chǎn)業(yè)化應(yīng)用提供了堅實的性能保障。
22、3、實施角度:本發(fā)明所采用的技術(shù)組件,如tts模型(edge-tts)、asr模型(whisper-turbo)等均有成熟的開源實現(xiàn),降低了技術(shù)實施的門檻和成本。在實驗中詳細(xì)給出的模型參數(shù)設(shè)置,如線性層投影維度、交叉注意力機制的頭數(shù)和dropout率、cnn各層的輸出通道數(shù)和內(nèi)核大小等,為實際應(yīng)用中的模型構(gòu)建和優(yōu)化提供了明確的指導(dǎo),便于企業(yè)和開發(fā)者快速將該技術(shù)集成到現(xiàn)有的語音識別系統(tǒng)中,加速產(chǎn)品的迭代升級,具有較高的可實施性。
23、4、本發(fā)明的技術(shù)方案具有顯著的技術(shù)優(yōu)勢、優(yōu)異的指標(biāo)表現(xiàn)和良好的實施可行性,在語音識別相關(guān)產(chǎn)業(yè),如智能語音助手、語音轉(zhuǎn)寫、智能客服等領(lǐng)域具有廣闊的產(chǎn)業(yè)化應(yīng)用前景,具備極高的轉(zhuǎn)化價值。
24、以下將結(jié)合附圖對本發(fā)明的構(gòu)思、具體結(jié)構(gòu)及產(chǎn)生的技術(shù)效果作進一步說明,以充分地了解本發(fā)明的目的、特征和效果。