本發(fā)明涉及語(yǔ)音識(shí)別,特別是涉及一種基于小樣本的機(jī)艙人聲識(shí)別方法、介質(zhì)及設(shè)備。
背景技術(shù):
1、語(yǔ)音識(shí)別技術(shù)在飛行員考核中至關(guān)重要,通過(guò)語(yǔ)音識(shí)別技術(shù)對(duì)飛行過(guò)程中機(jī)艙內(nèi)的人聲進(jìn)行識(shí)別,不僅能夠確定飛行員是否遵守了操作規(guī)程和標(biāo)準(zhǔn)喊話流程,還能評(píng)估飛行員的語(yǔ)言清晰度,提供了一種客觀、系統(tǒng)的方法來(lái)評(píng)估飛行員的表現(xiàn),有助于提升飛行安全和服務(wù)質(zhì)量;在現(xiàn)有技術(shù)中,通過(guò)語(yǔ)音識(shí)別技術(shù)對(duì)飛行過(guò)程中機(jī)艙內(nèi)的人聲進(jìn)行識(shí)別主要依賴(lài)于經(jīng)過(guò)訓(xùn)練的語(yǔ)音識(shí)別模型,通常使用單一的交叉熵?fù)p失函數(shù)對(duì)語(yǔ)音識(shí)別模型進(jìn)行訓(xùn)練,將在機(jī)艙內(nèi)采集到的包含人聲的音頻輸入到經(jīng)過(guò)訓(xùn)練的語(yǔ)音識(shí)別模型中獲取語(yǔ)音識(shí)別模型輸出的預(yù)測(cè)文本,將預(yù)測(cè)文本與標(biāo)準(zhǔn)文本進(jìn)行對(duì)比,基于對(duì)比結(jié)果評(píng)估飛行員的表現(xiàn)。
2、但是上述方法也存在以下技術(shù)問(wèn)題:
3、交叉熵?fù)p失函數(shù)主要關(guān)注每個(gè)時(shí)間步上的分類(lèi)準(zhǔn)確性,可以理解為只關(guān)注局部概率分布的匹配,因此使用單一的交叉熵?fù)p失函數(shù)訓(xùn)練的語(yǔ)音識(shí)別模型可能會(huì)在小樣本情況下過(guò)度擬合訓(xùn)練數(shù)據(jù)中的噪聲或細(xì)節(jié)特征,導(dǎo)致泛化能力不足,需要基于大量的樣本數(shù)據(jù)對(duì)語(yǔ)音識(shí)別模型進(jìn)行訓(xùn)練,并且交叉熵?fù)p失函數(shù)提供的梯度信號(hào)僅來(lái)自每個(gè)時(shí)間步的分類(lèi)誤差,這導(dǎo)致模型在訓(xùn)練過(guò)程中難以快速收斂,此外,交叉熵?fù)p失函數(shù)的目標(biāo)是最小化預(yù)測(cè)分布與真實(shí)分布之間的差異,因此使用單一的交叉熵?fù)p失函數(shù)訓(xùn)練的語(yǔ)音識(shí)別模型傾向于選擇在上下文中概率最高的候選詞,可以理解為會(huì)根據(jù)上下文信息推測(cè)缺失或模糊的部分內(nèi)容,例如,在音頻中出現(xiàn)吞字或連字現(xiàn)象時(shí),語(yǔ)音識(shí)別模型可能會(huì)根據(jù)前后文推斷出最可能的字符或單詞,可能導(dǎo)致吞字或連字被錯(cuò)誤地識(shí)別為其他更常見(jiàn)的詞匯,從而導(dǎo)致語(yǔ)音識(shí)別模型輸出的文本與實(shí)際內(nèi)容存在差異,不能夠精確的反映音頻中的實(shí)際內(nèi)容。
技術(shù)實(shí)現(xiàn)思路
1、針對(duì)上述技術(shù)問(wèn)題,本發(fā)明采用的技術(shù)方案為:
2、根據(jù)本發(fā)明的第一方面,提供了一種基于小樣本的機(jī)艙人聲識(shí)別方法,方法包括如下步驟:
3、s1、使用目標(biāo)樣本數(shù)據(jù)集d對(duì)初始語(yǔ)音識(shí)別模型進(jìn)行訓(xùn)練以獲取目標(biāo)語(yǔ)音識(shí)別模型,其中,d中包括若干個(gè)目標(biāo)樣本音頻和每一目標(biāo)樣本音頻對(duì)應(yīng)的實(shí)際文本,用于訓(xùn)練初始語(yǔ)音識(shí)別模型的復(fù)合損失函數(shù)l符合如下條件:
4、l=α×lnum+β×lcer+γ×lcross-entroy+μ×lctc,lnum為長(zhǎng)度損失函數(shù),lcer為強(qiáng)化學(xué)習(xí)損失函數(shù),lcross-entroy為交叉熵?fù)p失函數(shù),lctc為ctc損失函數(shù),α為lnum對(duì)應(yīng)的權(quán)重參數(shù),β為lcer對(duì)應(yīng)的權(quán)重參數(shù),γ為lcross-entroy對(duì)應(yīng)的權(quán)重參數(shù),μ為lctc對(duì)應(yīng)的權(quán)重參數(shù);lcer符合如下條件:
5、lcer=ex-d[ep(y1|x)[cer(y1,y)]],x為d中的目標(biāo)樣本音頻,y為x對(duì)應(yīng)的實(shí)際文本,y1為目標(biāo)語(yǔ)音識(shí)別模型預(yù)測(cè)的文本,ex-d[?]表示對(duì)d中的所有x進(jìn)行期望值計(jì)算;ep(y1|x)[cer(y1,y)]表示在給定輸入x的條件下,根據(jù)目標(biāo)語(yǔ)音識(shí)別模型輸出的概率分布,計(jì)算y1和y之間的字符錯(cuò)誤率的期望值;p(y1|x)為給定輸入x的條件下,目標(biāo)語(yǔ)音識(shí)別模型輸出y1的概率;cer(y1,y)為y1和y之間的字符錯(cuò)誤率。
6、s2、將目標(biāo)艙音輸入到目標(biāo)語(yǔ)音識(shí)別模型中以獲取目標(biāo)艙音對(duì)應(yīng)的預(yù)測(cè)文本,預(yù)測(cè)文本為目標(biāo)語(yǔ)音識(shí)別模型輸出的文本,目標(biāo)艙音為初始艙音中包含人聲的音頻片段,初始艙音為從目標(biāo)航空器的機(jī)艙中采集到的音頻。
7、根據(jù)本發(fā)明的第二方面,提供了一種非瞬時(shí)性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),存儲(chǔ)介質(zhì)中存儲(chǔ)有計(jì)算機(jī)程序,計(jì)算機(jī)程序由處理器加載并執(zhí)行以實(shí)現(xiàn)前述的方法。
8、根據(jù)本發(fā)明的第三方面,提供了一種電子設(shè)備,包括:處理器、存儲(chǔ)器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,處理器執(zhí)行計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)前述的方法。
9、本發(fā)明至少具有以下有益效果:
10、本發(fā)明提供了一種基于小樣本的機(jī)艙人聲識(shí)別方法、介質(zhì)及設(shè)備,所述方法基于復(fù)合損失函數(shù)對(duì)初始語(yǔ)音識(shí)別模型進(jìn)行訓(xùn)練以獲取目標(biāo)語(yǔ)音識(shí)別模型,將目標(biāo)艙音輸入到目標(biāo)語(yǔ)音識(shí)別模型中以獲取目標(biāo)艙音對(duì)應(yīng)的預(yù)測(cè)文本,復(fù)合損失函數(shù)由長(zhǎng)度損失函數(shù),強(qiáng)化學(xué)習(xí)損失函數(shù),交叉熵?fù)p失函數(shù)和ctc損失函數(shù)這四種損失函數(shù)及這四種損失函數(shù)對(duì)應(yīng)的權(quán)重參數(shù)構(gòu)成;可知,本發(fā)明能夠從多個(gè)維度對(duì)模型進(jìn)行優(yōu)化,這種多目標(biāo)聯(lián)合優(yōu)化的方式能夠在小樣本情況下實(shí)現(xiàn)更高的數(shù)據(jù)利用率,只需使用少量的樣本數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練,無(wú)需使用大量的樣本數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練,降低對(duì)大數(shù)據(jù)量的依賴(lài),從而提高模型的泛化能力,并且復(fù)合損失函數(shù)通過(guò)結(jié)合多個(gè)損失函數(shù),提供了更加豐富和多樣化的梯度信號(hào),使得模型在每次更新時(shí)能夠從多個(gè)方向進(jìn)行調(diào)整,從而加速收斂過(guò)程,此外,相較于使用單一的交叉熵?fù)p失函數(shù),復(fù)合損失函數(shù)引入了其他類(lèi)型的損失,能夠?yàn)槟P吞峁╊~外的約束條件,避免模型完全依賴(lài)上下文進(jìn)行預(yù)測(cè),并且,復(fù)合損失函數(shù)中的強(qiáng)化學(xué)習(xí)損失函數(shù)是基于模型預(yù)測(cè)分布和字符錯(cuò)誤率確定的損失函數(shù),通過(guò)最小化字符錯(cuò)誤率,能夠更好地處理吞字或連字等現(xiàn)象,使模型生成更貼近實(shí)際輸出的序列,減少了因上下文推測(cè)而導(dǎo)致的誤差,從而使模型輸出的文本更接近音頻中的實(shí)際內(nèi)容,不僅顯著地提高了機(jī)艙人聲識(shí)別的速度還確保了預(yù)測(cè)文本能夠精確反映艙音中的實(shí)際內(nèi)容。
1.一種基于小樣本的機(jī)艙人聲識(shí)別方法,其特征在于,所述方法包括如下步驟:
2.根據(jù)權(quán)利要求1所述的基于小樣本的機(jī)艙人聲識(shí)別方法,其特征在于,長(zhǎng)度損失函數(shù)為能夠衡量模型預(yù)測(cè)的序列長(zhǎng)度與真實(shí)序列長(zhǎng)度之間的差異的損失函數(shù)。
3.根據(jù)權(quán)利要求1所述的基于小樣本的機(jī)艙人聲識(shí)別方法,其特征在于,在d中,目標(biāo)樣本音頻為輸入特征,所述目標(biāo)樣本音頻對(duì)應(yīng)的實(shí)際文本為所述輸入特征對(duì)應(yīng)的標(biāo)簽。
4.根據(jù)權(quán)利要求1所述的基于小樣本的機(jī)艙人聲識(shí)別方法,其特征在于,目標(biāo)語(yǔ)音識(shí)別模型包括:音頻特征融合模塊、編碼模塊、字?jǐn)?shù)識(shí)別模塊和解碼模塊,其中,編碼模塊包括若干個(gè)cnn層和若干個(gè)編碼器,字?jǐn)?shù)識(shí)別模塊包括卷積層和全連接神經(jīng)網(wǎng)絡(luò),解碼模塊包括若干個(gè)非自回歸解碼器。
5.根據(jù)權(quán)利要求4所述的基于小樣本的機(jī)艙人聲識(shí)別方法,其特征在于,編碼模塊中的編碼器為transformer架構(gòu)中的編碼器。
6.根據(jù)權(quán)利要求4所述的基于小樣本的機(jī)艙人聲識(shí)別方法,其特征在于,在目標(biāo)語(yǔ)音識(shí)別模型生成目標(biāo)艙音對(duì)應(yīng)的預(yù)測(cè)文本的過(guò)程中,將目標(biāo)艙音的fbank特征輸入到音頻特征融合模塊中以獲取目標(biāo)艙音對(duì)應(yīng)的中間音頻特征,音頻特征融合模塊用于將fbank特征中每a幀連續(xù)的fbank特征向量拼接成一個(gè)特征向量,且拼接時(shí)不重疊,其中,a為預(yù)設(shè)的拼接幀數(shù)。
7.根據(jù)權(quán)利要求6所述的基于小樣本的機(jī)艙人聲識(shí)別方法,其特征在于,將目標(biāo)艙音對(duì)應(yīng)的中間音頻特征輸入到編碼模塊中,先經(jīng)過(guò)若干個(gè)cnn層處理再經(jīng)過(guò)若干個(gè)編碼器處理以獲取目標(biāo)艙音對(duì)應(yīng)的特征向量矩陣。
8.根據(jù)權(quán)利要求7所述的基于小樣本的機(jī)艙人聲識(shí)別方法,其特征在于,將目標(biāo)艙音對(duì)應(yīng)的特征向量矩陣輸入到字?jǐn)?shù)識(shí)別模塊中以獲取目標(biāo)艙音對(duì)應(yīng)的字符數(shù)量;將目標(biāo)艙音對(duì)應(yīng)的特征向量矩陣和目標(biāo)艙音對(duì)應(yīng)的字符數(shù)量輸入到解碼模塊中以獲取目標(biāo)艙音對(duì)應(yīng)的預(yù)測(cè)文本。
9.一種非瞬時(shí)性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述存儲(chǔ)介質(zhì)中存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序由處理器加載并執(zhí)行以實(shí)現(xiàn)如權(quán)利要求1-8中任意一項(xiàng)所述的基于小樣本的機(jī)艙人聲識(shí)別方法。
10.一種電子設(shè)備,包括:處理器、存儲(chǔ)器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如權(quán)利要求1-8中任意一項(xiàng)所述的基于小樣本的機(jī)艙人聲識(shí)別方法。