天堂资源成人√,久热最新,欧美黄色免费在线观看,国产精品久久久久久久久久精爆,91日韩中文字幕,av免费一区二区,7777精品久久久大香线蕉电影

語音識別模型訓(xùn)練方法、裝置和計(jì)算機(jī)設(shè)備與流程

文檔序號:42298975發(fā)布日期:2025-06-27 18:39閱讀:11來源:國知局

本技術(shù)涉及人工智能,特別是涉及一種語音識別模型訓(xùn)練方法、裝置和計(jì)算機(jī)設(shè)備。


背景技術(shù):

1、隨著語音識別技術(shù)在人工智能領(lǐng)域中的應(yīng)用越發(fā)廣泛,人們對語音識別技術(shù)的準(zhǔn)確性提出了越來越高的要求。語音識別模型通常通過訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練得到,而訓(xùn)練數(shù)據(jù)則需要收集大量的經(jīng)過標(biāo)注的音頻數(shù)據(jù)。為了確保準(zhǔn)確性,訓(xùn)練數(shù)據(jù)的標(biāo)注往往通過人工對音頻數(shù)據(jù)標(biāo)注得到,然而這一方法費(fèi)時(shí)費(fèi)力,耗費(fèi)人力成本較高。

2、傳統(tǒng)技術(shù)還通過人工智能自動標(biāo)注的方式,然而,由于標(biāo)注音頻數(shù)據(jù)質(zhì)量不穩(wěn)定,在無監(jiān)督學(xué)習(xí)的情況下,訓(xùn)練數(shù)據(jù)本身存在錯(cuò)誤,也就造成語音識別模型的準(zhǔn)確性大幅降低。

3、由此可見,現(xiàn)有的語音識別模型訓(xùn)練技術(shù),仍然存在訓(xùn)練成本高、模型準(zhǔn)確率較低的問題。


技術(shù)實(shí)現(xiàn)思路

1、基于此,有必要針對上述技術(shù)問題,提供一種能夠降低訓(xùn)練成本、提高模型準(zhǔn)確率的語音識別模型訓(xùn)練方法、裝置和計(jì)算機(jī)設(shè)備。

2、第一個(gè)方面,本技術(shù)提供了一種語音識別模型訓(xùn)練方法,所述語音識別模型訓(xùn)練方法包括:

3、獲取待標(biāo)注音頻文件集中每個(gè)待標(biāo)注音頻文件的多個(gè)第一識別結(jié)果;多個(gè)所述第一識別結(jié)果由多個(gè)語音識別模型對所述待標(biāo)注音頻文件進(jìn)行語音識別得到;

4、通過每個(gè)所述待標(biāo)注音頻文件的多個(gè)所述第一識別結(jié)果,對相應(yīng)的所述待標(biāo)注音頻文件進(jìn)行自動標(biāo)注處理,確定每個(gè)所述待標(biāo)注音頻文件的標(biāo)注結(jié)果和結(jié)果置信度;所述自動標(biāo)注處理包括投票驗(yàn)證和片段驗(yàn)證;

5、整合每個(gè)所述待標(biāo)注音頻文件以及對應(yīng)的標(biāo)注結(jié)果和結(jié)果置信度,生成標(biāo)注數(shù)據(jù)集;

6、根據(jù)所述標(biāo)注數(shù)據(jù)集,對預(yù)設(shè)語音識別算法進(jìn)行訓(xùn)練,得到目標(biāo)語音識別模型。

7、在其中一個(gè)實(shí)施例中,所述通過每個(gè)所述待標(biāo)注音頻文件的多個(gè)所述第一識別結(jié)果,對相應(yīng)的所述待標(biāo)注音頻文件進(jìn)行自動標(biāo)注處理,確定每個(gè)所述待標(biāo)注音頻文件的標(biāo)注結(jié)果和結(jié)果置信度包括:

8、針對每個(gè)所述待標(biāo)注音頻文件,計(jì)算目標(biāo)識別結(jié)果與其他識別結(jié)果之間的共同字符數(shù);所述目標(biāo)識別結(jié)果為多個(gè)第一識別結(jié)果中的任一第一識別結(jié)果;所述其他識別結(jié)果為除目標(biāo)識別結(jié)果之外的第一識別結(jié)果;

9、將所述共同字符數(shù)最大的目標(biāo)識別結(jié)果,作為相應(yīng)待標(biāo)注音頻文件的標(biāo)注結(jié)果;

10、確定所述標(biāo)注結(jié)果分別與其他識別結(jié)果之間的匹配片段,并通過所述匹配片段的數(shù)量確定所述標(biāo)注結(jié)果的結(jié)果置信度。

11、在其中一個(gè)實(shí)施例中,所述確定所述標(biāo)注結(jié)果分別與其他識別結(jié)果之間的匹配片段,并通過所述匹配片段的數(shù)量確定所述標(biāo)注結(jié)果的結(jié)果置信度包括:

12、以預(yù)設(shè)文本處理算法對所述標(biāo)注結(jié)果進(jìn)行切分,得到多個(gè)第一片段;

13、以預(yù)設(shè)文本處理算法對所述其他識別結(jié)果進(jìn)行切分,得到多個(gè)第二片段;

14、將每個(gè)所述第一片段分別與每個(gè)所述第二片段進(jìn)行匹配,確定匹配片段;

15、將所述匹配片段的數(shù)量與所述第一片段的總數(shù)量的比值,作為所述標(biāo)注結(jié)果的結(jié)果置信度。

16、在其中一個(gè)實(shí)施例中,所述整合每個(gè)待標(biāo)注音頻文件以及對應(yīng)的標(biāo)注結(jié)果和結(jié)果置信度,生成標(biāo)注數(shù)據(jù)集包括:

17、將結(jié)果置信度滿足預(yù)設(shè)置信度的待標(biāo)注音頻文件以及標(biāo)注結(jié)果,作為標(biāo)注數(shù)據(jù);

18、獲取多個(gè)預(yù)設(shè)文本以及語音生成模型;

19、將所述預(yù)設(shè)文本輸入所述語音生成模型,得到多個(gè)生成音頻文件;

20、將所述生成音頻文件以及對應(yīng)的預(yù)設(shè)文本,作為生成數(shù)據(jù);

21、整合所述生成數(shù)據(jù)以及標(biāo)注數(shù)據(jù),生成標(biāo)注數(shù)據(jù)集。

22、在其中一個(gè)實(shí)施例中,所述將所述生成音頻文件以及對應(yīng)的預(yù)設(shè)文本,作為生成數(shù)據(jù)之后還包括:

23、獲取每個(gè)所述生成音頻文件的多個(gè)第二識別結(jié)果;多個(gè)所述第二識別結(jié)果由多個(gè)語音識別模型對所述生成音頻文件進(jìn)行語音識別得到;

24、通過每個(gè)生成音頻文件的多個(gè)第二識別結(jié)果,對相應(yīng)的所述生成音頻文件進(jìn)行自動標(biāo)注處理,確定每個(gè)所述生成音頻文件的標(biāo)注結(jié)果和結(jié)果置信度;

25、通過每個(gè)所述生成音頻文件的標(biāo)注結(jié)果和結(jié)果置信度,對多個(gè)所述生成數(shù)據(jù)進(jìn)行篩選,得到篩選后的生成數(shù)據(jù)。

26、在其中一個(gè)實(shí)施例中,采用多個(gè)生成數(shù)據(jù)線程生成所述標(biāo)注數(shù)據(jù)集,所述根據(jù)所述標(biāo)注數(shù)據(jù)集,對預(yù)設(shè)語音識別算法進(jìn)行訓(xùn)練,得到目標(biāo)語音識別模型包括:

27、通過多個(gè)生成數(shù)據(jù)線程將所述標(biāo)注數(shù)據(jù)集寫入數(shù)據(jù)隊(duì)列;

28、通過多個(gè)訓(xùn)練線程逐條讀取所述數(shù)據(jù)隊(duì)列中的標(biāo)注數(shù)據(jù)集,并輸入至所述預(yù)設(shè)語音識別算法進(jìn)行訓(xùn)練,得到目標(biāo)語音識別模型。

29、在其中一個(gè)實(shí)施例中,所述方法還包括:

30、獲取所述數(shù)據(jù)隊(duì)列中的數(shù)據(jù)數(shù)量;

31、根據(jù)所述數(shù)據(jù)數(shù)量,調(diào)整所述生成數(shù)據(jù)線程的數(shù)量和/或調(diào)整所述訓(xùn)練線程的數(shù)量。

32、第二個(gè)方面,本技術(shù)提供了一種語音識別模型訓(xùn)練裝置,所述裝置包括:

33、獲取模塊,用于獲取待標(biāo)注音頻文件集中每個(gè)待標(biāo)注音頻文件的多個(gè)第一識別結(jié)果;多個(gè)所述第一識別結(jié)果由多個(gè)語音識別模型對所述待標(biāo)注音頻文件進(jìn)行語音識別得到;

34、自動標(biāo)注模塊,用于通過每個(gè)待標(biāo)注音頻文件的多個(gè)第一識別結(jié)果對相應(yīng)的所述待標(biāo)注音頻文件進(jìn)行自動標(biāo)注處理,確定每個(gè)所述待標(biāo)注音頻文件的標(biāo)注結(jié)果和結(jié)果置信度;所述自動標(biāo)注處理包括投票驗(yàn)證和片段驗(yàn)證;

35、數(shù)據(jù)集生成模塊,用于整合每個(gè)待標(biāo)注音頻文件以及對應(yīng)的標(biāo)注結(jié)果和結(jié)果置信度,生成標(biāo)注數(shù)據(jù)集;

36、訓(xùn)練模塊,用于根據(jù)所述標(biāo)注數(shù)據(jù)集,對預(yù)設(shè)語音識別算法進(jìn)行訓(xùn)練,得到目標(biāo)語音識別模型。

37、第三個(gè)方面,本技術(shù)提供了一種計(jì)算機(jī)設(shè)備,包括存儲器和處理器,所述存儲器存儲有計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如上所述的方法。

38、第四個(gè)方面,本技術(shù)提供了一種計(jì)算機(jī)可讀存儲介質(zhì),其上存儲有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上所述的方法。

39、上述語音識別模型訓(xùn)練方法、裝置和計(jì)算機(jī)設(shè)備,通過獲取待標(biāo)注音頻文件集中每個(gè)待標(biāo)注音頻文件的多個(gè)第一識別結(jié)果;多個(gè)所述第一識別結(jié)果由多個(gè)語音識別模型對所述待標(biāo)注音頻文件進(jìn)行語音識別得到;通過每個(gè)所述待標(biāo)注音頻文件的多個(gè)所述第一識別結(jié)果,對相應(yīng)的所述待標(biāo)注音頻文件進(jìn)行自動標(biāo)注處理,確定每個(gè)所述待標(biāo)注音頻文件的標(biāo)注結(jié)果和結(jié)果置信度;所述自動標(biāo)注處理包括投票驗(yàn)證和片段驗(yàn)證;整合每個(gè)所述待標(biāo)注音頻文件以及對應(yīng)的標(biāo)注結(jié)果和結(jié)果置信度,生成標(biāo)注數(shù)據(jù)集;根據(jù)所述標(biāo)注數(shù)據(jù)集,對預(yù)設(shè)語音識別算法進(jìn)行訓(xùn)練,得到目標(biāo)語音識別模型,利用多個(gè)語音識別模型分別進(jìn)行語音識別得到第一識別結(jié)果,可以減少單一模型的偏差,并根據(jù)多個(gè)第一識別結(jié)果進(jìn)行包括投票驗(yàn)證和片段驗(yàn)證在內(nèi)的自動標(biāo)注,得到標(biāo)注結(jié)果和結(jié)果置信度,可以減少錯(cuò)誤標(biāo)注、提高標(biāo)注結(jié)果的一致性和可靠性,根據(jù)標(biāo)注結(jié)果和結(jié)果置信度來進(jìn)一步得到標(biāo)注數(shù)據(jù)集,可以得到更為準(zhǔn)確的標(biāo)注數(shù)據(jù)集用于模型訓(xùn)練,實(shí)現(xiàn)了多模型聯(lián)合識別和自動化驗(yàn)證,從而減少了對人工標(biāo)注的依賴,同時(shí)通過高質(zhì)量的標(biāo)注數(shù)據(jù)集提升了模型性能,從而達(dá)到降低訓(xùn)練成本、提高模型準(zhǔn)確率的效果。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1