本技術(shù)涉及人工智能,特別是涉及一種語音識(shí)別模型訓(xùn)練方法、裝置和計(jì)算機(jī)設(shè)備。
背景技術(shù):
1、隨著語音識(shí)別技術(shù)在人工智能領(lǐng)域中的應(yīng)用越發(fā)廣泛,人們對(duì)語音識(shí)別技術(shù)的準(zhǔn)確性提出了越來越高的要求。語音識(shí)別模型通常通過訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練得到,而訓(xùn)練數(shù)據(jù)則需要收集大量的經(jīng)過標(biāo)注的音頻數(shù)據(jù)。為了確保準(zhǔn)確性,訓(xùn)練數(shù)據(jù)的標(biāo)注往往通過人工對(duì)音頻數(shù)據(jù)標(biāo)注得到,然而這一方法費(fèi)時(shí)費(fèi)力,耗費(fèi)人力成本較高。
2、傳統(tǒng)技術(shù)還通過人工智能自動(dòng)標(biāo)注的方式,然而,由于標(biāo)注音頻數(shù)據(jù)質(zhì)量不穩(wěn)定,在無監(jiān)督學(xué)習(xí)的情況下,訓(xùn)練數(shù)據(jù)本身存在錯(cuò)誤,也就造成語音識(shí)別模型的準(zhǔn)確性大幅降低。
3、由此可見,現(xiàn)有的語音識(shí)別模型訓(xùn)練技術(shù),仍然存在訓(xùn)練成本高、模型準(zhǔn)確率較低的問題。
技術(shù)實(shí)現(xiàn)思路
1、基于此,有必要針對(duì)上述技術(shù)問題,提供一種能夠降低訓(xùn)練成本、提高模型準(zhǔn)確率的語音識(shí)別模型訓(xùn)練方法、裝置和計(jì)算機(jī)設(shè)備。
2、第一個(gè)方面,本技術(shù)提供了一種語音識(shí)別模型訓(xùn)練方法,所述語音識(shí)別模型訓(xùn)練方法包括:
3、獲取待標(biāo)注音頻文件集中每個(gè)待標(biāo)注音頻文件的多個(gè)第一識(shí)別結(jié)果;多個(gè)所述第一識(shí)別結(jié)果由多個(gè)語音識(shí)別模型對(duì)所述待標(biāo)注音頻文件進(jìn)行語音識(shí)別得到;
4、通過每個(gè)所述待標(biāo)注音頻文件的多個(gè)所述第一識(shí)別結(jié)果,對(duì)相應(yīng)的所述待標(biāo)注音頻文件進(jìn)行自動(dòng)標(biāo)注處理,確定每個(gè)所述待標(biāo)注音頻文件的標(biāo)注結(jié)果和結(jié)果置信度;所述自動(dòng)標(biāo)注處理包括投票驗(yàn)證和片段驗(yàn)證;
5、整合每個(gè)所述待標(biāo)注音頻文件以及對(duì)應(yīng)的標(biāo)注結(jié)果和結(jié)果置信度,生成標(biāo)注數(shù)據(jù)集;
6、根據(jù)所述標(biāo)注數(shù)據(jù)集,對(duì)預(yù)設(shè)語音識(shí)別算法進(jìn)行訓(xùn)練,得到目標(biāo)語音識(shí)別模型。
7、在其中一個(gè)實(shí)施例中,所述通過每個(gè)所述待標(biāo)注音頻文件的多個(gè)所述第一識(shí)別結(jié)果,對(duì)相應(yīng)的所述待標(biāo)注音頻文件進(jìn)行自動(dòng)標(biāo)注處理,確定每個(gè)所述待標(biāo)注音頻文件的標(biāo)注結(jié)果和結(jié)果置信度包括:
8、針對(duì)每個(gè)所述待標(biāo)注音頻文件,計(jì)算目標(biāo)識(shí)別結(jié)果與其他識(shí)別結(jié)果之間的共同字符數(shù);所述目標(biāo)識(shí)別結(jié)果為多個(gè)第一識(shí)別結(jié)果中的任一第一識(shí)別結(jié)果;所述其他識(shí)別結(jié)果為除目標(biāo)識(shí)別結(jié)果之外的第一識(shí)別結(jié)果;
9、將所述共同字符數(shù)最大的目標(biāo)識(shí)別結(jié)果,作為相應(yīng)待標(biāo)注音頻文件的標(biāo)注結(jié)果;
10、確定所述標(biāo)注結(jié)果分別與其他識(shí)別結(jié)果之間的匹配片段,并通過所述匹配片段的數(shù)量確定所述標(biāo)注結(jié)果的結(jié)果置信度。
11、在其中一個(gè)實(shí)施例中,所述確定所述標(biāo)注結(jié)果分別與其他識(shí)別結(jié)果之間的匹配片段,并通過所述匹配片段的數(shù)量確定所述標(biāo)注結(jié)果的結(jié)果置信度包括:
12、以預(yù)設(shè)文本處理算法對(duì)所述標(biāo)注結(jié)果進(jìn)行切分,得到多個(gè)第一片段;
13、以預(yù)設(shè)文本處理算法對(duì)所述其他識(shí)別結(jié)果進(jìn)行切分,得到多個(gè)第二片段;
14、將每個(gè)所述第一片段分別與每個(gè)所述第二片段進(jìn)行匹配,確定匹配片段;
15、將所述匹配片段的數(shù)量與所述第一片段的總數(shù)量的比值,作為所述標(biāo)注結(jié)果的結(jié)果置信度。
16、在其中一個(gè)實(shí)施例中,所述整合每個(gè)待標(biāo)注音頻文件以及對(duì)應(yīng)的標(biāo)注結(jié)果和結(jié)果置信度,生成標(biāo)注數(shù)據(jù)集包括:
17、將結(jié)果置信度滿足預(yù)設(shè)置信度的待標(biāo)注音頻文件以及標(biāo)注結(jié)果,作為標(biāo)注數(shù)據(jù);
18、獲取多個(gè)預(yù)設(shè)文本以及語音生成模型;
19、將所述預(yù)設(shè)文本輸入所述語音生成模型,得到多個(gè)生成音頻文件;
20、將所述生成音頻文件以及對(duì)應(yīng)的預(yù)設(shè)文本,作為生成數(shù)據(jù);
21、整合所述生成數(shù)據(jù)以及標(biāo)注數(shù)據(jù),生成標(biāo)注數(shù)據(jù)集。
22、在其中一個(gè)實(shí)施例中,所述將所述生成音頻文件以及對(duì)應(yīng)的預(yù)設(shè)文本,作為生成數(shù)據(jù)之后還包括:
23、獲取每個(gè)所述生成音頻文件的多個(gè)第二識(shí)別結(jié)果;多個(gè)所述第二識(shí)別結(jié)果由多個(gè)語音識(shí)別模型對(duì)所述生成音頻文件進(jìn)行語音識(shí)別得到;
24、通過每個(gè)生成音頻文件的多個(gè)第二識(shí)別結(jié)果,對(duì)相應(yīng)的所述生成音頻文件進(jìn)行自動(dòng)標(biāo)注處理,確定每個(gè)所述生成音頻文件的標(biāo)注結(jié)果和結(jié)果置信度;
25、通過每個(gè)所述生成音頻文件的標(biāo)注結(jié)果和結(jié)果置信度,對(duì)多個(gè)所述生成數(shù)據(jù)進(jìn)行篩選,得到篩選后的生成數(shù)據(jù)。
26、在其中一個(gè)實(shí)施例中,采用多個(gè)生成數(shù)據(jù)線程生成所述標(biāo)注數(shù)據(jù)集,所述根據(jù)所述標(biāo)注數(shù)據(jù)集,對(duì)預(yù)設(shè)語音識(shí)別算法進(jìn)行訓(xùn)練,得到目標(biāo)語音識(shí)別模型包括:
27、通過多個(gè)生成數(shù)據(jù)線程將所述標(biāo)注數(shù)據(jù)集寫入數(shù)據(jù)隊(duì)列;
28、通過多個(gè)訓(xùn)練線程逐條讀取所述數(shù)據(jù)隊(duì)列中的標(biāo)注數(shù)據(jù)集,并輸入至所述預(yù)設(shè)語音識(shí)別算法進(jìn)行訓(xùn)練,得到目標(biāo)語音識(shí)別模型。
29、在其中一個(gè)實(shí)施例中,所述方法還包括:
30、獲取所述數(shù)據(jù)隊(duì)列中的數(shù)據(jù)數(shù)量;
31、根據(jù)所述數(shù)據(jù)數(shù)量,調(diào)整所述生成數(shù)據(jù)線程的數(shù)量和/或調(diào)整所述訓(xùn)練線程的數(shù)量。
32、第二個(gè)方面,本技術(shù)提供了一種語音識(shí)別模型訓(xùn)練裝置,所述裝置包括:
33、獲取模塊,用于獲取待標(biāo)注音頻文件集中每個(gè)待標(biāo)注音頻文件的多個(gè)第一識(shí)別結(jié)果;多個(gè)所述第一識(shí)別結(jié)果由多個(gè)語音識(shí)別模型對(duì)所述待標(biāo)注音頻文件進(jìn)行語音識(shí)別得到;
34、自動(dòng)標(biāo)注模塊,用于通過每個(gè)待標(biāo)注音頻文件的多個(gè)第一識(shí)別結(jié)果對(duì)相應(yīng)的所述待標(biāo)注音頻文件進(jìn)行自動(dòng)標(biāo)注處理,確定每個(gè)所述待標(biāo)注音頻文件的標(biāo)注結(jié)果和結(jié)果置信度;所述自動(dòng)標(biāo)注處理包括投票驗(yàn)證和片段驗(yàn)證;
35、數(shù)據(jù)集生成模塊,用于整合每個(gè)待標(biāo)注音頻文件以及對(duì)應(yīng)的標(biāo)注結(jié)果和結(jié)果置信度,生成標(biāo)注數(shù)據(jù)集;
36、訓(xùn)練模塊,用于根據(jù)所述標(biāo)注數(shù)據(jù)集,對(duì)預(yù)設(shè)語音識(shí)別算法進(jìn)行訓(xùn)練,得到目標(biāo)語音識(shí)別模型。
37、第三個(gè)方面,本技術(shù)提供了一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器和處理器,所述存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如上所述的方法。
38、第四個(gè)方面,本技術(shù)提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上所述的方法。
39、上述語音識(shí)別模型訓(xùn)練方法、裝置和計(jì)算機(jī)設(shè)備,通過獲取待標(biāo)注音頻文件集中每個(gè)待標(biāo)注音頻文件的多個(gè)第一識(shí)別結(jié)果;多個(gè)所述第一識(shí)別結(jié)果由多個(gè)語音識(shí)別模型對(duì)所述待標(biāo)注音頻文件進(jìn)行語音識(shí)別得到;通過每個(gè)所述待標(biāo)注音頻文件的多個(gè)所述第一識(shí)別結(jié)果,對(duì)相應(yīng)的所述待標(biāo)注音頻文件進(jìn)行自動(dòng)標(biāo)注處理,確定每個(gè)所述待標(biāo)注音頻文件的標(biāo)注結(jié)果和結(jié)果置信度;所述自動(dòng)標(biāo)注處理包括投票驗(yàn)證和片段驗(yàn)證;整合每個(gè)所述待標(biāo)注音頻文件以及對(duì)應(yīng)的標(biāo)注結(jié)果和結(jié)果置信度,生成標(biāo)注數(shù)據(jù)集;根據(jù)所述標(biāo)注數(shù)據(jù)集,對(duì)預(yù)設(shè)語音識(shí)別算法進(jìn)行訓(xùn)練,得到目標(biāo)語音識(shí)別模型,利用多個(gè)語音識(shí)別模型分別進(jìn)行語音識(shí)別得到第一識(shí)別結(jié)果,可以減少單一模型的偏差,并根據(jù)多個(gè)第一識(shí)別結(jié)果進(jìn)行包括投票驗(yàn)證和片段驗(yàn)證在內(nèi)的自動(dòng)標(biāo)注,得到標(biāo)注結(jié)果和結(jié)果置信度,可以減少錯(cuò)誤標(biāo)注、提高標(biāo)注結(jié)果的一致性和可靠性,根據(jù)標(biāo)注結(jié)果和結(jié)果置信度來進(jìn)一步得到標(biāo)注數(shù)據(jù)集,可以得到更為準(zhǔn)確的標(biāo)注數(shù)據(jù)集用于模型訓(xùn)練,實(shí)現(xiàn)了多模型聯(lián)合識(shí)別和自動(dòng)化驗(yàn)證,從而減少了對(duì)人工標(biāo)注的依賴,同時(shí)通過高質(zhì)量的標(biāo)注數(shù)據(jù)集提升了模型性能,從而達(dá)到降低訓(xùn)練成本、提高模型準(zhǔn)確率的效果。