語音識(shí)別模型訓(xùn)練方法、裝置和計(jì)算機(jī)設(shè)備與流程

文檔序號(hào)：42298975發(fā)布日期：2025-06-27 18:39閱讀：12來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本技術(shù)涉及人工智能，特別是涉及一種語音識(shí)別模型訓(xùn)練方法、裝置和計(jì)算機(jī)設(shè)備。

背景技術(shù)：

1、隨著語音識(shí)別技術(shù)在人工智能領(lǐng)域中的應(yīng)用越發(fā)廣泛，人們對(duì)語音識(shí)別技術(shù)的準(zhǔn)確性提出了越來越高的要求。語音識(shí)別模型通常通過訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練得到，而訓(xùn)練數(shù)據(jù)則需要收集大量的經(jīng)過標(biāo)注的音頻數(shù)據(jù)。為了確保準(zhǔn)確性，訓(xùn)練數(shù)據(jù)的標(biāo)注往往通過人工對(duì)音頻數(shù)據(jù)標(biāo)注得到，然而這一方法費(fèi)時(shí)費(fèi)力，耗費(fèi)人力成本較高。

2、傳統(tǒng)技術(shù)還通過人工智能自動(dòng)標(biāo)注的方式，然而，由于標(biāo)注音頻數(shù)據(jù)質(zhì)量不穩(wěn)定，在無監(jiān)督學(xué)習(xí)的情況下，訓(xùn)練數(shù)據(jù)本身存在錯(cuò)誤，也就造成語音識(shí)別模型的準(zhǔn)確性大幅降低。

3、由此可見，現(xiàn)有的語音識(shí)別模型訓(xùn)練技術(shù)，仍然存在訓(xùn)練成本高、模型準(zhǔn)確率較低的問題。

技術(shù)實(shí)現(xiàn)思路

1、基于此，有必要針對(duì)上述技術(shù)問題，提供一種能夠降低訓(xùn)練成本、提高模型準(zhǔn)確率的語音識(shí)別模型訓(xùn)練方法、裝置和計(jì)算機(jī)設(shè)備。

2、第一個(gè)方面，本技術(shù)提供了一種語音識(shí)別模型訓(xùn)練方法，所述語音識(shí)別模型訓(xùn)練方法包括：

3、獲取待標(biāo)注音頻文件集中每個(gè)待標(biāo)注音頻文件的多個(gè)第一識(shí)別結(jié)果；多個(gè)所述第一識(shí)別結(jié)果由多個(gè)語音識(shí)別模型對(duì)所述待標(biāo)注音頻文件進(jìn)行語音識(shí)別得到；

4、通過每個(gè)所述待標(biāo)注音頻文件的多個(gè)所述第一識(shí)別結(jié)果，對(duì)相應(yīng)的所述待標(biāo)注音頻文件進(jìn)行自動(dòng)標(biāo)注處理，確定每個(gè)所述待標(biāo)注音頻文件的標(biāo)注結(jié)果和結(jié)果置信度；所述自動(dòng)標(biāo)注處理包括投票驗(yàn)證和片段驗(yàn)證；

5、整合每個(gè)所述待標(biāo)注音頻文件以及對(duì)應(yīng)的標(biāo)注結(jié)果和結(jié)果置信度，生成標(biāo)注數(shù)據(jù)集；

6、根據(jù)所述標(biāo)注數(shù)據(jù)集，對(duì)預(yù)設(shè)語音識(shí)別算法進(jìn)行訓(xùn)練，得到目標(biāo)語音識(shí)別模型。

7、在其中一個(gè)實(shí)施例中，所述通過每個(gè)所述待標(biāo)注音頻文件的多個(gè)所述第一識(shí)別結(jié)果，對(duì)相應(yīng)的所述待標(biāo)注音頻文件進(jìn)行自動(dòng)標(biāo)注處理，確定每個(gè)所述待標(biāo)注音頻文件的標(biāo)注結(jié)果和結(jié)果置信度包括：

8、針對(duì)每個(gè)所述待標(biāo)注音頻文件，計(jì)算目標(biāo)識(shí)別結(jié)果與其他識(shí)別結(jié)果之間的共同字符數(shù)；所述目標(biāo)識(shí)別結(jié)果為多個(gè)第一識(shí)別結(jié)果中的任一第一識(shí)別結(jié)果；所述其他識(shí)別結(jié)果為除目標(biāo)識(shí)別結(jié)果之外的第一識(shí)別結(jié)果；

9、將所述共同字符數(shù)最大的目標(biāo)識(shí)別結(jié)果，作為相應(yīng)待標(biāo)注音頻文件的標(biāo)注結(jié)果；

10、確定所述標(biāo)注結(jié)果分別與其他識(shí)別結(jié)果之間的匹配片段，并通過所述匹配片段的數(shù)量確定所述標(biāo)注結(jié)果的結(jié)果置信度。

11、在其中一個(gè)實(shí)施例中，所述確定所述標(biāo)注結(jié)果分別與其他識(shí)別結(jié)果之間的匹配片段，并通過所述匹配片段的數(shù)量確定所述標(biāo)注結(jié)果的結(jié)果置信度包括：

12、以預(yù)設(shè)文本處理算法對(duì)所述標(biāo)注結(jié)果進(jìn)行切分，得到多個(gè)第一片段；

13、以預(yù)設(shè)文本處理算法對(duì)所述其他識(shí)別結(jié)果進(jìn)行切分，得到多個(gè)第二片段；

14、將每個(gè)所述第一片段分別與每個(gè)所述第二片段進(jìn)行匹配，確定匹配片段；

15、將所述匹配片段的數(shù)量與所述第一片段的總數(shù)量的比值，作為所述標(biāo)注結(jié)果的結(jié)果置信度。

16、在其中一個(gè)實(shí)施例中，所述整合每個(gè)待標(biāo)注音頻文件以及對(duì)應(yīng)的標(biāo)注結(jié)果和結(jié)果置信度，生成標(biāo)注數(shù)據(jù)集包括：

17、將結(jié)果置信度滿足預(yù)設(shè)置信度的待標(biāo)注音頻文件以及標(biāo)注結(jié)果，作為標(biāo)注數(shù)據(jù)；

18、獲取多個(gè)預(yù)設(shè)文本以及語音生成模型；

19、將所述預(yù)設(shè)文本輸入所述語音生成模型，得到多個(gè)生成音頻文件；

20、將所述生成音頻文件以及對(duì)應(yīng)的預(yù)設(shè)文本，作為生成數(shù)據(jù)；

21、整合所述生成數(shù)據(jù)以及標(biāo)注數(shù)據(jù)，生成標(biāo)注數(shù)據(jù)集。

22、在其中一個(gè)實(shí)施例中，所述將所述生成音頻文件以及對(duì)應(yīng)的預(yù)設(shè)文本，作為生成數(shù)據(jù)之后還包括：

23、獲取每個(gè)所述生成音頻文件的多個(gè)第二識(shí)別結(jié)果；多個(gè)所述第二識(shí)別結(jié)果由多個(gè)語音識(shí)別模型對(duì)所述生成音頻文件進(jìn)行語音識(shí)別得到；

24、通過每個(gè)生成音頻文件的多個(gè)第二識(shí)別結(jié)果，對(duì)相應(yīng)的所述生成音頻文件進(jìn)行自動(dòng)標(biāo)注處理，確定每個(gè)所述生成音頻文件的標(biāo)注結(jié)果和結(jié)果置信度；

25、通過每個(gè)所述生成音頻文件的標(biāo)注結(jié)果和結(jié)果置信度，對(duì)多個(gè)所述生成數(shù)據(jù)進(jìn)行篩選，得到篩選后的生成數(shù)據(jù)。

26、在其中一個(gè)實(shí)施例中，采用多個(gè)生成數(shù)據(jù)線程生成所述標(biāo)注數(shù)據(jù)集，所述根據(jù)所述標(biāo)注數(shù)據(jù)集，對(duì)預(yù)設(shè)語音識(shí)別算法進(jìn)行訓(xùn)練，得到目標(biāo)語音識(shí)別模型包括：

27、通過多個(gè)生成數(shù)據(jù)線程將所述標(biāo)注數(shù)據(jù)集寫入數(shù)據(jù)隊(duì)列；

28、通過多個(gè)訓(xùn)練線程逐條讀取所述數(shù)據(jù)隊(duì)列中的標(biāo)注數(shù)據(jù)集，并輸入至所述預(yù)設(shè)語音識(shí)別算法進(jìn)行訓(xùn)練，得到目標(biāo)語音識(shí)別模型。

29、在其中一個(gè)實(shí)施例中，所述方法還包括：

30、獲取所述數(shù)據(jù)隊(duì)列中的數(shù)據(jù)數(shù)量；

31、根據(jù)所述數(shù)據(jù)數(shù)量，調(diào)整所述生成數(shù)據(jù)線程的數(shù)量和/或調(diào)整所述訓(xùn)練線程的數(shù)量。

32、第二個(gè)方面，本技術(shù)提供了一種語音識(shí)別模型訓(xùn)練裝置，所述裝置包括：

33、獲取模塊，用于獲取待標(biāo)注音頻文件集中每個(gè)待標(biāo)注音頻文件的多個(gè)第一識(shí)別結(jié)果；多個(gè)所述第一識(shí)別結(jié)果由多個(gè)語音識(shí)別模型對(duì)所述待標(biāo)注音頻文件進(jìn)行語音識(shí)別得到；

34、自動(dòng)標(biāo)注模塊，用于通過每個(gè)待標(biāo)注音頻文件的多個(gè)第一識(shí)別結(jié)果對(duì)相應(yīng)的所述待標(biāo)注音頻文件進(jìn)行自動(dòng)標(biāo)注處理，確定每個(gè)所述待標(biāo)注音頻文件的標(biāo)注結(jié)果和結(jié)果置信度；所述自動(dòng)標(biāo)注處理包括投票驗(yàn)證和片段驗(yàn)證；

35、數(shù)據(jù)集生成模塊，用于整合每個(gè)待標(biāo)注音頻文件以及對(duì)應(yīng)的標(biāo)注結(jié)果和結(jié)果置信度，生成標(biāo)注數(shù)據(jù)集；

36、訓(xùn)練模塊，用于根據(jù)所述標(biāo)注數(shù)據(jù)集，對(duì)預(yù)設(shè)語音識(shí)別算法進(jìn)行訓(xùn)練，得到目標(biāo)語音識(shí)別模型。

37、第三個(gè)方面，本技術(shù)提供了一種計(jì)算機(jī)設(shè)備，包括存儲(chǔ)器和處理器，所述存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)程序，所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如上所述的方法。

38、第四個(gè)方面，本技術(shù)提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其上存儲(chǔ)有計(jì)算機(jī)程序，所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上所述的方法。

39、上述語音識(shí)別模型訓(xùn)練方法、裝置和計(jì)算機(jī)設(shè)備，通過獲取待標(biāo)注音頻文件集中每個(gè)待標(biāo)注音頻文件的多個(gè)第一識(shí)別結(jié)果；多個(gè)所述第一識(shí)別結(jié)果由多個(gè)語音識(shí)別模型對(duì)所述待標(biāo)注音頻文件進(jìn)行語音識(shí)別得到；通過每個(gè)所述待標(biāo)注音頻文件的多個(gè)所述第一識(shí)別結(jié)果，對(duì)相應(yīng)的所述待標(biāo)注音頻文件進(jìn)行自動(dòng)標(biāo)注處理，確定每個(gè)所述待標(biāo)注音頻文件的標(biāo)注結(jié)果和結(jié)果置信度；所述自動(dòng)標(biāo)注處理包括投票驗(yàn)證和片段驗(yàn)證；整合每個(gè)所述待標(biāo)注音頻文件以及對(duì)應(yīng)的標(biāo)注結(jié)果和結(jié)果置信度，生成標(biāo)注數(shù)據(jù)集；根據(jù)所述標(biāo)注數(shù)據(jù)集，對(duì)預(yù)設(shè)語音識(shí)別算法進(jìn)行訓(xùn)練，得到目標(biāo)語音識(shí)別模型，利用多個(gè)語音識(shí)別模型分別進(jìn)行語音識(shí)別得到第一識(shí)別結(jié)果，可以減少單一模型的偏差，并根據(jù)多個(gè)第一識(shí)別結(jié)果進(jìn)行包括投票驗(yàn)證和片段驗(yàn)證在內(nèi)的自動(dòng)標(biāo)注，得到標(biāo)注結(jié)果和結(jié)果置信度，可以減少錯(cuò)誤標(biāo)注、提高標(biāo)注結(jié)果的一致性和可靠性，根據(jù)標(biāo)注結(jié)果和結(jié)果置信度來進(jìn)一步得到標(biāo)注數(shù)據(jù)集，可以得到更為準(zhǔn)確的標(biāo)注數(shù)據(jù)集用于模型訓(xùn)練，實(shí)現(xiàn)了多模型聯(lián)合識(shí)別和自動(dòng)化驗(yàn)證，從而減少了對(duì)人工標(biāo)注的依賴，同時(shí)通過高質(zhì)量的標(biāo)注數(shù)據(jù)集提升了模型性能，從而達(dá)到降低訓(xùn)練成本、提高模型準(zhǔn)確率的效果。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：曹衛(wèi),韓瑞峰,史春苓,陳科科
技術(shù)所有人：杭州秋果計(jì)劃科技有限公司
我是此專利的發(fā)明人

上一篇：一種有利于抗原呈遞的間隔肽的制作方法
下一篇：面向樣本-標(biāo)簽噪聲耦合場景的無人機(jī)智能故障診斷方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲综合日韩精品欧美综合区,日韩国产在线一区,久久久精品一二三区,午夜精品久久久久久中宇69,国产做爰一区二区三区视频,aa天堂,三级在线视频

語音識(shí)別模型訓(xùn)練方法、裝置和計(jì)算機(jī)設(shè)備與流程

語音識(shí)別模型訓(xùn)練方法、裝置和計(jì)算機(jī)設(shè)備與流程