亚洲综合日韩精品欧美综合区,日韩国产在线一区,久久久精品一二三区,午夜精品久久久久久中宇69,国产做爰一区二区三区视频,aa天堂,三级在线视频

基于深度學(xué)習(xí)的聲紋識別模型構(gòu)建及識別方法與流程

文檔序號:42296371發(fā)布日期:2025-06-27 18:34閱讀:7來源:國知局

本發(fā)明涉及深度學(xué)習(xí)和人工智能,具體地說涉及基于深度學(xué)習(xí)的聲紋識別模型構(gòu)建及識別方法。


背景技術(shù):

1、隨著生物特征認(rèn)證技術(shù)的快速發(fā)展,聲紋識別憑借其獨特的優(yōu)勢正日益成為身份認(rèn)證領(lǐng)域的重要技術(shù)手段。作為一種基于語音信號的行為特征認(rèn)證方式,聲紋識別不僅具備非接觸、低成本、高便捷性的特點,還因其生物特征的復(fù)雜性和動態(tài)性而具有較高的防偽安全性。相較于其他人臉、指紋等生物特征,聲紋識別在采集便利性、用戶隱私保護(hù)和系統(tǒng)部署成本等方面展現(xiàn)出顯著優(yōu)勢。該技術(shù)通過深度學(xué)習(xí)模型提取語音信號中的個性化特征,將說話人的聲學(xué)特性映射為固定維度的嵌入向量,這種端到端的特征表示方式有效提升了識別的準(zhǔn)確性和可靠性。在模型優(yōu)化方面,研究者們開發(fā)了多種改進(jìn)的損失函數(shù)來增強(qiáng)特征的判別能力,同時采用語音噪聲增廣技術(shù),通過在訓(xùn)練階段模擬各種噪聲和混響環(huán)境,顯著提升了系統(tǒng)在真實復(fù)雜場景下的魯棒性。

2、目前,聲紋識別技術(shù)在實際應(yīng)用中仍面臨諸多挑戰(zhàn):環(huán)境噪聲會顯著干擾語音信號質(zhì)量,尤其在嘈雜場景下系統(tǒng)識別性能明顯下降;多說話人環(huán)境中的語音混疊問題增加了目標(biāo)說話人分離與識別的難度;短語音條件下的有限聲學(xué)特征使得說話人信息提取更具挑戰(zhàn)性;不同錄音設(shè)備和聲學(xué)環(huán)境導(dǎo)致的特征分布差異影響了系統(tǒng)的跨場景魯棒性;混響環(huán)境中的直達(dá)聲與反射聲混合降低了現(xiàn)有技術(shù)的識別準(zhǔn)確率。此外,傳統(tǒng)信號處理方法存在計算復(fù)雜度高、資源利用率低的問題,難以適應(yīng)移動端部署需求;基于深度學(xué)習(xí)的方法雖然性能優(yōu)越,但仍面臨訓(xùn)練測試環(huán)境失配導(dǎo)致的泛化能力不足,以及模型復(fù)雜度與實時性要求的矛盾;端到端系統(tǒng)則受限于缺乏有效的聲學(xué)先驗知識嵌入,對復(fù)雜聲學(xué)環(huán)境的適應(yīng)能力有限,特別是在噪聲、混響和多說話人同時存在的場景下表現(xiàn)欠佳。

3、現(xiàn)有技術(shù)中,如公開號cn114913860a,在數(shù)據(jù)處理與模型訓(xùn)練方面,通過生成對抗網(wǎng)絡(luò)對小樣本語音數(shù)據(jù)進(jìn)行數(shù)據(jù)擴(kuò)增,并將生成對抗網(wǎng)絡(luò)模型的卷積層參數(shù)遷移至聲紋識別模型,以加快訓(xùn)練收斂速率并提高準(zhǔn)確率;在特征提取與模型結(jié)構(gòu)方面,主要通過傳統(tǒng)預(yù)處理方法進(jìn)行特征提取,聲紋識別模型與生成對抗網(wǎng)絡(luò)模型的卷積層結(jié)構(gòu)相同;在損失函數(shù)與優(yōu)化方法方面,主要通過更新網(wǎng)絡(luò)參數(shù)進(jìn)行優(yōu)化;在系統(tǒng)架構(gòu)與應(yīng)用場景方面,側(cè)重于聲紋識別模型的構(gòu)建和訓(xùn)練過程,應(yīng)用場景描述較寬泛。因此存在環(huán)境適應(yīng)性不足,導(dǎo)致模型在復(fù)雜聲學(xué)環(huán)境下的魯棒性較差。如公開號kr102294638b1,核心技術(shù)則聚焦于使用基于深度神經(jīng)網(wǎng)絡(luò)的特征增強(qiáng)模型和修正的損失函數(shù)進(jìn)行組合學(xué)習(xí),以提高說話人識別在噪聲環(huán)境中的魯棒性,其創(chuàng)新點在于將特征增強(qiáng)模型與說話人特征向量提取模型結(jié)合,并通過聯(lián)合學(xué)習(xí)優(yōu)化整個系統(tǒng)。因此存在模型架構(gòu)局限性,影響復(fù)雜聲學(xué)特征的表達(dá)能力,聯(lián)合學(xué)習(xí)機(jī)制可能較為簡單,特征增強(qiáng)模型與特征提取模型的結(jié)合方式可能不夠緊密。如公開號us12067989b2,提出了一種基于深度神經(jīng)網(wǎng)絡(luò)的特征增強(qiáng)與改進(jìn)損失函數(shù)的組合學(xué)習(xí)方法。該方法通過聯(lián)合訓(xùn)練特征增強(qiáng)模型和說話人特征向量提取模型,優(yōu)化整體性能。特征增強(qiáng)模型通過最小化均方誤差(mse)學(xué)習(xí),將劣化語音數(shù)據(jù)的聲學(xué)特征轉(zhuǎn)換為干凈語音數(shù)據(jù)的聲學(xué)特征。說話人特征向量提取模型采用x向量模型,通過時延神經(jīng)網(wǎng)絡(luò)(tdnn)層提取說話人相關(guān)信息,并在統(tǒng)計特征提取層計算均值和標(biāo)準(zhǔn)差,生成固定長度的說話人特征向量。在聯(lián)合訓(xùn)練中,通過修改損失函數(shù),從目標(biāo)說話人的輸出值中減去特定常數(shù)值的余量,增加說話人的后驗概率,從而提高模型在噪聲環(huán)境下的識別性能。因此在特征增強(qiáng)方法的局限性,限制了復(fù)雜聲學(xué)特征的表達(dá)能力,模型復(fù)雜度可能難以滿足低功耗設(shè)備的部署需求。如公開號wo2020204525a1,側(cè)重于特征增強(qiáng)與修正損失函數(shù)的組合學(xué)習(xí)方法。其核心在于將基于深度神經(jīng)網(wǎng)絡(luò)的特征增強(qiáng)模型與說話人特征向量提取模型相結(jié)合,通過聯(lián)合學(xué)習(xí)優(yōu)化整體性能。特征增強(qiáng)模型通過最小化均方誤差學(xué)習(xí),將劣化語音數(shù)據(jù)的聲學(xué)特征轉(zhuǎn)換為干凈語音數(shù)據(jù)的聲學(xué)特征。說話人特征向量提取模型則采用x向量模型,通過時延神經(jīng)網(wǎng)層提取與說話人相關(guān)的信息,并在統(tǒng)計特征提取層計算均值和標(biāo)準(zhǔn)差,生成固定長度的說話人特征向量。在聯(lián)合學(xué)習(xí)過程中,通過修改損失函數(shù),即從目標(biāo)說話者的輸出值中減去特定常數(shù)值的余量,來增加說話者的后驗概率,從而提高模型在噪聲環(huán)境下的識別性能。因此存在信號預(yù)處理局限性,無法有效處理非線性失真和復(fù)雜聲學(xué)干擾,模型收斂性和泛化能力受限,僅聚焦特征增強(qiáng)模塊,缺乏從信號預(yù)處理到特征提取的端到端優(yōu)化。


技術(shù)實現(xiàn)思路

1、本發(fā)明解決上述聲紋識別過程中,因在混響環(huán)境下的識別準(zhǔn)確度低、計算資源受限、無法滿足實時性要求等問題。提出基于深度學(xué)習(xí)的聲紋識別模型構(gòu)建及識別方法,通過結(jié)合卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)和長短期記憶網(wǎng)絡(luò)等端到端模型,實現(xiàn)了聲紋特征的有效提取和身份的準(zhǔn)確識別,解決了以上技術(shù)問題,特別是在混響和噪聲環(huán)境下的性能下降等問題。技術(shù)方案如下:

2、方案一。

3、基于深度學(xué)習(xí)的聲紋識別模型構(gòu)建方法,包括以下步驟:

4、s1,輸入原始語音信號,通過噪聲增廣與預(yù)處理,輸出頻譜圖;

5、s2,將所述頻譜圖依次通過淺層物理特征、中層聲道特征及深層嵌入特征的多層次特征提取,生成說話人第一嵌入特征;

6、s3,將所述說話人第一嵌入特征輸入混合神經(jīng)網(wǎng)絡(luò),提取局部特征信息與時序依賴關(guān)系,生成全局的語音特征表示;

7、s4,將所述語音特征表示通過特征增強(qiáng)網(wǎng)絡(luò)與說話人嵌入網(wǎng)絡(luò),生成說話人第二嵌入特征;

8、s5,對所述說話人第二嵌入特征進(jìn)行損失函數(shù)聯(lián)合優(yōu)化的模型訓(xùn)練,將網(wǎng)絡(luò)劃分為不同區(qū)域,通過異步子區(qū)域優(yōu)化方法協(xié)調(diào)不同損失函數(shù)對網(wǎng)絡(luò)優(yōu)化的影響,優(yōu)化增強(qiáng)網(wǎng)絡(luò)層獲得最小化去噪誤差的網(wǎng)絡(luò)參數(shù),優(yōu)化說話人嵌入網(wǎng)絡(luò)層獲得最大化身份區(qū)分度的網(wǎng)絡(luò)參數(shù)。

9、進(jìn)一步地,s1步驟中所述噪聲增廣包括:

10、從噪聲數(shù)據(jù)庫中隨機(jī)選擇噪聲信號,從加混響數(shù)據(jù)庫中隨機(jī)選擇混響信號;將所述噪聲信號與所述混響信號結(jié)合,生成具有不同混響特性的噪聲樣本;將所述噪聲樣本與原始語音信號進(jìn)行疊加,生成帶噪語音數(shù)據(jù)。

11、進(jìn)一步地,s1步驟中所述預(yù)處理包括:對原始語音信號或噪聲增廣后的帶噪語音數(shù)據(jù)至少進(jìn)行分幀、加窗操作;

12、將語音信號分割成固定長度的幀,對每一幀信號進(jìn)行加窗處理;將預(yù)處理后的語音信號轉(zhuǎn)換為頻譜圖。

13、進(jìn)一步地,s2步驟中所述淺層物理特征提取包括:提取所述頻譜圖,將時域信號轉(zhuǎn)換為頻域信號,計算每一幀的幅度譜生成頻譜圖,同時計算語音信號的短時能量。

14、進(jìn)一步地,s2步驟中所述中層聲道特征提取包括:提取發(fā)聲部位信息,通過分析語音信號的頻譜特性推斷發(fā)聲部位信息,計算lpc線性預(yù)測系數(shù),提取共振峰頻率與帶寬參數(shù)。

15、進(jìn)一步地,s2步驟中所述深層嵌入特征提取包括:構(gòu)建多層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),使用非線性激活函數(shù)引入非線性因素,網(wǎng)絡(luò)學(xué)習(xí)特征映射關(guān)系,在網(wǎng)絡(luò)的輸出層生成所述說話人第一嵌入特征;

16、所述多層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)包括:全連接層與卷積層。

17、進(jìn)一步地,s3步驟包括:

18、s31,卷積神經(jīng)網(wǎng)絡(luò)從頻譜圖中提取局部模式,識別包括韻律和共振峰特征;和/或

19、s32,循環(huán)神經(jīng)網(wǎng)絡(luò)或長短期記憶網(wǎng)絡(luò)在s31步驟的基礎(chǔ)上捕捉語音信號中時間步之間的依賴關(guān)系,生成全局的語音特征表示。

20、進(jìn)一步地,s4步驟包括:

21、s41,所述特征增強(qiáng)網(wǎng)絡(luò)對輸入的所述語音特征進(jìn)行去噪、去混響處理,生成增強(qiáng)特征;

22、s42,將所述增強(qiáng)特征輸入到所述說話人嵌入網(wǎng)絡(luò),通過深層卷積操作提取區(qū)分性特征,生成所述說話人第二嵌入特征。

23、進(jìn)一步地,所述說話人第二嵌入特征的判別能力大于所述說話人第一嵌入特征。

24、方案二。

25、基于深度學(xué)習(xí)的聲紋識別方法,包括:使用方案一所述的聲紋識別模型,執(zhí)行以下步驟:

26、s1.語音信號預(yù)處理:將原始語音信號轉(zhuǎn)化為模型可處理的輸入格式,端到端映射至說話人標(biāo)簽;所述原始語音信號包括:短語、關(guān)鍵詞或連續(xù)語音片段;

27、s2.深層特征提取網(wǎng)絡(luò):通過深度神經(jīng)網(wǎng)絡(luò)對所述語音信號進(jìn)行多層次特征提取,生成說話人嵌入特征;

28、s3.將所述說話人嵌入特征與預(yù)存數(shù)據(jù)庫中的身份標(biāo)簽進(jìn)行匹配,輸出用戶身份驗證結(jié)果;

29、其中,所述多層次特征提取包括:淺層物理特征、中層聲道特征及深層嵌入特征。

30、本發(fā)明具有如下有益效果:

31、1、本發(fā)明所述基于深度學(xué)習(xí)的聲紋識別模型構(gòu)建及識別方法,通過實時選擇噪聲數(shù)據(jù)進(jìn)行加噪和加混響處理,能夠有效模擬真實環(huán)境中的各種噪聲條件,增強(qiáng)模型對復(fù)雜環(huán)境的適應(yīng)能力。該方法提高了模型對背景噪聲和混響的適應(yīng)能力,顯著提升了在嘈雜環(huán)境下的識別準(zhǔn)確率;結(jié)合了卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)和長短期記憶網(wǎng)絡(luò)等多種深度學(xué)習(xí)模型,充分利用其特征提取能力,能夠提取更深層次的聲紋特征。這種多模型融合的方式相比于傳統(tǒng)的單一模型,能夠更好地捕捉復(fù)雜的語音特征;引入了區(qū)分性損失函數(shù),并采用特征增強(qiáng)網(wǎng)絡(luò)和說話人嵌入網(wǎng)絡(luò)的聯(lián)合訓(xùn)練框架,能夠更有效地優(yōu)化樣本間的相似性和差異性,從而提高了模型的區(qū)分能力,提升聲紋識別系統(tǒng)的魯棒性和準(zhǔn)確性靈活的系統(tǒng)架構(gòu),簡化了用戶交互流程,提高了系統(tǒng)的可靠性和靈活性。只需提供必要的參數(shù),無需直接面對復(fù)雜的解碼器。

32、2、本發(fā)明所述基于深度學(xué)習(xí)的聲紋識別模型構(gòu)建及識別方法,通過模型優(yōu)化、魯棒性提升與實時性保證,當(dāng)前說話人識別系統(tǒng)在復(fù)雜環(huán)境下實現(xiàn)了高效的端到端識別。模型優(yōu)化方面,采用基于特征增強(qiáng)網(wǎng)絡(luò)和說話人嵌入網(wǎng)絡(luò),降低了計算復(fù)雜度和存儲需求,使模型能夠在低功耗設(shè)備上高效運行。為了提升系統(tǒng)的魯棒性,在訓(xùn)練階段引入實時噪聲語音增廣技術(shù),從噪聲數(shù)據(jù)庫隨機(jī)選取噪聲樣本并結(jié)合加混響,對原始音頻實時加噪,增強(qiáng)模型對復(fù)雜環(huán)境的適應(yīng)能力。同時,采用特征增強(qiáng)網(wǎng)絡(luò)與說話人驗證網(wǎng)絡(luò)的聯(lián)合訓(xùn)練框架,通過最小均方誤差優(yōu)化增強(qiáng)網(wǎng)絡(luò),并利用說話人損失函數(shù)優(yōu)化嵌入網(wǎng)絡(luò)和增強(qiáng)網(wǎng)絡(luò)的特定模塊,提升模型的去噪能力與識別精度。

33、3、本發(fā)明所述基于深度學(xué)習(xí)的聲紋識別模型構(gòu)建及識別方法,針對增強(qiáng)損失和說話人損失的梯度差異,使用異步子區(qū)域優(yōu)化方法分別更新網(wǎng)絡(luò)不同區(qū)域,有效解決優(yōu)化方向沖突。此外,在聯(lián)合訓(xùn)練中引入特征連接技術(shù),將原始特征與增強(qiáng)特征在通道維度連接,既保留原始信號的精細(xì)結(jié)構(gòu),又從增強(qiáng)特征中學(xué)習(xí)去噪,避免了高信噪比場景下的偽像和失真。此優(yōu)化措施不僅減輕了網(wǎng)絡(luò)實體負(fù)荷,還提高了系統(tǒng)在復(fù)雜環(huán)境下的魯棒性與識別準(zhǔn)確度,同時通過異步更新與特征連接技術(shù)確保系統(tǒng)滿足實時性需求。

34、4、本發(fā)明所述基于深度學(xué)習(xí)的聲紋識別模型構(gòu)建及識別方法,提供一種在混響和噪聲環(huán)境下依然能夠保持高準(zhǔn)確度的聲紋識別系統(tǒng)。該系統(tǒng)擁有高效的計算性能,資源占用低,系統(tǒng)經(jīng)過優(yōu)化,能夠在實際應(yīng)用中高效運行,特別適用于資源受限的設(shè)備,及需要快速、準(zhǔn)確身份驗證的場景。例如移動設(shè)備或嵌入式系統(tǒng),并能夠在低計算力的平臺上實現(xiàn)端到端的聲紋識別與語音識別,同時確保反饋時間小于1秒。使得該系統(tǒng)非常適合需要快速、準(zhǔn)確身份驗證的應(yīng)用場景,如移動設(shè)備解鎖、遠(yuǎn)程身份驗證、安全訪問控制系統(tǒng)等。能夠在多種設(shè)備上實現(xiàn),包括移動設(shè)備和嵌入式系統(tǒng)。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1