基于音頻潛在特征對(duì)比學(xué)習(xí)的音頻偽造檢測(cè)方法及系統(tǒng)與流程

文檔序號(hào)：42296961發(fā)布日期：2025-06-27 18:35閱讀：19來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本發(fā)明屬于音頻偽造檢測(cè)，尤其涉及一種基于音頻潛在特征對(duì)比學(xué)習(xí)的音頻偽造檢測(cè)方法及系統(tǒng)。

背景技術(shù)：

1、隨著音頻信息服務(wù)迅速發(fā)展，用戶規(guī)模不斷壯大。當(dāng)前，我國(guó)網(wǎng)絡(luò)音樂(lè)用戶規(guī)模已達(dá)6.08億。特別是隨著生成式人工智能（aigc）等人工智能新技術(shù)新應(yīng)用在音頻領(lǐng)域的運(yùn)用，基于深度學(xué)習(xí)的音頻生成與克隆算法輸出的音頻日益逼近真實(shí)音頻，導(dǎo)致音頻在傳播過(guò)程中的一些法律風(fēng)險(xiǎn)進(jìn)一步集聚、放大，因此，對(duì)音頻數(shù)據(jù)的合法使用是目前社會(huì)上所重視的問(wèn)題。

2、現(xiàn)階段針對(duì)音頻偽造檢測(cè)的方法主要有：基于音頻信號(hào)特征的偽造檢測(cè)方法，例如使用相位譜、梅爾譜圖、頻譜圖和改進(jìn)時(shí)延等音頻特征的檢測(cè)方法；基于機(jī)器學(xué)習(xí)的偽造檢測(cè)方法，例如使用線性svm，加權(quán)k近鄰和增強(qiáng)樹(shù)集成等方法；但是，現(xiàn)階段的技術(shù)仍存在著檢測(cè)精度不足、泛化能力弱等缺陷，具體來(lái)說(shuō)，基于音頻信號(hào)特征的方法，采用的相位譜、梅爾譜圖等特征難以全面覆蓋音頻偽造的復(fù)雜變化，在面對(duì)高級(jí)偽造技術(shù)時(shí)，難以區(qū)分真?zhèn)?，且?dāng)音頻處于復(fù)雜環(huán)境中，環(huán)境噪聲等會(huì)嚴(yán)重干擾特征提取，導(dǎo)致準(zhǔn)確性下降。同時(shí)，這類(lèi)方法對(duì)新出現(xiàn)的偽造模式敏感度低，難以及時(shí)適應(yīng)?；跈C(jī)器學(xué)習(xí)的方法，模型嚴(yán)重依賴訓(xùn)練數(shù)據(jù)的質(zhì)量與多樣性，樣本不全面或標(biāo)注偏差易造成大量誤判，對(duì)罕見(jiàn)特殊場(chǎng)景的偽造音頻檢測(cè)效果差。并且其泛化能力不足，難以應(yīng)對(duì)不斷演進(jìn)的新型偽造技術(shù)，計(jì)算資源消耗大，在資源受限場(chǎng)景應(yīng)用困難，還容易受到對(duì)抗攻擊，使檢測(cè)結(jié)果失效。因此亟須一種方法解決上述問(wèn)題。

技術(shù)實(shí)現(xiàn)思路

1、為解決上述技術(shù)問(wèn)題，本發(fā)明提出了一種基于音頻潛在特征對(duì)比學(xué)習(xí)的音頻偽造檢測(cè)方法及系統(tǒng)，以解決上述現(xiàn)有技術(shù)存在的問(wèn)題。

2、第一方面，為實(shí)現(xiàn)上述目的，本發(fā)明提供了一種基于音頻潛在特征對(duì)比學(xué)習(xí)的音頻偽造檢測(cè)方法，包括以下步驟：

3、對(duì)原始音頻數(shù)據(jù)進(jìn)行數(shù)據(jù)增強(qiáng)，生成偽造音頻數(shù)據(jù)集；

4、構(gòu)建音頻檢測(cè)模型，所述音頻檢測(cè)模型包括對(duì)比學(xué)習(xí)模型；

5、基于所述偽造音頻數(shù)據(jù)集對(duì)所述音頻檢測(cè)模型進(jìn)行第一階段訓(xùn)練；

6、完成第一階段訓(xùn)練后，使用對(duì)比學(xué)習(xí)模型進(jìn)行第二階段的訓(xùn)練；

7、基于完成所述第一階段訓(xùn)練和第二階段訓(xùn)練的音頻檢測(cè)模型對(duì)音頻進(jìn)行偽造檢測(cè)。

8、可選的，對(duì)原始音頻數(shù)據(jù)進(jìn)行數(shù)據(jù)增強(qiáng)，生成偽造音頻數(shù)據(jù)集的過(guò)程包括：

9、確認(rèn)數(shù)據(jù)集的正負(fù)樣本分布比例，如正負(fù)樣本比例不等于1：1，則對(duì)數(shù)據(jù)進(jìn)行調(diào)整；

10、對(duì)調(diào)整完畢后的原始音頻數(shù)據(jù)進(jìn)行數(shù)據(jù)增強(qiáng)，生成偽造音頻數(shù)據(jù)集。

11、可選的，對(duì)調(diào)整完畢后的原始音頻數(shù)據(jù)進(jìn)行數(shù)據(jù)增強(qiáng)的過(guò)程包括：對(duì)調(diào)整完畢后的原始音頻數(shù)據(jù)進(jìn)行高斯噪聲增強(qiáng)、波形位移、波形拉伸和音高修正。

12、可選的，構(gòu)建音頻檢測(cè)模型，所述音頻檢測(cè)模型還包括：sinc層、殘差塊、gru層和全連接層。

13、可選的，基于所述偽造音頻數(shù)據(jù)集對(duì)所述音頻檢測(cè)模型進(jìn)行第一階段訓(xùn)練，第一階段訓(xùn)練的訓(xùn)練輪數(shù)為n，訓(xùn)練輪數(shù)執(zhí)行完畢后第一階段訓(xùn)練結(jié)束，第一階段訓(xùn)練的過(guò)程中包括：

14、基于交叉熵?fù)p失函數(shù)訓(xùn)練模型。

15、可選的，完成第一階段訓(xùn)練后，使用對(duì)比學(xué)習(xí)模型進(jìn)行第二階段的訓(xùn)練的過(guò)程中包括：

16、基于交叉熵?fù)p失函數(shù)和對(duì)比學(xué)習(xí)的損失函數(shù)進(jìn)行第二階段的訓(xùn)練。

17、第二方面，本發(fā)明還提供了一種基于音頻潛在特征對(duì)比學(xué)習(xí)的音頻偽造檢測(cè)系統(tǒng)，用于實(shí)施一種基于音頻潛在特征對(duì)比學(xué)習(xí)的音頻偽造檢測(cè)方法，所述系統(tǒng)包括：

18、數(shù)據(jù)處理模塊，用于對(duì)原始音頻數(shù)據(jù)進(jìn)行數(shù)據(jù)增強(qiáng)，生成偽造音頻數(shù)據(jù)集；

19、模型構(gòu)建模塊，用于構(gòu)建音頻檢測(cè)模型，所述音頻檢測(cè)模型包括對(duì)比學(xué)習(xí)模型、sinc層、殘差塊、gru層和全連接層；

20、模型訓(xùn)練模塊，用于基于所述偽造音頻數(shù)據(jù)集對(duì)所述音頻檢測(cè)模型進(jìn)行第一階段訓(xùn)練，并在完成第一階段訓(xùn)練后，使用對(duì)比學(xué)習(xí)模型進(jìn)行第二階段的訓(xùn)練；

21、檢測(cè)模塊，用于基于完成所述第一階段訓(xùn)練和第二階段訓(xùn)練的音頻檢測(cè)模型對(duì)音頻進(jìn)行偽造檢測(cè)。

22、可選的，所述數(shù)據(jù)處理模塊包括：

23、數(shù)據(jù)增強(qiáng)單元，用于對(duì)原始音頻數(shù)據(jù)進(jìn)行高斯噪聲增強(qiáng)、波形位移、波形拉伸和音高修正。

24、第三方面，本發(fā)明還提供了一種計(jì)算機(jī)終端設(shè)備，包括：

25、一個(gè)或多個(gè)處理器；

26、存儲(chǔ)器，與所述處理器耦接，用于存儲(chǔ)一個(gè)或多個(gè)程序；

27、當(dāng)所述一個(gè)或多個(gè)程序被所述一個(gè)或多個(gè)處理器執(zhí)行，使得所述一個(gè)或多個(gè)處理器實(shí)現(xiàn)如一種基于音頻潛在特征對(duì)比學(xué)習(xí)的音頻偽造檢測(cè)方法。

28、第四方面，本發(fā)明還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其上存儲(chǔ)有計(jì)算機(jī)程序，所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)，實(shí)現(xiàn)如一種基于音頻潛在特征對(duì)比學(xué)習(xí)的音頻偽造檢測(cè)方法。

29、與現(xiàn)有技術(shù)相比，本發(fā)明具有如下優(yōu)點(diǎn)和技術(shù)效果：

30、本發(fā)明提供的一種基于音頻潛在特征對(duì)比學(xué)習(xí)的音頻偽造檢測(cè)方法及系統(tǒng)，首先通過(guò)對(duì)原始數(shù)據(jù)進(jìn)行多維度數(shù)據(jù)增強(qiáng)（包括高斯噪聲添加、波形位移、拉伸及音高修正），生成覆蓋復(fù)雜場(chǎng)景的偽造音頻數(shù)據(jù)集；其次構(gòu)建融合sinc卷積層、殘差塊及特征縮放映射的音頻檢測(cè)模型rawnet2-c，并集成對(duì)比學(xué)習(xí)模塊；基于增強(qiáng)數(shù)據(jù)對(duì)模型進(jìn)行第一階段訓(xùn)練后，進(jìn)一步通過(guò)兩階段訓(xùn)練策略聯(lián)合優(yōu)化分類(lèi)與特征判別能力，最終顯著提升模型對(duì)高逼真?zhèn)卧煲纛l的檢測(cè)精度。通過(guò)數(shù)據(jù)增強(qiáng)與分階段訓(xùn)練，模型可有效增強(qiáng)對(duì)背景噪聲、語(yǔ)速/音調(diào)變化的適應(yīng)性，同時(shí)直接從原始波形中提取深層潛在特征，避免傳統(tǒng)人工特征設(shè)計(jì)的局限性，強(qiáng)化了復(fù)雜場(chǎng)景下的魯棒性和判別能力。

技術(shù)特征：

1.一種基于音頻潛在特征對(duì)比學(xué)習(xí)的音頻偽造檢測(cè)方法，其特征在于，包括以下步驟：

2.根據(jù)權(quán)利要求1所述的方法，其特征在于，對(duì)原始音頻數(shù)據(jù)進(jìn)行數(shù)據(jù)增強(qiáng)，生成偽造音頻數(shù)據(jù)集的過(guò)程包括：

3.根據(jù)權(quán)利要求1所述的方法，其特征在于，對(duì)調(diào)整完畢后的原始音頻數(shù)據(jù)進(jìn)行數(shù)據(jù)增強(qiáng)的過(guò)程包括：對(duì)調(diào)整完畢后的原始音頻數(shù)據(jù)進(jìn)行高斯噪聲增強(qiáng)、波形位移、波形拉伸和音高修正。

4.根據(jù)權(quán)利要求1所述的方法，其特征在于，構(gòu)建音頻檢測(cè)模型，所述音頻檢測(cè)模型還包括：sinc層、殘差塊、gru層和全連接層。

5.根據(jù)權(quán)利要求1所述的方法，其特征在于，基于所述偽造音頻數(shù)據(jù)集對(duì)所述音頻檢測(cè)模型進(jìn)行第一階段訓(xùn)練，第一階段訓(xùn)練的訓(xùn)練輪數(shù)為n，訓(xùn)練輪數(shù)執(zhí)行完畢后第一階段訓(xùn)練結(jié)束，第一階段訓(xùn)練的過(guò)程中包括：

6.根據(jù)權(quán)利要求1所述的方法，其特征在于，完成第一階段訓(xùn)練后，使用

7.一種基于音頻潛在特征對(duì)比學(xué)習(xí)的音頻偽造檢測(cè)系統(tǒng)，其特征在于，所述系統(tǒng)包括：

8.根據(jù)權(quán)利要求7所述的系統(tǒng)，其特征在于，所述數(shù)據(jù)處理模塊包括：

9.一種計(jì)算機(jī)終端設(shè)備，其特征在于，包括：

10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其上存儲(chǔ)有計(jì)算機(jī)程序，其特征在于，所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)，實(shí)現(xiàn)如權(quán)利要求1-6中任一項(xiàng)所述的基于音頻潛在特征對(duì)比學(xué)習(xí)的音頻偽造檢測(cè)方法。

技術(shù)總結(jié)
本發(fā)明公開(kāi)了一種基于音頻潛在特征對(duì)比學(xué)習(xí)的音頻偽造檢測(cè)方法及系統(tǒng)，屬于音頻偽造檢測(cè)技術(shù)領(lǐng)域，本發(fā)明首先對(duì)原始音頻數(shù)據(jù)進(jìn)行數(shù)據(jù)增強(qiáng)，生成偽造音頻數(shù)據(jù)集，其次構(gòu)建音頻檢測(cè)模型，所述音頻檢測(cè)模型包括對(duì)比學(xué)習(xí)模型，然后基于所述偽造音頻數(shù)據(jù)集對(duì)所述音頻檢測(cè)模型進(jìn)行第一階段訓(xùn)練，完成第一階段訓(xùn)練后，使用對(duì)比學(xué)習(xí)模型進(jìn)行第二階段的訓(xùn)練，最后基于完成所述第一階段訓(xùn)練和第二階段訓(xùn)練的音頻檢測(cè)模型對(duì)音頻進(jìn)行偽造檢測(cè)，顯著提升了檢測(cè)精度與泛化能力。

技術(shù)研發(fā)人員：宣琦,惲蓓蓓,趙尚上,田甜,李呈斌
受保護(hù)的技術(shù)使用者：杭州市濱江區(qū)浙工大人工智能創(chuàng)新研究院
技術(shù)研發(fā)日：
技術(shù)公布日：2025/6/26

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：宣琦,惲蓓蓓,趙尚上,田甜,李呈斌
技術(shù)所有人：杭州市濱江區(qū)浙工大人工智能創(chuàng)新研究院
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲综合日韩精品欧美综合区,日韩国产在线一区,久久久精品一二三区,午夜精品久久久久久中宇69,国产做爰一区二区三区视频,aa天堂,三级在线视频

基于音頻潛在特征對(duì)比學(xué)習(xí)的音頻偽造檢測(cè)方法及系統(tǒng)與流程