亚洲综合日韩精品欧美综合区,日韩国产在线一区,久久久精品一二三区,午夜精品久久久久久中宇69,国产做爰一区二区三区视频,aa天堂,三级在线视频

一種具有語(yǔ)音控制功能的虛擬人物模型及其控制方法與流程

文檔序號(hào):42294152發(fā)布日期:2025-06-27 18:29閱讀:9來(lái)源:國(guó)知局

本發(fā)明屬于人工智能,具體涉及到一種具有語(yǔ)音控制功能的虛擬人物模型及其控制方法。


背景技術(shù):

1、虛擬人物,通常指的是通過(guò)數(shù)字技術(shù)創(chuàng)造出的非真實(shí)存在的角色或形象。它們可以存在于多種形式,如二維動(dòng)畫(huà)、三維模型、游戲角色、虛擬偶像等。在科技飛速發(fā)展的當(dāng)下,虛擬人物語(yǔ)音控制系統(tǒng)正逐漸從科幻構(gòu)想走進(jìn)現(xiàn)實(shí)生活,成為推動(dòng)各行業(yè)變革的關(guān)鍵力量。這一系統(tǒng)融合了語(yǔ)音識(shí)別、自然語(yǔ)言處理、虛擬形象驅(qū)動(dòng)等前沿技術(shù),賦予虛擬人物“開(kāi)口說(shuō)話”及與用戶自然交互的能力,為用戶帶來(lái)沉浸式、個(gè)性化的交互體驗(yàn)。

2、現(xiàn)有的虛擬人物的語(yǔ)音控制方法主要包含如下:1、語(yǔ)音識(shí)別技術(shù):作為系統(tǒng)的“耳朵”,語(yǔ)音識(shí)別技術(shù)負(fù)責(zé)將用戶的語(yǔ)音準(zhǔn)確轉(zhuǎn)化為文本。從早期的模板匹配算法到如今基于深度學(xué)習(xí)的端到端模型,如深度神經(jīng)網(wǎng)絡(luò)(dnn)、循環(huán)神經(jīng)網(wǎng)絡(luò)(rnn)及其變體長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(lstm)等,識(shí)別準(zhǔn)確率大幅提升,即使在嘈雜環(huán)境下也能精準(zhǔn)捕捉用戶指令。以科大訊飛的語(yǔ)音識(shí)別引擎為例,在安靜環(huán)境下識(shí)別準(zhǔn)確率可達(dá)98%以上,為虛擬人物理解用戶意圖奠定堅(jiān)實(shí)基礎(chǔ)。2、自然語(yǔ)言處理技術(shù):接收到語(yǔ)音轉(zhuǎn)文本結(jié)果后,自然語(yǔ)言處理技術(shù)發(fā)揮作用,對(duì)文本進(jìn)行語(yǔ)法分析、語(yǔ)義理解及意圖推斷。借助詞向量模型(如word2vec、gpt系列)和語(yǔ)義分析算法,系統(tǒng)能夠理解復(fù)雜句式和模糊表達(dá),實(shí)現(xiàn)與用戶的流暢對(duì)話。例如,當(dāng)用戶詢問(wèn)“明天天氣如何”,系統(tǒng)不僅能解析出查詢天氣的意圖,還能關(guān)聯(lián)到具體時(shí)間和地點(diǎn)信息,給出準(zhǔn)確回復(fù)。3、虛擬形象驅(qū)動(dòng)技術(shù):這是賦予虛擬人物生動(dòng)表現(xiàn)力的關(guān)鍵。通過(guò)語(yǔ)音與口型同步算法,如基于音素和視覺(jué)特征匹配的方法,使虛擬人物說(shuō)話時(shí)口型自然流暢。同時(shí),結(jié)合面部表情生成技術(shù),依據(jù)語(yǔ)音情感和語(yǔ)義信息,驅(qū)動(dòng)虛擬人物做出喜怒哀樂(lè)等表情,增強(qiáng)情感交互。阿里達(dá)摩院的echom?imi?cv2工具更是突破創(chuàng)新,可在音頻驅(qū)動(dòng)下實(shí)現(xiàn)虛擬人物頭部和身體動(dòng)作協(xié)調(diào),全方位提升表現(xiàn)力。

3、目前的基于語(yǔ)音控制的虛擬人物在多人語(yǔ)音環(huán)境下,無(wú)法快速識(shí)別準(zhǔn)確的語(yǔ)音控制命令,導(dǎo)致虛擬人物做出的語(yǔ)音控制命令不準(zhǔn)確,影響使用。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明所要解決的技術(shù)問(wèn)題在于克服上述現(xiàn)有技術(shù)的缺點(diǎn),提供一種具有語(yǔ)音控制功能的虛擬人物模型及其控制方法。

2、解決上述技術(shù)問(wèn)題所采用的技術(shù)方案是:一種具有語(yǔ)音控制功能的虛擬人物模型的控制方法,包括:

3、步驟1、采集本次語(yǔ)音控制中所有說(shuō)話者的語(yǔ)音控制命令;

4、步驟2、對(duì)所采集的語(yǔ)音控制命令進(jìn)行音色甄別,提取不同說(shuō)話者的音色特征,并生成音色信號(hào);

5、步驟3、將生成的音色信號(hào)輸入至語(yǔ)音控制頻率數(shù)據(jù)庫(kù)中,并與語(yǔ)音控制頻率數(shù)據(jù)庫(kù)中儲(chǔ)存的歷史音色信號(hào)進(jìn)行相似度匹配,查詢?cè)摎v史音色信號(hào)的出現(xiàn)頻率;

6、步驟4、按出現(xiàn)的頻率高低對(duì)匹配到語(yǔ)音控制頻率數(shù)據(jù)庫(kù)中的音色信號(hào)進(jìn)行排列,并提取其中語(yǔ)音控制頻率最高的音色信號(hào),作為本次語(yǔ)音控制的語(yǔ)音控制命令;

7、步驟5、調(diào)取上述語(yǔ)音控制命令,并生成語(yǔ)音控制指令,使虛擬人物產(chǎn)生相應(yīng)動(dòng)作并發(fā)出與語(yǔ)音控制指令相對(duì)應(yīng)的聲音。

8、優(yōu)選的,所述步驟2包括如下內(nèi)容:

9、預(yù)處理:

10、通過(guò)預(yù)加重處理來(lái)提升高頻部分,使信號(hào)的頻譜趨于平坦;

11、通過(guò)分幀處理將連續(xù)的語(yǔ)音信號(hào)分割成短時(shí)幀;

12、通過(guò)加窗處理來(lái)減少幀邊緣的截?cái)嘈?yīng);

13、特征提取:

14、通過(guò)快速傅里葉變換來(lái)計(jì)算每一幀的頻譜;

15、通過(guò)梅爾濾波器組將頻譜通過(guò)一組梅爾濾波器;

16、通過(guò)對(duì)數(shù)運(yùn)算對(duì)每個(gè)濾波器的輸出取對(duì)數(shù);

17、通過(guò)離散余弦變換將濾波器組輸出的對(duì)數(shù)能量進(jìn)行變化,得到mfcc系數(shù);

18、音色信號(hào)擴(kuò)寫(xiě):

19、通過(guò)線性預(yù)測(cè)編碼,估計(jì)聲道的線性預(yù)測(cè)系數(shù);

20、通過(guò)倒譜提升增強(qiáng)音色特征。

21、優(yōu)選的,所述語(yǔ)音控制頻率數(shù)據(jù)庫(kù)采集固定使用周期中所收集的不同說(shuō)話者的語(yǔ)音控制命令,并生成語(yǔ)音控制頻率數(shù)據(jù)。

22、優(yōu)選的,所述語(yǔ)音控制頻率庫(kù)生成語(yǔ)音控制頻率數(shù)據(jù)的方法包括如下內(nèi)容:

23、定義固定使用周期,作為語(yǔ)音控制頻率數(shù)據(jù)的計(jì)算范圍;

24、在每個(gè)固定周期內(nèi),收集語(yǔ)音控制命令;

25、對(duì)收集到的語(yǔ)音信號(hào)進(jìn)行處理;

26、從處理后的語(yǔ)音信號(hào)中提取音色特征;

27、對(duì)每個(gè)說(shuō)話者的語(yǔ)音控制命令進(jìn)行頻率分析,以確定語(yǔ)音控制頻率數(shù)據(jù);

28、根據(jù)頻率分析結(jié)果,生成語(yǔ)音控制頻率數(shù)據(jù);

29、將生成的語(yǔ)音控制頻率數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)庫(kù)中。

30、優(yōu)選的,所述對(duì)每個(gè)說(shuō)話者的語(yǔ)音控制命令進(jìn)行頻率分析,以確定語(yǔ)音控制頻率數(shù)據(jù)包括如下內(nèi)容:

31、計(jì)算基頻:對(duì)每個(gè)語(yǔ)音幀,計(jì)算其基頻;

32、頻率分布統(tǒng)計(jì):對(duì)每個(gè)說(shuō)話者的所有語(yǔ)音命令的基頻進(jìn)行統(tǒng)計(jì),得到頻率分布。

33、優(yōu)選的,所述步驟3包括如下內(nèi)容:

34、將本次語(yǔ)音控制中生成的音色信號(hào)輸入至語(yǔ)音控制頻率數(shù)據(jù)庫(kù)中,并驗(yàn)證音色信號(hào)數(shù)據(jù)的完整性;

35、輸入語(yǔ)音控制頻率數(shù)據(jù)庫(kù)后,進(jìn)行相似度匹配;

36、對(duì)于篩選出的相似歷史音色信號(hào),進(jìn)一步查詢?cè)摎v史音色信號(hào)在語(yǔ)音控制頻率數(shù)據(jù)庫(kù)中出現(xiàn)的頻率。

37、優(yōu)選的,所述輸入語(yǔ)音控制頻率數(shù)據(jù)庫(kù)后,進(jìn)行相似度匹配,包括如下內(nèi)容:

38、比較輸入的音色信號(hào)與語(yǔ)音控制頻率數(shù)據(jù)庫(kù)中的歷史音色信號(hào)的特征參數(shù);

39、通過(guò)余弦相似度算法來(lái)計(jì)算輸入至語(yǔ)音控制頻率數(shù)據(jù)庫(kù)中的音色信號(hào)與歷史音色信號(hào)的相似度。

40、優(yōu)選的,所述步驟4中,在提取到語(yǔ)音控制頻率最高的音色信號(hào)后,先對(duì)提取到的音色信號(hào)進(jìn)行匹配精確度判斷,若匹配精確度達(dá)到固定閾值,則該音色信號(hào)作為本次語(yǔ)音控制的語(yǔ)音控制命令,若匹配精確度未達(dá)到固定閾值,則返回步驟3。

41、一種具有語(yǔ)音控制功能的虛擬人物模型,包括:

42、顯示模塊,用于顯示虛擬人物形象;

43、語(yǔ)音控制頻率數(shù)據(jù)庫(kù),用于在固定周期內(nèi)采集所有說(shuō)話者的音色特征,并將音色特征生成音色信號(hào),再依據(jù)該周期內(nèi)音色信號(hào)生成的頻率,對(duì)所有的音色信號(hào)按生成的頻率高低進(jìn)行排列;

44、語(yǔ)音采集模塊,用于采集語(yǔ)音控制中所有說(shuō)話者的語(yǔ)音控制命令;

45、音色信號(hào)生成模塊,用于采集所有的語(yǔ)音控制命令,并逐個(gè)對(duì)語(yǔ)音控制命令進(jìn)行音色甄別,并提取所有語(yǔ)音控制命令所對(duì)應(yīng)的說(shuō)話者的音色特征,且依據(jù)音色特征生成相應(yīng)的音色信號(hào);

46、匹配模塊,用于將音色信號(hào)匹配到語(yǔ)音控制頻率數(shù)據(jù)庫(kù),并按語(yǔ)音控制頻率的高低對(duì)音色信號(hào)進(jìn)行排列,提取其中語(yǔ)音控制頻率最高的音色信號(hào),作為本次語(yǔ)音控制的語(yǔ)音控制命令;

47、指令模塊,用于調(diào)取語(yǔ)音控制命令,并生成語(yǔ)音控制指令,使虛擬人物產(chǎn)生相應(yīng)動(dòng)作,及\或發(fā)出與語(yǔ)音控制指令相對(duì)應(yīng)的聲音。

48、優(yōu)選的,還包括:

49、命令準(zhǔn)確度校驗(yàn)?zāi)K,用于在指令模塊結(jié)束后,在固定時(shí)間內(nèi)檢測(cè)是否重復(fù)產(chǎn)生與本次語(yǔ)音控制命令相似的語(yǔ)音控制命令,若重新采集到相似的語(yǔ)音控制命令,則對(duì)匹配模塊的匹配機(jī)制進(jìn)行優(yōu)化,反之不需優(yōu)化。

50、本發(fā)明的有益效果如下:

51、1、本發(fā)明中,通過(guò)采用匹配出現(xiàn)頻率最高的音色信號(hào)來(lái)優(yōu)先發(fā)出該音色信號(hào)對(duì)應(yīng)的語(yǔ)音控制命令,實(shí)現(xiàn)在多人說(shuō)話環(huán)境中,產(chǎn)生準(zhǔn)確的語(yǔ)音控制指令,避免多人說(shuō)話環(huán)境中,無(wú)法準(zhǔn)確提取語(yǔ)音控制命令,進(jìn)而無(wú)法產(chǎn)生語(yǔ)音控制指令;

52、2、本發(fā)明中,通過(guò)步驟2對(duì)音色信號(hào)進(jìn)行處理,進(jìn)而提取出精確的音色特征,以便于語(yǔ)音控制頻率數(shù)據(jù)庫(kù)中的音色信號(hào)進(jìn)行匹配;

53、3、本發(fā)明中,通過(guò)設(shè)置命令準(zhǔn)確度校驗(yàn)?zāi)K,能夠?qū)崿F(xiàn)檢測(cè)本次語(yǔ)音控制命令優(yōu)先的準(zhǔn)確度。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1