一種車輛語音交互方法、裝置、設備和可讀存儲介質(zhì)與流程

文檔序號：42294489發(fā)布日期：2025-06-27 18:30閱讀：6來源：國知局

本發(fā)明涉及人工智能，具體來說涉及一種車輛語音交互方法、裝置、設備和可讀存儲介質(zhì)。

背景技術(shù)：

1、在人工智能和新能源汽車的雙重發(fā)展下，越來越多的新能源汽車開始具備語音交互功能，這項功能實現(xiàn)了用戶通過語音就能夠?qū)囕v進行操控，極大提升了用戶對車輛進行操控的便利性，給人們的生活提供了極大的便利。

2、當前進行與車輛進行語音交互的方式通常有如下幾種：首先是基于固定喚醒詞激活語音助手后，進行語音交互；然后是基于用戶的特定聲紋信息識別用戶身份后，進行語音交互；最后是基于用戶的文本無關(guān)聲紋信息識別用戶后，再進行語音交互。

3、上述第一種方法存在局限性，無法同時實現(xiàn)在單一換現(xiàn)階段同時進行喚醒詞激活和聲紋驗證；第二種方法需要用于提供預設短語，局限性較大；第三種處理速度較慢，無法滿足實時交互。且上述三種方法在車內(nèi)外復雜環(huán)境(如高噪音、不同方向的語音輸入)中準確性顯著下降。因此，亟需一種能夠結(jié)局上述問題的車輛語音交互方法。

技術(shù)實現(xiàn)思路

1、本發(fā)明的目的在于提供一種車輛語音交互方法、裝置、設備和可讀存儲介質(zhì)，能夠同時提取喚醒詞、特定聲紋信息和文本五官聲紋信息，打破了傳統(tǒng)方法中的局限性，大大增加了車輛語音交互的便利性。

2、為達到上述目的，本發(fā)明提供如下技術(shù)方案：

3、第一方面，本發(fā)明提供了一種車輛語音交互方法，該方法包括：

4、獲取目標用戶的第一交互音頻，若所述第一交互音頻中存在喚醒詞，則從所述第一交互音頻中提取聲紋特征；

5、根據(jù)所述聲紋特征判斷所述目標用戶是否擁有有效身份；

6、若所述目標用戶擁有有效身份，則提示用戶上傳第二交互音頻，并基于所述第二交互音頻提取文本無關(guān)聲紋特征；

7、若所述聲紋特征和所述文本無關(guān)聲紋特征對應的身份信息一致，則基于所述第一交互音頻和第二交互音頻進行車輛交互。

8、在一些實施例中，基于所述第一交互音頻和第二交互音頻進行車輛交互，包括：

9、提取所述第一交互音頻和第二交互音頻中的語義信息；

10、基于所述語義信息進行車輛交互。

11、在一些實施例中，基于所述語義信息進行車輛交互，包括：

12、基于所述語義信息從候選交互方式中，選擇目標交互方式；所述候選交互方式至少包括：車輛控制、天氣查詢和閑聊對話；

13、基于目標交互方式進行車輛交互。

14、在一些實施例中，獲取目標用戶的第一交互音頻，包括：

15、獲取目標用戶的初始交互音頻；

16、對所述初始交互音頻進行降噪處理和增強處理，得到第一交互音頻。

17、在一些實施例中，若所述第一交互音頻中存在喚醒詞，則從所述第一交互音頻中提取聲紋特征，包括：

18、將所述第一交互音頻輸入喚醒詞提取模型中，提取所述喚醒詞；

19、若所述第一交互音頻中存在喚醒詞，則將所述第一交互音頻輸入至聲紋特征提取模型中，得到所述第一交互音頻的聲紋特征。

20、在一些實施例中，所述方法還包括：

21、若所述第一交互音頻中不存在喚醒詞，

22、和/或若目標用戶不擁有有效身份，

23、和/或若所述聲紋特征和所述文本無關(guān)聲紋特征對應的身份信息不一致，則結(jié)束本次車輛語音交互。

24、第二方面，本發(fā)明還提供了一種車輛語音交互裝置，該裝置包括：

25、特征提取模塊，用于獲取目標用戶的第一交互音頻，若所述第一交互音頻中存在喚醒詞，則從所述第一交互音頻中提取聲紋特征；

26、身份驗證模塊，用于根據(jù)所述聲紋特征判斷所述目標用戶是否擁有有效身份；

27、二次提取模塊，用于若所述目標用戶擁有有效身份，則提示用戶上傳第二交互音頻，并基于所述第二交互音頻提取文本無關(guān)聲紋特征；

28、車輛交互模塊，用于若所述聲紋特征和所述文本無關(guān)聲紋特征對應的身份信息一致，則基于所述第一交互音頻和第二交互音頻進行車輛交互。

29、第三方面，本發(fā)明還提供了一種電子設備，包括存儲器、處理器以及存儲在存儲器上并可在處理器上運行的計算機程序，處理器執(zhí)行計算機程序時實現(xiàn)第一方面提供的車輛語音交互方法。

30、第四方面，本發(fā)明還提供了一種計算機可讀存儲介質(zhì)，計算機可讀存儲介質(zhì)上存儲有計算機程序，計算機程序被處理器執(zhí)行時實現(xiàn)第一方面提供的車輛語音交互方法。

31、第五方面，本發(fā)明還提供了一種計算機程序產(chǎn)品，包括計算機程序，該計算機程序被處理器執(zhí)行時實現(xiàn)第一方面提供的車輛語音交互方法。

32、本發(fā)明的有益效果在于：

33、本發(fā)明中提供的車輛語音交互方法，先獲取目標用戶的第一交互音頻，若所述第一交互音頻中存在喚醒詞，則從所述第一交互音頻中提取聲紋特征；再根據(jù)所述聲紋特征判斷所述目標用戶是否擁有有效身份；若所述目標用戶擁有有效身份，則提示用戶上傳第二交互音頻，并基于所述第二交互音頻提取文本無關(guān)聲紋特征；若所述聲紋特征和所述文本無關(guān)聲紋特征對應的身份信息一致，則基于所述第一交互音頻和第二交互音頻進行車輛交互。由于能夠同時提取喚醒詞、特定聲紋信息和文本五官聲紋信息，打破了傳統(tǒng)方法中的局限性，大大增加了車輛語音交互的便利性。

34、上述說明僅是本發(fā)明技術(shù)方案的概述，為了能夠更清楚了解本發(fā)明的技術(shù)手段，并可依照說明書的內(nèi)容予以實施，以下以本發(fā)明的較佳實施例并配合附圖詳細說明如后。

技術(shù)特征：

1.一種車輛語音交互方法，其特征在于，所述方法包括：

2.如權(quán)利要求1所述的車輛語音交互方法，其特征在于，基于所述第一交互音頻和第二交互音頻進行車輛交互，包括：

3.如權(quán)利要求2所述的車輛語音交互方法，其特征在于，基于所述語義信息進行車輛交互，包括：

4.如權(quán)利要求1所述的車輛語音交互方法，其特征在于，獲取目標用戶的第一交互音頻，包括：

5.如權(quán)利要求1所述的車輛語音交互方法，其特征在于，若所述第一交互音頻中存在喚醒詞，則從所述第一交互音頻中提取聲紋特征，包括：

6.如權(quán)利要求1-5任一項所述的車輛語音交互方法，其特征在于，所述方法還包括：

7.一種車輛語音交互裝置，其特征在于，所述裝置包括：

8.一種電子設備，包括存儲器、處理器以及存儲在所述存儲器上并可在所述處理器上運行的計算機程序，其特征在于，所述處理器執(zhí)行所述計算機程序時實現(xiàn)權(quán)利要求1至6中任一項所述的車輛語音交互方法。

9.一種計算機可讀存儲介質(zhì)，其特征在于，所述計算機可讀存儲介質(zhì)上存儲有計算機程序，所述計算機程序被處理器執(zhí)行時實現(xiàn)權(quán)利要求1至6中任一項所述的車輛語音交互方法。

10.一種計算機程序產(chǎn)品，包括計算機程序，其特征在于，該計算機程序被處理器執(zhí)行時實現(xiàn)權(quán)利要求1至6中任一項所述的車輛語音交互方法。

技術(shù)總結(jié)
本申請公開了一種車輛語音交互方法、裝置、設備和可讀存儲介質(zhì)，涉及人工智能技術(shù)領(lǐng)域。包括：先獲取目標用戶的第一交互音頻，若所述第一交互音頻中存在喚醒詞，則從所述第一交互音頻中提取聲紋特征；再根據(jù)所述聲紋特征判斷所述目標用戶是否擁有有效身份；若所述目標用戶擁有有效身份，則提示用戶上傳第二交互音頻，并基于所述第二交互音頻提取文本無關(guān)聲紋特征；若所述聲紋特征和所述文本無關(guān)聲紋特征對應的身份信息一致，則基于所述第一交互音頻和第二交互音頻進行車輛交互。上述車輛語音交互方法增加了車輛語音交互的便利性。

技術(shù)研發(fā)人員：牧啟強,楊杰,俞瑞隆,顧向濤,吳雪亮
受保護的技術(shù)使用者：思必馳科技股份有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2025/6/26

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：牧啟強,楊杰,俞瑞隆,顧向濤,吳雪亮
技術(shù)所有人：思必馳科技股份有限公司
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲综合日韩精品欧美综合区,日韩国产在线一区,久久久精品一二三区,午夜精品久久久久久中宇69,国产做爰一区二区三区视频,aa天堂,三级在线视频

一種車輛語音交互方法、裝置、設備和可讀存儲介質(zhì)與流程