本技術涉及車輛,特別涉及一種語音交互方法、車輛及計算機可讀存儲介質。
背景技術:
1、在相關車輛中,車輛可搭載語音交互功能以供用戶通過語音控制車輛。然而,在行車過程中,車輛座艙空間中可能存著各類噪聲如風噪、路噪等,而用戶說出語音指令后,人聲與噪聲相混合,導致車輛難以從混合的聲音中分辨出人聲,從而無法喚醒車輛語音交互功能,因而未能響應用戶的語音指令,影響用戶對于車輛語音交互功能的使用體驗。
技術實現思路
1、本技術提供一種語音交互方法、車輛及計算機可讀存儲介質。
2、本技術實施方式提供一種語音交互方法,用于車輛,所述方法包括:
3、獲取當前語音請求;
4、根據預先訓練完成的語音請求處理模型,對所述當前語音請求進行降噪及語音活性檢測處理,確定降噪語音請求和語音活性檢測結果;
5、根據所述降噪語音請求和所述語音活性檢測結果控制所述車輛,進行所述語音交互。
6、如此,在本技術實施方式中,使得當前語音請求的降噪及語音活性檢測處理可共同由預先訓練完成的語音請求處理模型進行,使得當前語音請求的降噪處理能夠與當前語音請求的語音活性檢測處理相關聯,相對于降噪處理和語音活性檢測處理相互獨立設置的情況而言,可在一定程度上保障當前語音請求的降噪處理及當前語音請求的語音活性檢測的有效性,以及,可根據降噪語音請求和語音活性檢測結果控制車輛,使得車輛可通過降噪語音請求和語音活性檢測結果,準確地識別當前語音請求中的人聲部分,進而可穩(wěn)健地喚醒車輛語音交互功能,并對當前語音請求指向的語音指令進行響應,由此可保障用戶對于車輛語音交互功能的使用體驗。
7、在本技術某些實施方式中,所述語音請求處理模型包括依次連接的編碼器模塊、語音活性檢測模塊以及解碼器模塊;
8、所述編碼器模塊被配置為,對所述當前語音請求進行編碼,確定語音請求編碼結果;
9、所述語音活性檢測模塊被配置為,根據所述語音請求編碼結果確定所述語音活性檢測結果;
10、所述解碼器模塊被配置為,對所述語音請求編碼結果進行解碼處理,確定所述降噪語音請求。
11、如此,在本技術實施方式中,使得語音請求處理模型可通過依次連接的編碼器模塊、語音活性檢測模塊以及解碼器模塊實現。
12、在本技術某些實施方式中,所述語音活性檢測模塊被配置為,對所述語音請求編碼結果進行時序信息建模處理,確定所述語音請求編碼結果的時序信息建模結果,及對所述時序信息建模結果進行語音活性檢測,確定所述語音活性檢測結果;
13、所述解碼器模塊被配置為,對所述語音請求編碼結果的所述時序信息建模結果進行解碼處理,確定所述降噪語音請求。
14、如此,在本技術實施方式中,使得語音活性檢測模塊可對語音請求編碼結果進行時序信息建模處理以確定語音請求編碼結果的時序信息建模結果,及對時序信息建模結果進行語音活性檢測以確定語音活性檢測結果,相應的,使得解碼器模塊可對語音請求編碼結果的時序信息建模結果進行解碼處理以確定降噪語音請求,由此實現當前語音請求的降噪和語音活性檢測。
15、在本技術某些實施方式中,所述編碼器模塊與所述解碼器模塊連接;
16、所述解碼器模塊被配置為,對所述時序信息建模結果和所述語音請求編碼結果進行解碼處理,確定所述降噪語音請求。
17、如此,在本技術實施方式中,使得解碼器模塊可對時序信息建模結果和語音請求編碼結果共同進行解碼處理以確定降噪語音請求,由此可在一定程度上保障降噪語音請求的有效與可靠。
18、在本技術某些實施方式中,所述編碼器模塊包括依次連接的多個下采樣單元,所述解碼器模塊包括依次連接的多個上采樣單元,一所述下采樣單元與一所述上采樣單元連接;
19、所述下采樣單元被配置為,對第一輸入數據進行下采樣處理,確定所述第一輸入數據的下采樣處理結果,所述第一輸入數據包括所述語音請求樣本和/或在先的下采樣單元的下采樣處理結果,所述語音請求編碼結果為最后一個所述下采樣單元的下采樣處理結果;
20、所述上采樣單元被配置為,對第二輸入數據進行上采樣處理,確定所述第二輸入數據的上采樣結果,所述降噪語音請求為最后一個所述上采樣單元的上采樣結果,所述第二輸入數據包括所述時序信息建模信息、與所述上采樣單元連接的下采樣單元的所述第一輸入數據,或包括在先的上采樣單元的上采樣處理結果、與所述上采樣單元連接的下采樣單元的所述下采樣處理結果。
21、如此,在本技術實施方式中,使得編碼器模塊可基于依次連接的多個下采樣單元實現,及使得解碼器模塊可基于依次連接的多個上采樣單元實現,由此保障編碼器模塊、解碼器模塊的穩(wěn)健運行。
22、在本技術某些實施方式中,所述根據預先訓練完成的語音請求處理模型,對所述當前語音請求進行降噪及語音活性檢測處理,確定降噪語音請求和語音活性檢測結果,包括:
23、對所述當前語音請求進行預處理,確定處理后語音請求;
24、根據所述語音請求處理模型,對所述處理后語音請求進行降噪及語音活性檢測處理,確定所述降噪語音請求和所述語音活性檢測結果。
25、如此,在本技術實施方式中,可對當前語音請求進行預處理以確定處理后語音請求,及根據語音請求處理模型對處理后語音請求進行降噪及語音活性檢測處理,以確定降噪語音請求和語音活性檢測結果,使得當前語音請求在輸入至語音請求處理模型前可預處理以提高當前語音請求的質量,從而可在一定程度上提高語音活性檢測結果及降噪語音請求的有效。
26、在本技術某些實施方式中,所述根據所述降噪語音請求和所述語音活性檢測結果控制所述車輛,進行所述語音交互,包括:
27、對所述降噪語音請求進行針對于增益的處理,確定增益處理后語音請求;
28、根據所述增益處理后語音請求和語音活性檢測結果控制所述車輛。
29、如此,在本技術實施方式中,可對降噪語音請求進行針對于增益的處理以確定增益處理后語音請求,使得降噪語音請求的質量可在一定程度上得到保障,進而可保障根據增益處理后語音請求和語音活性檢測結果控制車輛的穩(wěn)健。
30、在本技術某些實施方式中,所述方法還包括:
31、對預先訓練完成的所述語音請求處理模型進行模型格式轉換處理,確定預設格式的所述語音請求處理模型;
32、配置與所述預設格式的所述語音請求處理模型相對應的運行時庫,進行所述語音請求處理模型在所述車輛的部署。
33、如此,在本技術實施方式中,可對預先訓練完成的語音請求處理模型進行模型格式轉換處理,確定預設格式的語音請求處理模型,及配置與預設格式的語音請求處理模型相對應的運行時庫,從而進行語音請求處理模型在車輛的部署,使得車輛可通過部署在本地的語音請求處理模型以進行當前語音請求的處理。
34、本技術實施方式提供一種車輛,包括存儲器和處理器,所述存儲器中存儲有計算機程序,所述計算機程序被所述處理器執(zhí)行時,實現上述的語音交互方法。
35、本技術實施方式提供一種計算機可讀存儲介質,所述計算機可讀存儲介質存儲有計算機程序,當所述計算機程序被一個或多個處理器執(zhí)行時,實現上述的語音交互方法。
36、本技術實施方式提供的車輛和計算機可讀存儲介質,使得當前語音請求的降噪及語音活性檢測處理可共同由預先訓練完成的語音請求處理模型進行,使得當前語音請求的降噪處理能夠與當前語音請求的語音活性檢測處理相關聯,相對于降噪處理和語音活性檢測處理相互獨立設置的情況而言,可在一定程度上保障當前語音請求的降噪處理及當前語音請求的語音活性檢測的有效性,以及,可根據降噪語音請求和語音活性檢測結果控制車輛,使得車輛可通過降噪語音請求和語音活性檢測結果,準確地識別當前語音請求中的人聲部分,進而可穩(wěn)健地喚醒車輛語音交互功能,并對當前語音請求指向的語音指令進行響應,由此可保障用戶對于車輛語音交互功能的使用體驗。
37、本技術的實施方式的附加方面和優(yōu)點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本技術的實施方式的實踐了解到。