本公開涉及人工智能,尤其涉及語音交互方法、裝置、車輛、存儲介質(zhì)及程序產(chǎn)品。
背景技術(shù):
1、在智能汽車中,車內(nèi)語音交互系統(tǒng)已經(jīng)得到了較為廣泛的應(yīng)用,其可以為駕乘人員提供諸多便利。但是,當用戶處于車外時,可能難以通過語音系統(tǒng)來與車輛進行交互。
技術(shù)實現(xiàn)思路
1、為克服相關(guān)技術(shù)中存在的問題,本公開提供一種語音交互方法、裝置、車輛、存儲介質(zhì)及程序產(chǎn)品。
2、根據(jù)本公開實施例的第一方面,提供一種語音交互方法,包括:
3、響應(yīng)于用戶語音喚醒車輛,追蹤所述用戶的位置;
4、獲取與所述位置對應(yīng)的語音采集裝置采集到的音頻信號,得到第一音頻信號;
5、根據(jù)所述用戶的聲紋和所述第一音頻信號與所述用戶進行語音交互。
6、可選地,所述根據(jù)所述用戶的聲紋和所述第一音頻信號與所述用戶進行語音交互,包括:
7、對所述第一音頻信號進行語音分離,得到主信號和參考信號;
8、將所述主信號和所述參考信號中,聲紋與所述用戶的聲紋匹配度較高的一者作為第二音頻信號;
9、通過所述第二音頻信號,與所述用戶進行語音交互。
10、可選地,所述通過所述第二音頻信號,與所述用戶進行語音交互,包括:
11、將所述第二音頻信號傳輸至處理裝置;
12、獲取所述處理裝置對所述第二音頻信號的語音識別結(jié)果;
13、根據(jù)所述語音識別結(jié)果執(zhí)行語音交互的響應(yīng)動作。
14、可選地,包括:
15、響應(yīng)于用戶語音喚醒車輛,根據(jù)用戶語音提取所述用戶的聲紋;或者,
16、獲取所述用戶預(yù)先錄入的聲紋。
17、可選地,所述車輛包括多個采集裝置,所述方法包括:
18、確定距離所述位置最近的第一采集裝置,所述語音采集裝置包括所述第一采集裝置。
19、可選地,包括:
20、獲取所述車輛的采集裝置采集到的第二音頻信號;
21、對所述第二音頻信號進行以下至少一種處理,得到對應(yīng)于所述采集裝置的第三音頻信號:回聲消除;降噪;去混響;盲源分離;
22、響應(yīng)于所述第三音頻信號與預(yù)設(shè)喚醒詞信號的聲學(xué)相似度大于閾值,喚醒所述車輛。
23、可選地,所述車輛包括多個采集裝置,所述方法包括:
24、對各個采集裝置的第三音頻信號,確定所述第三音頻信號與預(yù)設(shè)喚醒詞信號的聲學(xué)相似度,以及所述第三音頻信號中的喚醒詞信號的聲音能量;
25、根據(jù)所述聲學(xué)相似度和聲音能量,從所述多個采集裝置中確定第二采集裝置;
26、在所述第二采集裝置的音頻采集范圍中,識別所述用戶。
27、根據(jù)本公開實施例的第二方面,提供一種語音交互裝置,包括:
28、第一模塊,被配置為響應(yīng)于用戶語音喚醒車輛,追蹤所述用戶的位置;
29、第二模塊,被配置為獲取與所述位置對應(yīng)的語音采集裝置采集到的音頻信號,得到第一音頻信號;
30、第三模塊,被配置為根據(jù)所述用戶的聲紋和所述第一音頻信號與所述用戶進行語音交互。
31、可選地,所述第三模塊,被配置為:
32、對所述第一音頻信號進行語音分離,得到主信號和參考信號;
33、將所述主信號和所述參考信號中,聲紋與所述用戶的聲紋匹配度較高的一者作為第二音頻信號;
34、通過所述第二音頻信號,與所述用戶進行語音交互。
35、可選地,所述第三模塊,被配置為:
36、將所述第二音頻信號傳輸至處理裝置;
37、獲取所述處理裝置對所述第二音頻信號的語音識別結(jié)果;
38、根據(jù)所述語音識別結(jié)果執(zhí)行語音交互的響應(yīng)動作。
39、可選地,包括:
40、第四模塊,被配置為響應(yīng)于用戶語音喚醒車輛,根據(jù)用戶語音提取所述用戶的聲紋;或者,獲取所述用戶預(yù)先錄入的聲紋。
41、可選地,所述車輛包括多個采集裝置,所述裝置包括:
42、第五模塊,被配置為確定距離所述位置最近的第一采集裝置,所述語音采集裝置包括所述第一采集裝置。
43、可選地,包括:
44、第六模塊,被配置為獲取所述車輛的采集裝置采集到的第二音頻信號;
45、第七模塊,被配置為對所述第二音頻信號進行以下至少一種處理,得到對應(yīng)于所述采集裝置的第三音頻信號:回聲消除;降噪;去混響;盲源分離;
46、第八模塊,被配置為響應(yīng)于所述第三音頻信號與預(yù)設(shè)喚醒詞信號的聲學(xué)相似度大于閾值,喚醒所述車輛。
47、可選地,所述車輛包括多個采集裝置,所述裝置包括:
48、第九模塊,被配置為對各個采集裝置的第三音頻信號,確定所述第三音頻信號與預(yù)設(shè)喚醒詞信號的聲學(xué)相似度,以及所述第三音頻信號中的喚醒詞信號的聲音能量;
49、第十模塊,被配置為根據(jù)所述聲學(xué)相似度和聲音能量,從所述多個采集裝置中確定第二采集裝置;
50、第十一模塊,被配置為在所述第二采集裝置的音頻采集范圍中,識別所述用戶。
51、根據(jù)本公開實施例的第三方面,提供一種車輛,包括:
52、處理器;
53、用于存儲處理器可執(zhí)行指令的存儲器;
54、其中,所述處理器被配置為執(zhí)行第一方面中任一項所述方法的步驟。
55、根據(jù)本公開實施例的第四方面,提供一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,該計算機程序被處理器執(zhí)行時實現(xiàn)第一方面中任一項所述方法的步驟。
56、根據(jù)本公開實施例的第五方面,提供一種計算機程序產(chǎn)品,包括計算機程序,該計算機程序被處理器執(zhí)行時實現(xiàn)第一方面中任一項所述的方法的步驟。
57、上述方案中,可以響應(yīng)于用戶語音喚醒車輛,追蹤所述用戶的位置。并獲取與所述位置對應(yīng)的語音采集裝置采集到的第一音頻信號。這樣,可以根據(jù)所述用戶的聲紋和所述第一音頻信號與所述用戶進行語音交互。
58、如此,在用戶語音喚醒車輛后,可以通過追蹤用戶的位置,從而選擇對應(yīng)的語音采集裝置來采集音頻信號。這樣,可以更為準確地采集用戶的語音指令。此外,可以通過用戶的聲紋和所述第一音頻信號與所述用戶進行語音交互。通過結(jié)合聲紋信息,有助于在語音交互中識別用戶,進而有助于提升語音交互的準確度。
59、應(yīng)當理解的是,以上的一般描述和后文的細節(jié)描述僅是示例性和解釋性的,并不能限制本公開。
1.一種語音交互方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述用戶的聲紋和所述第一音頻信號與所述用戶進行語音交互,包括:
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述通過所述第二音頻信號,與所述用戶進行語音交互,包括:
4.根據(jù)權(quán)利要求1至3中任一項所述的方法,其特征在于,包括:
5.根據(jù)權(quán)利要求1至3中任一項所述的方法,其特征在于,所述車輛包括多個采集裝置,所述方法包括:
6.根據(jù)權(quán)利要求1至3中任一項所述的方法,其特征在于,包括:
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述車輛包括多個采集裝置,所述方法包括:
8.一種語音交互裝置,其特征在于,包括:
9.一種車輛,其特征在于,包括:
10.一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,其特征在于,該計算機程序被處理器執(zhí)行時實現(xiàn)權(quán)利要求1至7中任一項所述方法的步驟。
11.一種計算機程序產(chǎn)品,其特征在于,包括計算機程序,該計算機程序被處理器執(zhí)行時實現(xiàn)權(quán)利要求1至7中任一項所述的方法的步驟。