1.一種用于對音頻信息進行編碼的裝置,所述裝置包括:
2.根據(jù)權(quán)利要求1所述的裝置,其中所述輸入音頻片段的所述表示包括表示所述輸入音頻片段的嵌入向量,并且其中所述多個表示包括表示所述多個音頻片段的多個嵌入向量。
3.根據(jù)權(quán)利要求1所述的裝置,其中所述一個或多個目標音頻片段具有可變長度。
4.根據(jù)權(quán)利要求3所述的裝置,其中所述至少一個處理器被配置為對所述一個或多個目標音頻片段進行重新采樣以將可變長度的所述一個或多個目標音頻片段轉(zhuǎn)換成固定長度的一個或多個目標音頻片段。
5.根據(jù)權(quán)利要求1所述的裝置,其中:
6.根據(jù)權(quán)利要求5所述的裝置,其中所述至少一個處理器被配置為以小于每秒一千位發(fā)送所述音頻位流。
7.根據(jù)權(quán)利要求1所述的裝置,其中:
8.根據(jù)權(quán)利要求7所述的裝置,其中所述至少一個處理器被配置為進一步基于搜索和級聯(lián)操作來確定所述一個或多個目標表示。
9.根據(jù)權(quán)利要求1所述的裝置,其中所述輸入音頻片段包括輸入言語片段,并且其中所述多個音頻片段包括多個言語片段。
10.一種用于對音頻信息進行解碼的裝置,所述裝置包括:
11.根據(jù)權(quán)利要求10所述的裝置,其中為了組合所述一個或多個目標音頻片段,所述至少一個處理器被配置為級聯(lián)所述一個或多個目標音頻片段以生成所述已解碼音頻。
12.根據(jù)權(quán)利要求10所述的裝置,其中所述至少一個處理器被配置為輸出所述已解碼音頻。
13.根據(jù)權(quán)利要求10所述的裝置,其中所述一個或多個目標音頻片段具有可變長度。
14.根據(jù)權(quán)利要求10所述的裝置,其中所述至少一個處理器被配置為接收所述一個或多個分組化索引作為音頻位流。
15.根據(jù)權(quán)利要求14所述的裝置,其中所述音頻位流小于每秒一千位。
16.根據(jù)權(quán)利要求10所述的裝置,其中所述一個或多個目標音頻片段包括一個或多個目標言語片段。
17.一種用于對音頻信息進行編碼的方法,所述方法包括:
18.根據(jù)權(quán)利要求17所述的方法,其中所述輸入音頻片段的所述表示包括表示所述輸入音頻片段的嵌入向量,并且其中所述多個表示包括表示所述多個音頻片段的多個嵌入向量。
19.根據(jù)權(quán)利要求17所述的方法,其中所述一個或多個目標音頻片段具有可變長度。
20.根據(jù)權(quán)利要求19所述的方法,所述方法還包括對所述一個或多個目標音頻片段進行重新采樣以將可變長度的所述一個或多個目標音頻片段轉(zhuǎn)換成固定長度的一個或多個目標音頻片段。
21.根據(jù)權(quán)利要求17所述的方法,所述方法還包括:
22.根據(jù)權(quán)利要求17所述的方法,其中將所述輸入音頻片段的所述表示與所述多個表示進行比較包括確定所述輸入音頻片段的所述表示與所述多個表示的每個相應表示之間的相應差,并且還包括:
23.根據(jù)權(quán)利要求22所述的方法,所述方法還包括進一步基于搜索和級聯(lián)操作來確定所述一個或多個目標表示。
24.根據(jù)權(quán)利要求17所述的方法,其中所述輸入音頻片段包括輸入言語片段,并且其中所述多個音頻片段包括多個言語片段。
25.一種對音頻信息進行解碼的方法,所述方法包括:
26.根據(jù)權(quán)利要求25所述的方法,其中組合所述一個或多個目標音頻片段包括級聯(lián)所述一個或多個目標音頻片段以生成所述已解碼音頻。
27.根據(jù)權(quán)利要求25所述的方法,所述方法還包括輸出所述已解碼音頻。
28.根據(jù)權(quán)利要求25所述的方法,其中所述一個或多個目標音頻片段具有可變長度。
29.根據(jù)權(quán)利要求25所述的方法,所述方法還包括接收所述一個或多個分組化索引作為音頻位流。
30.根據(jù)權(quán)利要求25所述的方法,其中所述一個或多個目標音頻片段包括一個或多個目標言語片段。