使用基于機器學習的音頻表示來匹配音頻的制作方法

文檔序號：42041738發(fā)布日期：2025-05-30 17:41閱讀：來源：國知局

技術(shù)特征：

1.一種用于對音頻信息進行編碼的裝置，所述裝置包括：

2.根據(jù)權(quán)利要求1所述的裝置，其中所述輸入音頻片段的所述表示包括表示所述輸入音頻片段的嵌入向量，并且其中所述多個表示包括表示所述多個音頻片段的多個嵌入向量。

3.根據(jù)權(quán)利要求1所述的裝置，其中所述一個或多個目標音頻片段具有可變長度。

4.根據(jù)權(quán)利要求3所述的裝置，其中所述至少一個處理器被配置為對所述一個或多個目標音頻片段進行重新采樣以將可變長度的所述一個或多個目標音頻片段轉(zhuǎn)換成固定長度的一個或多個目標音頻片段。

5.根據(jù)權(quán)利要求1所述的裝置，其中：

6.根據(jù)權(quán)利要求5所述的裝置，其中所述至少一個處理器被配置為以小于每秒一千位發(fā)送所述音頻位流。

7.根據(jù)權(quán)利要求1所述的裝置，其中：

8.根據(jù)權(quán)利要求7所述的裝置，其中所述至少一個處理器被配置為進一步基于搜索和級聯(lián)操作來確定所述一個或多個目標表示。

9.根據(jù)權(quán)利要求1所述的裝置，其中所述輸入音頻片段包括輸入言語片段，并且其中所述多個音頻片段包括多個言語片段。

10.一種用于對音頻信息進行解碼的裝置，所述裝置包括：

11.根據(jù)權(quán)利要求10所述的裝置，其中為了組合所述一個或多個目標音頻片段，所述至少一個處理器被配置為級聯(lián)所述一個或多個目標音頻片段以生成所述已解碼音頻。

12.根據(jù)權(quán)利要求10所述的裝置，其中所述至少一個處理器被配置為輸出所述已解碼音頻。

13.根據(jù)權(quán)利要求10所述的裝置，其中所述一個或多個目標音頻片段具有可變長度。

14.根據(jù)權(quán)利要求10所述的裝置，其中所述至少一個處理器被配置為接收所述一個或多個分組化索引作為音頻位流。

15.根據(jù)權(quán)利要求14所述的裝置，其中所述音頻位流小于每秒一千位。

16.根據(jù)權(quán)利要求10所述的裝置，其中所述一個或多個目標音頻片段包括一個或多個目標言語片段。

17.一種用于對音頻信息進行編碼的方法，所述方法包括：

18.根據(jù)權(quán)利要求17所述的方法，其中所述輸入音頻片段的所述表示包括表示所述輸入音頻片段的嵌入向量，并且其中所述多個表示包括表示所述多個音頻片段的多個嵌入向量。

19.根據(jù)權(quán)利要求17所述的方法，其中所述一個或多個目標音頻片段具有可變長度。

20.根據(jù)權(quán)利要求19所述的方法，所述方法還包括對所述一個或多個目標音頻片段進行重新采樣以將可變長度的所述一個或多個目標音頻片段轉(zhuǎn)換成固定長度的一個或多個目標音頻片段。

21.根據(jù)權(quán)利要求17所述的方法，所述方法還包括：

22.根據(jù)權(quán)利要求17所述的方法，其中將所述輸入音頻片段的所述表示與所述多個表示進行比較包括確定所述輸入音頻片段的所述表示與所述多個表示的每個相應表示之間的相應差，并且還包括：

23.根據(jù)權(quán)利要求22所述的方法，所述方法還包括進一步基于搜索和級聯(lián)操作來確定所述一個或多個目標表示。

24.根據(jù)權(quán)利要求17所述的方法，其中所述輸入音頻片段包括輸入言語片段，并且其中所述多個音頻片段包括多個言語片段。

25.一種對音頻信息進行解碼的方法，所述方法包括：

26.根據(jù)權(quán)利要求25所述的方法，其中組合所述一個或多個目標音頻片段包括級聯(lián)所述一個或多個目標音頻片段以生成所述已解碼音頻。

27.根據(jù)權(quán)利要求25所述的方法，所述方法還包括輸出所述已解碼音頻。

28.根據(jù)權(quán)利要求25所述的方法，其中所述一個或多個目標音頻片段具有可變長度。

29.根據(jù)權(quán)利要求25所述的方法，所述方法還包括接收所述一個或多個分組化索引作為音頻位流。

30.根據(jù)權(quán)利要求25所述的方法，其中所述一個或多個目標音頻片段包括一個或多個目標言語片段。

技術(shù)總結(jié)
本文描述了用于編碼和/或解碼音頻信息的系統(tǒng)和技術(shù)。例如，過程可處理輸入音頻片段以生成該輸入音頻片段的表示，并且可將該輸入音頻片段的該表示與存儲在存儲器中的表示進行比較。該表示表示多個音頻片段。該過程可基于該比較從存儲在該存儲器中的該表示確定目標音頻片段的目標表示。該過程可確定與該目標音頻片段相關(guān)聯(lián)的一個或多個索引。該過程可然后分組化該一個或多個索引并且發(fā)送該分組化的一個或多個索引(例如，發(fā)送到被配置為對該分組化索引進行解碼的解碼器)。

技術(shù)研發(fā)人員：S·維勒特,S·李,P·K·拉馬達斯,D·J·辛德爾
受保護的技術(shù)使用者：高通股份有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2025/5/29

完整全部詳細技術(shù)資料下載

當前第2頁1 2

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲综合日韩精品欧美综合区,日韩国产在线一区,久久久精品一二三区,午夜精品久久久久久中宇69,国产做爰一区二区三区视频,aa天堂,三级在线视频

使用基于機器學習的音頻表示來匹配音頻的制作方法