亚洲综合日韩精品欧美综合区,日韩国产在线一区,久久久精品一二三区,午夜精品久久久久久中宇69,国产做爰一区二区三区视频,aa天堂,三级在线视频

基于對(duì)象的音頻編解碼器中不連續(xù)傳輸?shù)姆椒ê驮O(shè)備與流程

文檔序號(hào):42297036發(fā)布日期:2025-06-27 18:35閱讀:10來(lái)源:國(guó)知局

本公開(kāi)涉及聲音編解碼(code),具體地但非排他地涉及基于對(duì)象的音頻編解碼器中的不連續(xù)傳輸(dtx)的方法和設(shè)備。在本公開(kāi)和所附權(quán)利要求中:(a)術(shù)語(yǔ)“音頻”可以與語(yǔ)言、音樂(lè)和任何其他聲音有關(guān)。(b)術(shù)語(yǔ)“多聲道”可以與兩個(gè)或更多個(gè)聲道有關(guān)。(c)術(shù)語(yǔ)“立體聲(stereo)”是“立體聲(stereophonic)”的縮寫(xiě)。(d)術(shù)語(yǔ)“單聲道(mono)”是“單聲道(monophonic)”的縮寫(xiě)。(e)術(shù)語(yǔ)“基于對(duì)象的音頻”旨在將聽(tīng)覺(jué)場(chǎng)景表示為單個(gè)元素(也稱(chēng)為音頻對(duì)象)的集合。此外,“基于對(duì)象的音頻”可以包括例如語(yǔ)言、音樂(lè)和包括一般音頻聲音的任何其他聲音。(f)術(shù)語(yǔ)“音頻對(duì)象”旨在指定具有相關(guān)聯(lián)的元數(shù)據(jù)的音頻流。例如,在本公開(kāi)中,“音頻對(duì)象”被稱(chēng)為具有元數(shù)據(jù)的獨(dú)立音頻流(ism)。(g)術(shù)語(yǔ)“音頻流”旨在以比特流表示音頻波形,例如語(yǔ)言、音樂(lè)和/或包括一般音頻聲音的任何其他聲音,并且可以由一個(gè)聲道(單聲道)組成,盡管也可以考慮包括兩個(gè)聲道(立體聲)的多聲道。(h)術(shù)語(yǔ)“元數(shù)據(jù)”旨在表示描述例如用于將原始或編解碼音頻對(duì)象翻譯到再現(xiàn)系統(tǒng)的音頻流和藝術(shù)(artistic)意圖的信息的集合。元數(shù)據(jù)通常描述每一單個(gè)音頻對(duì)象的空間屬性,例如位置、定向、音量、寬度等。作為非限制性示例,在本公開(kāi)的上下文中,考慮元數(shù)據(jù)的兩個(gè)集合:-輸入元數(shù)據(jù):用作編解碼器的輸入的未量化的元數(shù)據(jù)表示;本公開(kāi)不限于輸入元數(shù)據(jù)的特定格式;和-編解碼的元數(shù)據(jù):形成從編碼器傳輸?shù)浇獯a器的比特流的一部分的量化和編解碼的元數(shù)據(jù)。(i)術(shù)語(yǔ)“音頻格式”旨在指定實(shí)現(xiàn)沉浸式音頻體驗(yàn)的方法。(j)術(shù)語(yǔ)“再現(xiàn)系統(tǒng)”旨在指定解碼器中的元素,該元素能夠在再現(xiàn)側(cè)使用所傳輸?shù)脑獢?shù)據(jù)和藝術(shù)意圖來(lái)渲染音頻對(duì)象,例如但不排他地在收聽(tīng)者周?chē)?d(三維)音頻空間中的音頻對(duì)象??梢詫?duì)目標(biāo)揚(yáng)聲器布局(例如5.1環(huán)繞)或耳機(jī)執(zhí)行渲染,同時(shí)可以例如響應(yīng)于來(lái)自頭部跟蹤設(shè)備的反饋來(lái)動(dòng)態(tài)地修改元數(shù)據(jù)??梢栽O(shè)想其他類(lèi)型的渲染。


背景技術(shù):

1、不連續(xù)傳輸(dtx)在移動(dòng)通信系統(tǒng)中用于在語(yǔ)言或一般音頻暫停期間關(guān)閉無(wú)線(xiàn)電發(fā)送機(jī)。dtx的使用節(jié)省了移動(dòng)站中的功率并且增加了電池再充電之間所需的時(shí)間。它還降低了一般干擾水平,從而提高了傳輸質(zhì)量。然而,在語(yǔ)言或一般音頻暫停期間,如果信道被完全切斷,則通常與語(yǔ)言或一般音頻一起傳輸?shù)谋尘霸肼曇蚕?。結(jié)果是在通信的接收端產(chǎn)生不自然的發(fā)聲音頻信號(hào)(靜音)。

2、代替在語(yǔ)言或一般音頻暫停期間完全關(guān)閉傳輸,已經(jīng)開(kāi)發(fā)了許多技術(shù),其中生成表征背景噪聲的參數(shù)并以低比特速率在靜音插入描述符(sid)幀比特流中傳輸。然后可以在接收器側(cè)(解碼器)使用這些參數(shù),通常稱(chēng)為舒適噪聲(cn)參數(shù),以盡可能多地在發(fā)送器側(cè)(編碼器)重新生成背景噪聲,該背景噪聲與背景噪聲的頻譜和時(shí)間內(nèi)容有關(guān)。重新生成背景噪聲的過(guò)程被稱(chēng)為舒適噪聲生成(cng)。

3、歷史上,會(huì)話(huà)電話(huà)是用單聲道手機(jī)來(lái)實(shí)施的,單聲道手機(jī)僅具有一個(gè)換能器,以?xún)H向用戶(hù)的一只耳朵輸出聲音。因此,單聲道編解碼器的sid可以實(shí)現(xiàn)低比特速率。在過(guò)去的十年中,用戶(hù)已經(jīng)開(kāi)始結(jié)合耳機(jī)使用他們的便攜式手機(jī)來(lái)通過(guò)他們的兩只耳朵接收聲音,主要是聽(tīng)音樂(lè),但有時(shí)也聽(tīng)語(yǔ)言。然而,當(dāng)使用便攜式手機(jī)來(lái)發(fā)送和接收會(huì)話(huà)語(yǔ)言時(shí),內(nèi)容仍然是單聲道的,但是當(dāng)使用耳機(jī)時(shí)呈現(xiàn)給用戶(hù)的兩只耳朵。

4、利用3gpp(第三代合作伙伴計(jì)劃)語(yǔ)音編解碼標(biāo)準(zhǔn)實(shí)施用于增強(qiáng)語(yǔ)言服務(wù)(evs)的編解碼器,如參考文獻(xiàn)[1](其全部?jī)?nèi)容通過(guò)引用并入本文)中所述,編解碼音頻聲音(例如語(yǔ)言、音樂(lè)和通過(guò)便攜式手機(jī)發(fā)送和接收的任何其他聲音)的質(zhì)量已經(jīng)顯著提高。下一個(gè)自然步驟是傳輸立體聲信息,使得接收器盡可能接近在通信鏈路的另一端捕獲的現(xiàn)實(shí)生活音頻場(chǎng)景。

5、此外,在過(guò)去幾年中,音頻的生成、記錄、表示、編解碼、傳輸和再現(xiàn)正在朝著收聽(tīng)者的增強(qiáng)的、交互式的和沉浸式的體驗(yàn)發(fā)展。沉浸式體驗(yàn)可以被描述為例如在聲音來(lái)自所有方向時(shí)深度參與或牽涉到音頻場(chǎng)景中的狀態(tài)。在沉浸式音頻(也稱(chēng)為3d(三維)音頻)中,聲音映像(image)在收聽(tīng)者周?chē)乃腥齻€(gè)維度中被再現(xiàn),考慮到廣泛的聲音特性,如音色、方向性、混響、透明度和準(zhǔn)確性的(聽(tīng)覺(jué))寬敞度。沉浸式音頻被產(chǎn)生用于特定音頻回放或再現(xiàn)系統(tǒng),諸如基于揚(yáng)聲器的系統(tǒng)、集成再現(xiàn)系統(tǒng)(條形音箱)或耳機(jī)。然后,音頻再現(xiàn)系統(tǒng)的交互性可以包括例如調(diào)整聲級(jí)、改變聲音的位置或選擇不同語(yǔ)言用于再現(xiàn)的能力。

6、有三種基本方法(下面也稱(chēng)為音頻格式)來(lái)實(shí)現(xiàn)沉浸式音頻體驗(yàn)。

7、第一種方法是基于聲道的音頻,其中使用多個(gè)間隔開(kāi)的麥克風(fēng)來(lái)捕獲來(lái)自不同方向的聲音,而一個(gè)麥克風(fēng)對(duì)應(yīng)于特定揚(yáng)聲器布局中的一個(gè)音頻聲道。每個(gè)記錄的聲道被提供給特定位置中的揚(yáng)聲器?;诼暤赖囊纛l的示例包括例如立體聲、5.1環(huán)繞聲、5.1+4等。

8、第二種方法是基于場(chǎng)景的音頻(sba),其通過(guò)維度分量的組合將局部化空間上的期望聲場(chǎng)表示為時(shí)間的函數(shù)。表示基于場(chǎng)景的音頻的信號(hào)獨(dú)立于聲源位置,而聲場(chǎng)必須在渲染再現(xiàn)系統(tǒng)處變換為所選擇的擴(kuò)音器布局?;趫?chǎng)景的音頻的示例是高保真度立體聲響復(fù)制。

9、最后的第三沉浸式音頻方法是基于對(duì)象的音頻,其將聽(tīng)覺(jué)場(chǎng)景表示為單獨(dú)的音頻元素(例如歌手、鼓、吉他)的集合,伴隨有關(guān)于例如它們?cè)谝纛l場(chǎng)景中的位置的信息,使得它們可以在再現(xiàn)系統(tǒng)處被渲染到它們的預(yù)期位置。這給予基于對(duì)象的音頻很大的靈活性和交互性,因?yàn)槊總€(gè)對(duì)象保持離散并且可以被單獨(dú)操縱。

10、除了基本方法之外,正在開(kāi)發(fā)新的多聲道編解碼技術(shù),諸如例如參考文獻(xiàn)[5]中描述的元數(shù)據(jù)輔助空間音頻(masa),參考文獻(xiàn)[5]的全部?jī)?nèi)容通過(guò)引用并入本文。在masa方法中,在masa分析器中生成masa元數(shù)據(jù)(例如方向、能量比、擴(kuò)展相干性、距離、環(huán)繞相干性,所有這些都在若干時(shí)頻時(shí)隙中),其被量化、編解碼并傳入到比特流中,而masa音頻聲道被視為由核心編碼器編解碼的(多)單聲道或(多)立體聲傳送信號(hào)。在masa解碼器處,masa元數(shù)據(jù)然后引導(dǎo)解碼和渲染過(guò)程以重建輸出空間聲音。

11、用于實(shí)現(xiàn)沉浸式體驗(yàn)的上述音頻方法中的每一個(gè)都存在優(yōu)點(diǎn)和缺點(diǎn)。因此,常見(jiàn)的是,代替僅一種音頻方法,在復(fù)雜的音頻系統(tǒng)中組合若干音頻方法以創(chuàng)建沉浸式聽(tīng)覺(jué)場(chǎng)景。示例可以是將基于場(chǎng)景的音頻(sba)或masa與基于對(duì)象的音頻(例如sba或masa與幾個(gè)離散音頻對(duì)象)組合的音頻系統(tǒng)。

12、近年來(lái),3gpp開(kāi)始致力于基于如參考文獻(xiàn)[1]中描述的evs編解碼器開(kāi)發(fā)如參考文獻(xiàn)[2]中描述的用于被稱(chēng)為ivas(沉浸式語(yǔ)音和音頻服務(wù))的沉浸式服務(wù)的3d音頻編解碼器,參考文獻(xiàn)[2]的全部?jī)?nèi)容通過(guò)引用并入本文。ivas編解碼器是多信道編解碼器,其中比特速率通常隨著經(jīng)編解碼及發(fā)送信道的數(shù)量增加而要求更高。

13、因此,多信道編解碼器中的dtx操作需要解決(a)保持低sid比特速率與(b)使用要表示的大量信道之間的權(quán)衡。例如,如果每個(gè)信道將由其自己的sid表示,則總編解碼器sid比特速率將太高。因此,需要有效的dtx方法和sid編解碼。


技術(shù)實(shí)現(xiàn)思路

1、根據(jù)第一方面,本公開(kāi)涉及一種用于基于對(duì)象的音頻編解碼器中的音頻對(duì)象的不連續(xù)傳輸(dtx)的方法,所述音頻對(duì)象包括各自的音頻流,所述方法包括:分析音頻流以產(chǎn)生關(guān)于音頻對(duì)象的語(yǔ)音或信號(hào)活動(dòng)信息;響應(yīng)于關(guān)于所述音頻對(duì)象的所述活動(dòng)信息,檢測(cè)所述音頻對(duì)象的dtx信號(hào)段和所述dtx信號(hào)段內(nèi)的sid幀,其中,所述段和幀檢測(cè)包括(a)更新非活動(dòng)幀的全局sid計(jì)數(shù)器,以及(b)取決于所述全局sid計(jì)數(shù)器的值,用信號(hào)通知所述dtx信號(hào)段內(nèi)檢測(cè)到的sid幀;以及使用sid幀編解碼對(duì)所述用信號(hào)通知的、檢測(cè)到的sid幀進(jìn)行編碼(encode)。

2、根據(jù)另一方面,本公開(kāi)涉及一種用于基于對(duì)象的音頻編解碼器中的音頻對(duì)象的不連續(xù)傳輸(dtx)的設(shè)備,所述音頻對(duì)象包括各自的音頻流,所述設(shè)備包括:音頻流的分析器,用于產(chǎn)生關(guān)于音頻對(duì)象的語(yǔ)音或信號(hào)活動(dòng)信息;dtx控制器,用于響應(yīng)于關(guān)于音頻對(duì)象的活動(dòng)信息,檢測(cè)音頻對(duì)象的dtx信號(hào)段和dtx信號(hào)段內(nèi)的sid幀,其中dtx控制器(a)更新非活動(dòng)幀的全局sid計(jì)數(shù)器,以及(b)取決于全局sid計(jì)數(shù)器的值,用信號(hào)通知dtx信號(hào)段內(nèi)檢測(cè)到的sid幀;以及使用sid幀編解碼的用信號(hào)通知的、檢測(cè)到的sid幀的編碼器。

3、根據(jù)另一方面,本公開(kāi)描述了一種用于解碼不連續(xù)傳輸(dtx)操作期間的音頻對(duì)象的方法,每個(gè)音頻對(duì)象包括具有元數(shù)據(jù)(md)的音頻流,md包括至少一個(gè)md參數(shù),該方法包括:對(duì)元數(shù)據(jù)進(jìn)行解碼,包括調(diào)整md參數(shù)的值以降低幀之間的所述md參數(shù)的差異;以及解碼所述音頻流。

4、根據(jù)第四方面,本公開(kāi)公開(kāi)了一種用于解碼不連續(xù)傳輸(dtx)操作期間的音頻對(duì)象的設(shè)備,每個(gè)音頻對(duì)象包括具有元數(shù)據(jù)(md)的音頻流,md包括至少一個(gè)md參數(shù),該設(shè)備包括:元數(shù)據(jù)解碼器,用于對(duì)元數(shù)據(jù)進(jìn)行解碼,其中元數(shù)據(jù)解碼器調(diào)整md參數(shù)的值以降低幀之間的所述md參數(shù)的差異;以及音頻流解碼器,用于解碼音頻流。

5、(a)用于基于對(duì)象的音頻編解碼器中的音頻對(duì)象的不連續(xù)傳輸(dtx)的方法和設(shè)備以及(b)用于解碼不連續(xù)傳輸(dtx)操作期間的音頻對(duì)象的方法和設(shè)備的前述和其他目的、優(yōu)點(diǎn)和特征將在閱讀僅通過(guò)示例的方式參考附圖給出的其說(shuō)明性實(shí)施例的以下非限制性描述時(shí)變得更加顯而易見(jiàn)。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1