本申請涉及信息處理,尤其涉及一種視頻處理方法、裝置和設(shè)備。
背景技術(shù):
1、隨著視頻采集設(shè)備的普及,各場景下的視頻數(shù)據(jù)總量呈爆發(fā)式增長。視頻中包含有豐富的信息,從內(nèi)容的角度來看,包括顯示對象、環(huán)境場景等;從信息類型的角度來看,包括音頻信息、圖像信息、時(shí)間信息等,為了充分利用和發(fā)揮視頻數(shù)據(jù)中蘊(yùn)含的信息,通常需要對視頻的內(nèi)容進(jìn)行識別。
2、近年來,隨著深度學(xué)習(xí)和卷積神經(jīng)網(wǎng)絡(luò)等神經(jīng)網(wǎng)絡(luò)模型的興起,計(jì)算機(jī)系統(tǒng)能夠更好地理解和處理視頻數(shù)據(jù),特別是在復(fù)雜場景下取得更優(yōu)越的性能,提高了視頻內(nèi)容識別的準(zhǔn)確性。
3、傳統(tǒng)的視頻識別方法通常需要對視頻的全部內(nèi)容進(jìn)行識別,需要從視頻中的大量數(shù)據(jù)識別出對應(yīng)的對象信息。這些復(fù)雜的視頻識別方法往往難以在短時(shí)間內(nèi)完成識別任務(wù),而且需要按照工作人員的配置進(jìn)行識別,無法滿足個(gè)性化需求。
技術(shù)實(shí)現(xiàn)思路
1、有鑒于此,本申請?zhí)峁┮环N視頻處理方法、裝置和設(shè)備,用以實(shí)現(xiàn)視頻的多樣化處理需求。
2、具體地,本申請是通過如下技術(shù)方案實(shí)現(xiàn)的:
3、本申請第一方面提供一種視頻處理方法,所述方法包括:
4、針對待識別視頻,利用預(yù)先訓(xùn)練好的識別模型對預(yù)先為所述待識別視頻配置的處理需求進(jìn)行識別,得到所述處理需求對應(yīng)的意圖、以及所述處理需求對應(yīng)的關(guān)鍵語音點(diǎn)識別方式;
5、獲取所述待識別視頻的音頻和圖像序列;
6、按照所述關(guān)鍵語音點(diǎn)識別方式,從所述音頻中識別出與所述意圖相關(guān)的關(guān)鍵語音點(diǎn);
7、將所述圖像序列中與所述關(guān)鍵語音點(diǎn)對應(yīng)的圖像確定為關(guān)鍵幀圖像;
8、基于所述意圖,對所述關(guān)鍵幀圖像進(jìn)行處理,以得到所述意圖對應(yīng)的處理結(jié)果。
9、本申請第二方面提供一種視頻處理裝置,所述裝置包括確定模塊、獲取模塊、識別模塊和處理模塊;其中,
10、所述確定模塊,用于針對待識別視頻,利用預(yù)先訓(xùn)練好的識別模型對預(yù)先為所述待識別視頻配置的處理需求進(jìn)行識別,得到所述處理需求對應(yīng)的意圖、以及所述處理需求對應(yīng)的關(guān)鍵語音點(diǎn)識別方式;
11、所述獲取模塊,用于獲取所述待識別視頻的音頻和圖像序列;
12、所述識別模塊,用于按照所述關(guān)鍵語音點(diǎn)識別方式,從所述音頻中識別出與所述意圖相關(guān)的關(guān)鍵語音點(diǎn);
13、所述確定模塊,用于將所述圖像序列中與所述關(guān)鍵語音點(diǎn)對應(yīng)的圖像確定為關(guān)鍵幀圖像;
14、所述處理模塊,用于基于所述意圖,對所述關(guān)鍵幀圖像進(jìn)行處理,以得到所述意圖對應(yīng)的處理結(jié)果。
15、本申請第三方面提供一種視頻處理設(shè)備,包括存儲器、處理器及存儲在所述存儲器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)本申請第一方面提供的任一項(xiàng)所述方法的步驟。
16、本申請第四方面提供一種計(jì)算機(jī)可讀存儲介質(zhì),其上存儲有計(jì)算機(jī)程序,所述程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)本申請第一方面提供的任一項(xiàng)所述方法的步驟。
17、本申請?zhí)峁┑囊曨l處理方法、裝置和設(shè)備,首先針對待識別視頻,利用預(yù)先訓(xùn)練好的識別模型對預(yù)先為待識別視頻配置的處理需求進(jìn)行識別,得到處理需求對應(yīng)的意圖、以及處理需求對應(yīng)的關(guān)鍵語音點(diǎn)識別方式,然后獲取待識別視頻的音頻和圖像序列,進(jìn)而按照關(guān)鍵語音點(diǎn)識別方式,從音頻中識別出與意圖相關(guān)的關(guān)鍵語音點(diǎn),再將圖像序列中與關(guān)鍵語音點(diǎn)對應(yīng)的圖像確定為關(guān)鍵幀圖像,最后基于意圖,對關(guān)鍵幀圖像進(jìn)行處理,以得到意圖對應(yīng)的處理結(jié)果。這樣,通過關(guān)鍵語音點(diǎn)識別方式獲得關(guān)鍵語音點(diǎn),進(jìn)而基于關(guān)鍵語音點(diǎn),確定關(guān)鍵幀圖像,最后基于意圖,對關(guān)鍵幀圖像進(jìn)行處理,得到待識別視頻的處理結(jié)果。這樣,不僅可以滿足不同的待處理視頻的處理需求,解決復(fù)雜的待處理視頻的多樣化處理需求,還不需要對全部的視頻幀進(jìn)行處理,可以快速、準(zhǔn)確的獲取處理結(jié)果,可節(jié)省計(jì)算資源,提高處理的效率。
1.一種視頻處理方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述關(guān)鍵語音點(diǎn)識別方式為第一類識別方式時(shí);所述按照所述關(guān)鍵語音點(diǎn)識別方式,從所述音頻中識別出與所述意圖相關(guān)的關(guān)鍵語音點(diǎn),包括:
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述關(guān)鍵語音點(diǎn)識別方式為第二類識別方式時(shí);所述按照所述關(guān)鍵語音點(diǎn)識別方式,從所述音頻中識別出與所述意圖相關(guān)的關(guān)鍵語音點(diǎn),包括:
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述基于所述語義識別結(jié)果,確定所述關(guān)鍵語音點(diǎn),包括:
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,在所述意圖指示識別關(guān)鍵幀圖像時(shí);所述基于所述意圖,對所述關(guān)鍵幀圖像進(jìn)行處理,得到所述意圖對應(yīng)的處理結(jié)果,包括:
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,在所述意圖用于指示對關(guān)鍵幀圖像進(jìn)行圖像識別時(shí);所述基于所述意圖,對所述關(guān)鍵幀圖像進(jìn)行處理,得到所述意圖對應(yīng)的處理結(jié)果,包括:
7.一種視頻處理裝置,其特征在于,所述裝置包括確定模塊、獲取模塊、識別模塊和處理模塊;其中,
8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述識別模塊,具體用于在所述關(guān)鍵語音點(diǎn)識別方式為第一類識別方式時(shí),從預(yù)先建立的音頻庫中查找與所述意圖的第一類關(guān)鍵詞匹配的音頻片段;所述第一類關(guān)鍵詞為與音頻相關(guān)的關(guān)鍵詞;
9.一種視頻處理設(shè)備,其特征在于,包括存儲器、處理器及存儲在所述存儲器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)權(quán)利要求1-6任一項(xiàng)所述方法的步驟。
10.一種計(jì)算機(jī)可讀存儲介質(zhì),其上存儲有計(jì)算機(jī)程序,其特征在于,所述程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1-6任一項(xiàng)所述方法的步驟。