亚洲综合日韩精品欧美综合区,日韩国产在线一区,久久久精品一二三区,午夜精品久久久久久中宇69,国产做爰一区二区三区视频,aa天堂,三级在线视频

一種基于分割掩碼表示的可泛化機器人操作方法和系統(tǒng)

文檔序號:42102640發(fā)布日期:2025-06-06 21:41閱讀:22來源:國知局

本發(fā)明涉及桌面場景機器人操作領(lǐng)域,尤其涉及一種基于分割掩碼表示的可泛化機器人操作方法和系統(tǒng)。


背景技術(shù):

1、當前,機器人操作領(lǐng)域已成為人工智能和機器人技術(shù)的重要研究方向,尤其是在復雜桌面場景中的機器人操作更是受到廣泛關(guān)注。該領(lǐng)域旨在通過結(jié)合視覺、語言和動作數(shù)據(jù),賦予機器人高效的物體操作能力,涵蓋物體抓取、精準放置、復雜場景中的任務(wù)執(zhí)行等應(yīng)用。實現(xiàn)機器人在多樣化任務(wù)和場景中的通用化操作是推動機器人技術(shù)進一步發(fā)展的關(guān)鍵。

2、現(xiàn)有的機器人操作技術(shù)可以大致分為以下三類:1)模仿學習模型,2)基于視覺目標的策略模型,以及3)視覺語言動作(vision-language-action,vla)模型。

3、模仿學習模型通過收集大量的人工演示數(shù)據(jù)進行訓練,專注于特定任務(wù)或場景,能夠在特定條件下取得良好的性能,但受限于數(shù)據(jù)的多樣性和模型的局限性,其泛化能力較差;基于視覺目標的策略模型通常利用目標圖像或預(yù)定義規(guī)則為機器人提供目標指導,這類模型在空間定位和操作精度上表現(xiàn)優(yōu)異,但依賴于高質(zhì)量的數(shù)據(jù)和特定的任務(wù)設(shè)定,難以適應(yīng)更復雜的動態(tài)場景;vla模型通過結(jié)合大規(guī)模的機器人訓練數(shù)據(jù)和預(yù)訓練的視覺語言模型(vision-language?models,vlms),展現(xiàn)了較強的任務(wù)推理能力和廣泛的操作適應(yīng)性,能夠支持多樣化的機器人操作任務(wù)。然而,這些方法在面對全新場景或任務(wù)時,仍然存在泛化能力不足的挑戰(zhàn),通常需要依賴大規(guī)模的數(shù)據(jù)集和額外的模型微調(diào),這不僅成本高昂,還限制了模型在實際應(yīng)用中的可擴展性。


技術(shù)實現(xiàn)思路

1、為了解決現(xiàn)有機器人操作技術(shù)中存在的泛化能力不足的問題,本發(fā)明提供了一種基于分割掩碼表示的可泛化機器人操作方法和系統(tǒng),旨在實現(xiàn)機器人操作策略在多樣化場景和任務(wù)下的通用化能力。

2、本發(fā)明所采用的具體技術(shù)方案是:

3、第一方面,本發(fā)明提供了一種基于分割掩碼表示的可泛化機器人操作方法,所述機器人由夾爪和機械臂構(gòu)成,包括以下步驟:

4、(1)構(gòu)建三維物體庫和桌面場景庫,根據(jù)庫中數(shù)據(jù)隨機生成大量虛擬環(huán)境下的桌面場景布局;

5、(2)通過給定目標物體和目標區(qū)域,生成在桌面場景中針對目標物體的機器人操作軌跡數(shù)據(jù);對于每一條機器人操作軌跡數(shù)據(jù),結(jié)合桌面場景中全部物體的外觀、空間位置關(guān)系和常識性知識生成多樣化的文本指令;

6、(3)對于每一條機器人操作軌跡數(shù)據(jù),收集每一操作步下的機器人視角圖像、機器人狀態(tài)數(shù)據(jù)和一條文本指令作為一條訓練樣本,構(gòu)建訓練樣本集;所述的機器人狀態(tài)數(shù)據(jù)包括機器人的夾爪開關(guān)和機器臂的關(guān)節(jié)角度;

7、(4)利用預(yù)訓練多模態(tài)大模型定位每一條訓練樣本中的文本指令所指出的目標物體和目標區(qū)域,得到目標物體掩碼和目標區(qū)域掩碼;

8、(5)將若干歷史操作步對應(yīng)的目標物體掩碼、目標區(qū)域掩碼、訓練樣本輸入機器人操作策略網(wǎng)絡(luò),提取機器人視角圖像特征、機器人狀態(tài)特征、文本指令特征,將目標物體掩碼、目標區(qū)域掩碼與所述的機器人視角圖像特征融合,基于融合后的結(jié)果以及機器人狀態(tài)特征、文本指令特征、可學習的動作token對應(yīng)的動作特征,預(yù)測機器人下一操作步的動作指令,根據(jù)下一操作步的機器人真實狀態(tài)與預(yù)測的動作指令計算損失以訓練機器人操作策略網(wǎng)絡(luò);

9、(6)利用預(yù)訓練多模態(tài)大模型和訓練后的機器人操作策略網(wǎng)絡(luò)完成實際桌面場景下的給定指令。

10、進一步地,虛擬環(huán)境下的桌面場景布局中,包括桌面場景、一個目標物體和若干干擾物體。

11、進一步地,三維物體庫中的物體包含屬性信息,所述屬性信息包括類別、顏色、形狀和材質(zhì)。

12、進一步地,步驟(2)中,每一條機器人操作軌跡數(shù)據(jù)對應(yīng)若干文本指令。

13、進一步地,所述的文本指令由大語言模型實現(xiàn),所述大語言模型的輸入包括目標物體、目標區(qū)域、機器人初始視角圖像、桌面場景中全部物體屬性信息、以及相關(guān)提示詞。

14、進一步地,步驟(4)所述的預(yù)訓練多模態(tài)大模型包括圖像編碼器、多層感知機、大語言模型和定位模塊;

15、步驟(4)具體包括:

16、(4-1)利用圖像編碼器獲取訓練樣本中機器人初始視角圖像xv,0編碼特征,并通過多層感知機投影至大語言模型的嵌入特征空間;

17、(4-2)由預(yù)訓練的sam模型初始化一個定位模塊,所述的定位模塊包括一個預(yù)訓練圖像編碼器和預(yù)訓練圖像解碼器,所述的定位模塊接在大語言模型之后;

18、(4-3)向大語言模型的詞匯表中加入特殊token<seg>,并給定大語言模型提示詞,要求大語言模型根據(jù)輸入的圖像編碼特征和文本指令,定位到文本指令中所指代的目標物體和目標區(qū)域,分別生成文字描述其中,clip(·)表示圖像編碼器,fv(·)表示多層感知機,xt表示文本指令,表示大語言模型,yt,1表示定位到文本指令中所指代的目標物體的文字描述,yt,2表示定位到文本指令中所指代的目標區(qū)域的文字描述;

19、(4-4)當大語言模型文本輸出中含有token<seg>時,將文本輸出之前的最后一層隱藏層特征向量輸入定位模塊,得到相應(yīng)的分割掩碼其中mo為目標物體掩碼,mp為目標區(qū)域掩碼,兩個分割掩碼均為與機器人視角圖像大小相同的0-1掩碼矩陣;ε(·)表示定位模塊中的預(yù)訓練圖像編碼器,表示定位模塊中的預(yù)訓練圖像解碼器,表示yt,1輸出之前對應(yīng)的最后一層隱藏層特征向量,表示yt,2輸出之前對應(yīng)的最后一層隱藏層特征向量。

20、進一步地,所述的機器人操作策略網(wǎng)絡(luò)包括預(yù)訓練圖像編碼器、預(yù)訓練文本編碼器、多層感知機、定位感知器、transformer解碼器,所述的定位感知器由若干注意力層構(gòu)成;

21、步驟(5)具體包括:

22、(5-1)對于每一操作步下的機器人視角圖像,利用機器人操作策略網(wǎng)絡(luò)中的預(yù)訓練圖像編碼器獲取機器人視角圖像特征包括一個全局圖像特征和一個局部圖像特征其中,dv為圖像編碼的特征維度;

23、(5-2)定位感知器分別初始化一個全局查詢向量一個目標物體查詢向量和一個目標區(qū)域查詢向量其中dp為初始特征維度;

24、(5-3)在定位感知器的第一個注意力層中,將三個向量連接在一起并投影至隱藏層空間得到查詢向量其中d為隱藏層特征維度;機器人視角圖像特征經(jīng)過不同投影矩陣的投影后與查詢向量q拼接,分別得到鍵向量和值向量根據(jù)查詢向量q、鍵向量k計算注意力矩陣

25、(5-4)將目標物體掩碼mo和目標區(qū)域掩碼mp分別映射至14×14的特征圖大小,并轉(zhuǎn)成大小為1×196的一維向量,然后將mo對應(yīng)的一維向量應(yīng)用于a[1,:196],將mp對應(yīng)的一維向量應(yīng)用于a[2,:196],使得掩碼區(qū)域的注意力值替換為當前矩陣的最大值,得到更新后的注意力矩陣a′;接下來,計算a′的softmax,乘以值向量v,并通過前饋網(wǎng)絡(luò)ffn(·)得到注意力層的輸出o=ffn(softmax(a′)×v);

26、(5-5)返回步驟(5-3),并將前一個注意力層的輸出o作為下一個注意力層計算的查詢向量直至得到最后一個注意力層的輸出,將最終輸出的融合了掩碼信息的圖像特征記為

27、(5-6)分別利用預(yù)訓練文本編碼器、多層感知機提取機器人狀態(tài)特征zt、文本指令特征zs,以及,初始化一個可學習的動作token<act>并提取動作特征za;得到每一個操作步對應(yīng)的輸入序列

28、(5-7)將n個歷史操作步數(shù)據(jù)對應(yīng)的上述輸入序列輸入到transformer解碼器,預(yù)測得到下一步的動作指令,所述的動作指令包含夾爪動作和機器臂動作。

29、進一步地,步驟(6)具體包括:

30、(6-1)在實際的桌面場景下,給定文本指令,要求機器人將目標物體拿到指定目標區(qū)域;將機器人初始視角圖像和給定文本指令輸入預(yù)訓練多模態(tài)大模型,生成目標物體掩碼和目標區(qū)域掩碼;

31、(6-2)維護一個由n個歷史操作步數(shù)據(jù)構(gòu)成的輸入序列當歷史數(shù)據(jù)不足n操作步時,復制最新的歷史操作步作為補充;每一操作步對應(yīng)的輸入序列采用與訓練階段相同的方式得到,由訓練后的機器人操作策略網(wǎng)絡(luò)生成下一步的動作指令,重復該過程直至機器人完成給定文本指令的任務(wù)。

32、進一步地,所述的機器人操作策略網(wǎng)絡(luò)中的預(yù)訓練圖像編碼器采用vitmae圖像編碼器。

33、第二方面,本發(fā)明提出了一種基于分割掩碼表示的可泛化機器人操作系統(tǒng),用于實現(xiàn)上述的基于分割掩碼表示的可泛化機器人操作方法。

34、與現(xiàn)有技術(shù)相比,本發(fā)明具備的有益效果是:

35、本發(fā)明為一種基于分割掩碼表示的可泛化機器人操作方法和系統(tǒng),在實現(xiàn)時,本發(fā)明利用多模態(tài)大模型生成分割掩碼,并以此為中間表示,指導機器人操作策略的訓練與執(zhí)行。

36、(1)通過使用多模態(tài)大模型,本發(fā)明能夠從機器人視角圖像和文本指令中聯(lián)合提取語義信息和視覺特征,生成目標物體和放置區(qū)域的分割掩碼。多模態(tài)大模型作為預(yù)訓練的通用知識系統(tǒng),能夠有效適應(yīng)不同任務(wù)和場景,提供高精度的物體定位和區(qū)域標注,為后續(xù)操作策略提供可靠的輸入。

37、(2)通過使用分割掩碼表示,本發(fā)明將多模態(tài)大模型生成的目標物體和場景掩碼與機器人視角圖像和機器人狀態(tài)信息相結(jié)合,為操作策略提供精準的空間和語義指導。分割掩碼不僅明確目標物體的位置和形狀,還顯著增強了機器人在復雜任務(wù)中的操作精度和場景適應(yīng)性。

38、(3)本發(fā)明能夠自動生成包含多樣化物體、復雜場景和豐富任務(wù)指令的大規(guī)模訓練集,以提升模型的泛化能力。利用多模態(tài)大模型生成的分割掩碼與這些多樣化數(shù)據(jù)相結(jié)合,有效增強了操作策略對未知任務(wù)和場景的適應(yīng)能力。

39、綜上所述,本發(fā)明通過利用多模態(tài)大模型生成分割掩碼,并將其作為中間表示指導機器人操作策略的學習和執(zhí)行,顯著提升了機器人在多任務(wù)、多場景下的泛化能力。該方法在提高操作精度的同時,能夠適應(yīng)多樣化的任務(wù)指令和復雜場景,為實現(xiàn)高效且可泛化的機器人操作提供了全新的技術(shù)方案。

當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1