使用語言模型的交互系統(tǒng)和應(yīng)用的部署的制作方法

文檔序號：42040241發(fā)布日期：2025-05-30 17:38閱讀：20來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

背景技術(shù)：

1、對話式人工智能(ai)允許計(jì)算機(jī)與用戶進(jìn)行自然語言對話，從而促進(jìn)類人的交互和理解。多模態(tài)對話式ai集成了多種通信模式(例如，文本、言語(speech)、手勢、情緒、視覺元素等)，從而允許用戶與ai系統(tǒng)之間進(jìn)行更全面、更自然的交互。多模態(tài)對話式ai正在集成到越來越多的應(yīng)用中，從簡單的聊天機(jī)器人到voicebot(語音機(jī)器人)，再到完全交互式化身(也稱為數(shù)字角色或數(shù)字化身(avatar))和機(jī)器人。然而，設(shè)計(jì)這些應(yīng)用以與用戶進(jìn)行靈活且魯棒的交互是一項(xiàng)艱巨的任務(wù)。

2、首先，設(shè)計(jì)引人注目的化身交互非常具有挑戰(zhàn)性。與化身的交互越來越多地被視為與另一個(gè)人的交互，但與其他人的交互是復(fù)雜、微妙、多模態(tài)和非連續(xù)的。由于我們?nèi)祟愐簧荚谂c其他人交流，因此我們通?？梢院芸煲庾R到對話中是否存在不和諧、不安或不協(xié)調(diào)的感覺，或者我們的對方何時(shí)以不尋常或不自然的方式做出反應(yīng)。這些類型的細(xì)微差別并不容易建模，而且對人類交互進(jìn)行建模的缺陷實(shí)際上在越接近對現(xiàn)實(shí)建模時(shí)就越明顯。類似的效果被稱為三維(3d)圖形的“恐怖谷”效應(yīng)，其中人類的3d模型非常接近逼真，但仍表現(xiàn)出與真實(shí)人類的細(xì)微瑕疵或差異，可能會顯得恐怖并引起不安或不適的感覺。

3、此外，為了說明許多這些設(shè)計(jì)挑戰(zhàn)中的復(fù)雜性，考慮將只能通過基于輪換的(turn-based)文本對話進(jìn)行交互的聊天機(jī)器人升級為您可以看到并與其交談的多模態(tài)交互式化身需要做些什么。從單一交互模態(tài)(例如，文本對話)改變?yōu)橹С侄鄠€(gè)用戶輸入交互模態(tài)(例如，文本、觸摸、言語、手勢、情緒等)和/或支持多個(gè)輸出交互模態(tài)來響應(yīng)用戶(例如，通過文本/語音(voice)、圖形用戶界面(gui)、動畫、音效、燈光等)增加了巨大的復(fù)雜性。此外，從基于輪換的交互系統(tǒng)改變?yōu)橹С址琼樞蚪换?例如，多個(gè)同時(shí)的、可能覆寫的輸入和/或輸出)的系統(tǒng)增加了更多的復(fù)雜性。在許多情況下，提供單一交互模態(tài)或使用基于輪換的交互的交互系統(tǒng)根本不適用于多模態(tài)和/或非順序交互系統(tǒng)。

4、對于某些交互系統(tǒng)(例如提供交互式化身的系統(tǒng))，可能希望支持言語輸入和輸出，并且還通過在屏幕上顯示動態(tài)信息并讓用戶與該信息交互來利用屏幕空間。因此，可能希望動態(tài)地使屏幕上的視覺呈現(xiàn)適應(yīng)對話的內(nèi)容，以提供有用的上下文信息(例如，通過顯示化身口頭向用戶提供的一些選項(xiàng)的視覺表示)。如今，對話式ai模型被定制為處理口頭輸入和輸出(例如，文本形式的言語)，但缺乏直接生成相應(yīng)視覺元素或圖形用戶界面的能力。這只是說明常規(guī)工具在支持多模態(tài)交互方面的能力有限的一個(gè)例子。

5、此外，提供多模態(tài)對話體驗(yàn)的ai系統(tǒng)具有多種不同的形式，并且不同的系統(tǒng)依賴于多種不同的技術(shù)。這意味著大多數(shù)交互系統(tǒng)使用針對每個(gè)特定交互系統(tǒng)定制的自定義應(yīng)用程序編程接口(api)和架構(gòu)以特定于應(yīng)用程序的方式連接其組成組件(例如，決策單元、ai模型(如深度神經(jīng)網(wǎng)絡(luò)(dnn)和機(jī)器學(xué)習(xí)模型)、相機(jī)、用戶接口等)。如今，有大量用于對對話交互進(jìn)行建模的工具包和框架，并且許多不同的應(yīng)用程序都建立在這些技術(shù)之上。因此，組件無法基于最新技術(shù)輕松交換或更新，這導(dǎo)致從研究到產(chǎn)品的時(shí)間增加。此外，以不同方式表示多模態(tài)交互的異構(gòu)系統(tǒng)使得在歷史多模態(tài)交互上訓(xùn)練ai模型變得更加困難，從而限制了它們隨著時(shí)間的推移改善用戶體驗(yàn)的能力。此外，在許多系統(tǒng)中，交互數(shù)據(jù)與交互系統(tǒng)的具體實(shí)現(xiàn)方式緊密相關(guān)。例如，任何給定的交互系統(tǒng)用于編碼或表示交互數(shù)據(jù)的特定格式(例如，人類如何與bot(機(jī)器人程序)交談)通常取決于特定的實(shí)現(xiàn)方式。這使得在不了解任何給定交互系統(tǒng)的技術(shù)復(fù)雜性的情況下很難推理多模態(tài)交互，從而限制了利用現(xiàn)有框架或擴(kuò)展現(xiàn)有技術(shù)的能力。

6、因此，需要改進(jìn)系統(tǒng)來提供和支持多模態(tài)交互系統(tǒng)的開發(fā)和/或部署。

技術(shù)實(shí)現(xiàn)思路

1、本公開的實(shí)施例涉及交互系統(tǒng)的開發(fā)和部署，例如實(shí)現(xiàn)交互式代理(interactiveagent)(例如，bot、化身、數(shù)字人或機(jī)器人(robot))的系統(tǒng)。例如，公開了實(shí)現(xiàn)或支持交互建模語言和/或交互建模應(yīng)用程序編程接口(api)的系統(tǒng)和方法，該交互建模語言和/或交互建模api使用標(biāo)準(zhǔn)化交互分類方案、多模態(tài)人機(jī)交互、反向通道機(jī)制(backchanneling)、事件驅(qū)動式(event-driven)架構(gòu)、交互流管理、使用一個(gè)或更多個(gè)大語言模型的部署、傳感(sensory)處理和動作執(zhí)行、交互式視覺內(nèi)容、交互式代理(例如，bot)動畫、預(yù)期(expectation)動作和信令和/或其他特征。

2、例如，托管交互式代理(例如，bot或機(jī)器人)的開發(fā)和/或部署的交互式代理平臺可以提供解釋器或編譯器，該解釋器或編譯器解釋或執(zhí)行以交互建模語言編寫的代碼，并且設(shè)計(jì)者可以提供以交互建模語言編寫的定制代碼供解釋器執(zhí)行。交互建模語言可用于定義交互流，該交互流指示解釋器(例如，事件驅(qū)動式狀態(tài)機(jī))響應(yīng)于檢測到的和/或執(zhí)行的人機(jī)交互序列生成哪些動作或事件。交互分類方案可以使用標(biāo)準(zhǔn)化動作關(guān)鍵字，由標(biāo)準(zhǔn)化交互模態(tài)(例如，botupperbodymotion)和/或相應(yīng)的標(biāo)準(zhǔn)化動作類別或類型(例如，botpose、botgesture)對交互進(jìn)行分類，并且交互建模語言可以使用關(guān)鍵字、命令和/或語法，這些關(guān)鍵字、命令和/或語法對由交互分類方案定義的標(biāo)準(zhǔn)化模態(tài)、動作類型和/或事件語法進(jìn)行合并或分類。因此，流可用于對bot意圖或推斷的用戶意圖進(jìn)行建模，設(shè)計(jì)者可以使用該bot意圖或推斷的用戶意圖與交互式代理構(gòu)建更復(fù)雜的交互模式。

3、在一些實(shí)施例中，一個(gè)或更多個(gè)流可以實(shí)現(xiàn)交互式代理的邏輯，并且可以指定(specify)多模態(tài)交互的序列。例如，交互式化身(例如，動畫數(shù)字角色)或其他bot可以支持任意數(shù)量的同時(shí)交互模態(tài)和相應(yīng)的交互通道以與用戶互動，例如用于角色或bot動作(例如，言語、手勢、姿勢、移動、聲音爆發(fā)等)、場景動作(例如，二維(2d)gui覆蓋(overlay)、3d場景交互、視覺效果、音樂等)和用戶動作(例如，言語、手勢、姿勢、移動等)的通道?；诓煌B(tài)的動作可以順序地或并行地發(fā)生(例如，揮手和打招呼)。因此，交互式代理可以使用任意數(shù)量的所支持的交互模態(tài)和相應(yīng)的交互通道執(zhí)行指定多模態(tài)動作序列(例如，不同類型的bot或用戶動作)的任意數(shù)量的流。

4、為了使與化身或其他交互式代理(agent)的對話感覺更自然，一些實(shí)施例采用反向通道機(jī)制來在用戶說話或做一些可檢測的事情時(shí)向用戶提供反饋。例如，可以通過觸發(fā)交互式代理姿勢(例如，基于用戶或化身說話，或基于化身等待用戶的響應(yīng))來實(shí)現(xiàn)反向通道機(jī)制，例如姿勢鏡像(例如，其中交互式化身基本鏡像用戶的姿勢)、用戶說話時(shí)短促的聲音爆發(fā)，如“是(yes)”、“啊哈(aha)”或“嗯(hmm)”(例如，向用戶發(fā)出交互式代理正在傾聽的信號)、手勢(例如，搖動交互式bot或機(jī)器人的頭部)和/或其他方式。因此，設(shè)計(jì)者可以指定各種反向通道機(jī)制技術(shù)，使與交互式代理的對話感覺更自然。

5、在一些實(shí)施例中，托管交互系統(tǒng)的開發(fā)和/或部署的平臺可以使用標(biāo)準(zhǔn)化交互建模api、插件和/或事件驅(qū)動式架構(gòu)來表示和/或傳達(dá)人機(jī)交互和相關(guān)事件。在示例實(shí)現(xiàn)方案中，標(biāo)準(zhǔn)化交互建模api用作通用協(xié)議，其中交互系統(tǒng)的組件使用標(biāo)準(zhǔn)化交互分類方案將bot和用戶的所有活動表示為標(biāo)準(zhǔn)化形式的動作，將bot和用戶的多模態(tài)動作的狀態(tài)表示為標(biāo)準(zhǔn)化形式的事件，實(shí)現(xiàn)定義如何解決標(biāo)準(zhǔn)化動作類別中的動作之間的沖突(例如，同時(shí)說兩件事是不可能的，而同時(shí)說某事和做手勢是可能的)的標(biāo)準(zhǔn)化互斥模態(tài)，和/或?yàn)槿我鈹?shù)量的標(biāo)準(zhǔn)化模態(tài)和動作實(shí)現(xiàn)標(biāo)準(zhǔn)化協(xié)議，而與實(shí)現(xiàn)方案無關(guān)。

6、在一些實(shí)施例中，可以對交互式代理的解釋器進(jìn)行編程以迭代一個(gè)或更多個(gè)流直至到達(dá)事件匹配器，頂層流可以指定激活包括任意數(shù)量的事件匹配器的任意數(shù)量的流的一個(gè)或更多個(gè)指令，解釋器可以使用任何合適的數(shù)據(jù)結(jié)構(gòu)來跟蹤活動流和相應(yīng)的事件匹配器(例如，使用樹或嵌套流關(guān)系的其他表示)，并且解釋器可以采用事件驅(qū)動式狀態(tài)機(jī)來監(jiān)聽各種事件并觸發(fā)匹配流(其具有與傳入的交互建模api事件匹配的事件匹配器)中指定的相應(yīng)動作。因此，解釋器可以執(zhí)行主處理循環(huán)，該主處理循環(huán)處理傳入的交互建模api事件并生成實(shí)現(xiàn)交互式代理的傳出的交互建模api事件。

7、在一些實(shí)施例中，交互建模語言和相應(yīng)的解釋器可以支持使用自然語言描述和一個(gè)或更多個(gè)語言模型(例如，大語言模型(llm)、視覺語言模型(vlm)、多模態(tài)語言模型等)以減輕程序員的認(rèn)知負(fù)擔(dān)并促進(jìn)更復(fù)雜和細(xì)微的人機(jī)交互的開發(fā)和部署。例如，解釋器可以解析定義交互式代理的邏輯的一個(gè)或更多個(gè)指定流(例如，在設(shè)計(jì)時(shí))，識別任何指定流是否缺少相應(yīng)的流描述，如果是，則提示語言模型基于流的名稱和/或指令生成一個(gè)流描述。附加地或替代地，解釋器可以識別任何指定流是否缺少指令序列，如果是，則提示語言模型生成指令序列。在一些實(shí)施例中，解釋器可以使用一個(gè)或更多個(gè)目標(biāo)事件參數(shù)和/或使用語言模型生成的一個(gè)或更多個(gè)參數(shù)值來確定事件是否與任何活動流的活動事件匹配器匹配，可以提示語言模型確定事件是否與流描述匹配，可以提示語言模型確定不匹配的事件是否與活動流的名稱和/或一個(gè)或更多個(gè)指令匹配，可以提示語言模型響應(yīng)于不匹配的事件來生成流，和/或其他方式。

8、通常，托管交互式代理(例如，聊天機(jī)器人、voicebot、數(shù)字助理、交互式化身、非玩家角色(npc)、數(shù)字人、機(jī)器人等)的開發(fā)和/或部署的交互式代理平臺可以支持任意數(shù)量的輸入和輸出交互通道。在將傳感處理、交互決策和動作執(zhí)行解耦的一些實(shí)施例中，交互式代理平臺可以支持每個(gè)輸入交互通道的傳感服務(wù)器和每個(gè)輸出交互通道的動作服務(wù)器。相應(yīng)的輸入交互通道的傳感服務(wù)器可以將輸入或非標(biāo)準(zhǔn)技術(shù)事件轉(zhuǎn)換為標(biāo)準(zhǔn)化格式并生成相應(yīng)的交互建模api事件，交互管理器可以處理這些傳入的交互建模api事件并生成表示采取某些動作的命令的傳出交互建模api事件，相應(yīng)的輸出交互通道的動作服務(wù)器可以解釋這些傳出的交互建模api事件并執(zhí)行相應(yīng)的命令?？梢允褂卯惒绞录h(huán)和進(jìn)程的組合來實(shí)現(xiàn)傳感服務(wù)器和/或動作服務(wù)器，以確?？梢圆⑿蟹?wù)多個(gè)用戶會話和系統(tǒng)管線。為了處置(handle)至少一種交互模態(tài)的所有支持動作，動作服務(wù)器可以配備有用于由交互建模語言支持的和/或由給定交互模態(tài)的交互分類方案定義的每個(gè)標(biāo)準(zhǔn)化動作類別或類型和/或動作事件的動作處理程序(handler)。每個(gè)動作服務(wù)器可以管理其權(quán)限范圍內(nèi)的所有動作的生命周期，并且可以將動作狀態(tài)變化與規(guī)定(designated)條件進(jìn)行同步(例如，等待同一模態(tài)的上一個(gè)動作完成才開始動作，將不同模態(tài)的兩個(gè)不同動作的完成對齊，將一個(gè)動作的開始與某個(gè)其他動作的結(jié)束對齊，等等)。

9、在一些實(shí)施例中，托管交互式代理的開發(fā)和/或部署的交互式代理平臺可以使用圖形用戶界面(gui)(或通常是ui)服務(wù)來執(zhí)行交互式視覺內(nèi)容動作并生成相應(yīng)的gui。例如，交互建模api可以使用標(biāo)準(zhǔn)化交互分類方案，該標(biāo)準(zhǔn)化交互分類方案定義了標(biāo)準(zhǔn)化格式(例如，標(biāo)準(zhǔn)化且語義上有意義的關(guān)鍵字)，其指定與交互式視覺內(nèi)容動作(例如，指示覆蓋或其他視覺內(nèi)容布置以補(bǔ)充與交互式代理的對話的動作)相關(guān)的事件，例如視覺信息場景(例如，在交互旁邊顯示非交互式內(nèi)容，例如圖像、文本和視頻)動作、視覺選擇(例如，以多個(gè)供選擇按鈕或選項(xiàng)列表的形式向用戶呈現(xiàn)視覺選擇)動作和/或視覺表單(visual?form)(例如，向用戶呈現(xiàn)視覺網(wǎng)絡(luò)表單以輸入用戶信息)動作。傳感(sensory)服務(wù)器可以將檢測到的與gui交互元素的交互轉(zhuǎn)化為標(biāo)準(zhǔn)化交互建模api事件，其以標(biāo)準(zhǔn)化格式表示與這些元素的可能交互。標(biāo)準(zhǔn)化交互建模api事件可以由實(shí)現(xiàn)交互式代理的邏輯的解釋器來處理，以生成指定命令以進(jìn)行響應(yīng)gui更新的傳出交互建模api事件。實(shí)現(xiàn)gui服務(wù)的動作服務(wù)器可將特定交互建模api事件指定的特定gui的標(biāo)準(zhǔn)化表示轉(zhuǎn)換為模塊化gui配置的(例如，javascript對象表示法(json))表示，該模塊化gui配置定義由交互建模api事件指定或以其他方式表示的視覺內(nèi)容塊，例如段落、圖像、按鈕、多項(xiàng)選擇字段和/或其他類型。因此，gui服務(wù)可使用這些塊以用由交互建模api事件指定的視覺內(nèi)容來填充gui覆蓋(例如，可在web瀏覽器中渲染的超文本標(biāo)記語言(html)頁面)的(例如，模板或外殼)視覺布局。因此，可生成表示由交互建模api事件指定的gui的視覺布局并將其呈現(xiàn)(例如，通過用戶界面服務(wù)器)給用戶。

10、在一些實(shí)施例中，可以生成指定命令以做出bot表情、姿態(tài)、手勢或其他交互或移動的交互建模api事件(例如，通過解釋器執(zhí)行以交互建模語言編寫的代碼)并將其轉(zhuǎn)換為相應(yīng)的bot動畫。更具體地說，實(shí)現(xiàn)交互式代理的邏輯的解釋器可以使用標(biāo)準(zhǔn)化交互分類方案來生成表示目標(biāo)bot表情、姿態(tài)、手勢或其他交互或移動的交互建模api事件，并且實(shí)現(xiàn)動畫服務(wù)的動作服務(wù)器可以使用目標(biāo)bot移動的標(biāo)準(zhǔn)化表示來識別相應(yīng)的所支持的動畫或在運(yùn)行中(on?the?fly)生成匹配的動畫。動畫服務(wù)可以為與特定交互模態(tài)或動作類別(例如，bot手勢)相關(guān)的所有事件實(shí)現(xiàn)動作狀態(tài)機(jī)和動作堆棧(stack)，與實(shí)現(xiàn)動畫狀態(tài)和動畫之間的轉(zhuǎn)變(transition)的狀態(tài)機(jī)的動畫圖連接，并指示動畫圖基于改變由交互建模api事件所表示的bot移動的狀態(tài)(例如，初始化、停止或恢復(fù))的命令來設(shè)置應(yīng)的狀態(tài)變量。

11、在一些實(shí)施例中，與交互式代理相關(guān)聯(lián)的解釋器可以生成交互建模api事件，該交互建模api事件傳達(dá)對某些事件將發(fā)生的預(yù)期，并且命令或以其他方式觸發(fā)相應(yīng)的準(zhǔn)備動作，例如在預(yù)料到用戶言語時(shí)調(diào)低揚(yáng)聲器音量，在預(yù)料到視覺事件時(shí)啟用計(jì)算機(jī)視覺和/或機(jī)器學(xué)習(xí)算法，和/或向用戶發(fā)出交互式代理正在等待輸入(例如，在規(guī)定的(designated)用戶交互模態(tài)上)的信號。交互建模api事件可包括一個(gè)或更多個(gè)字段，這些字段表示將使用標(biāo)準(zhǔn)化交互分類方案發(fā)生指定目標(biāo)事件的預(yù)期(expectation)，該標(biāo)準(zhǔn)化交互分類方案將預(yù)期標(biāo)識為所支持的動作類型(例如，expectationbotaction(預(yù)期bot動作)、expectationsignalingaction(預(yù)期信令動作))，并使用標(biāo)準(zhǔn)化(例如，自然語言、語義上有意義的)關(guān)鍵字和/或命令表示相應(yīng)的預(yù)期事件(例如，指示預(yù)期的狀態(tài)，諸如開始、停止和完成)、預(yù)期的(expected)目標(biāo)事件(例如，utteranceuseractionstarted(話語用戶動作開始))和/或預(yù)期的輸入交互模態(tài)(例如，userspeech(用戶言語))。

12、因此，本技術(shù)可用于開發(fā)和/或部署交互式bot或機(jī)器人(例如，聊天機(jī)器人、voicebot、數(shù)字助理、交互式化身、非玩家角色(npc)、數(shù)字人等)，其參與比現(xiàn)有技術(shù)更復(fù)雜、更細(xì)微、多模態(tài)、非順序和/或更逼真的對話式ai和/或其他類型的人機(jī)交互。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：C·E·舒勒,R·迪努,S·A·克林格爾,P·J·貝拉爾德
技術(shù)所有人：輝達(dá)公司
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

亚洲综合日韩精品欧美综合区,日韩国产在线一区,久久久精品一二三区,午夜精品久久久久久中宇69,国产做爰一区二区三区视频,aa天堂,三级在线视频

使用語言模型的交互系統(tǒng)和應(yīng)用的部署的制作方法