本發(fā)明屬于智能任務(wù)型對話,具體涉及基于強化學習的任務(wù)型對話策略學習方法與系統(tǒng)。、隨著用戶期望目標的復(fù)雜性增加,傳統(tǒng)的單域?qū)υ捪到y(tǒng)不足以面對復(fù)雜的人類對話任務(wù)。同時,傳統(tǒng)的手工設(shè)計獎勵函數(shù)也不再足以滿足現(xiàn)實世界的復(fù)雜性,在單領(lǐng)域?qū)υ捪到y(tǒng)中手動設(shè)置的獎勵機制也不再適用于復(fù)雜的多領(lǐng)域?qū)υ?。、用?..