本發(fā)明涉及語音識別,尤其涉及一種用于上下文語音識別的熱詞排序與選擇方法。
背景技術:
1、隨著語音識別技術不斷發(fā)展,端到端自動語音識別(asr)系統(tǒng)取得顯著成果,主要包含連接主義時間分類(ctc)模型、基于注意力的編碼器-解碼器模型和基于變換器的模型這三類,在各類asr任務中廣泛應用。不過,標準asr系統(tǒng)在識別罕見詞、專有名詞等低頻詞匯時,存在較大困難,主要原因是訓練數據里低頻詞匯呈長尾分布,致使轉錄結果不準確。
2、為解決這些問題,上下文熱詞技術得以應用,像淺層融合與深度融合技術,通過把上下文信息融入asr過程,有效提高了asr性能。淺層融合在解碼時將預訓練語言模型(lm)和聲學模型結合,先由聲學模型生成候選轉錄,再由lm依據語言可能性對其重新評分;深度融合則是聯(lián)合訓練聲學模型和lm,在推理階段讓二者更深度交互,通過合并最終預測層前的中間表示,強化聲學和語言信息的融合,進而提升asr準確率。近年來,不少研究聚焦于將大規(guī)?;A模型與上下文asr技術融合,期望借助這些先進模型的能力,在上下文場景中更好地識別罕見詞、特定領域術語,更精準地處理各種語言細節(jié)。
3、雖然上下文自動語音識別(asr)系統(tǒng)有了很大進步,但在處理大量熱詞時仍面臨挑戰(zhàn)。當熱詞數量眾多(比如超過1000個),上下文asr模型常常難以應對,無法高效處理。尤其是基于大規(guī)?;A模型構建的模型,對熱詞數量非常敏感。這是由于上下文長度有限,限制了模型處理和整合大量熱詞的能力;同時,計算效率方面的限制,也使得模型難以處理因大量熱詞導致的指數級增長的復雜度,最終影響了上下文asr系統(tǒng)的整體性能。
4、因此,本領域的技術人員致力于開發(fā)一種用于上下文語音識別的熱詞排序與選擇方法。提出打分器網絡,綜合利用tts模型、音頻編碼器、交叉注意力機制和cnn(卷積神經網絡)等技術,精準篩選和排序熱詞,提升模型識別熱詞的能力。
技術實現思路
1、有鑒于現有技術的上述缺陷,本發(fā)明所要解決的技術問題是上下文asr模型處理大量熱詞時的性能瓶頸問題。
2、為實現上述目的,本發(fā)明提供了一種用于上下文語音識別的熱詞排序與選擇方法,包括打分器網絡,對熱詞進行篩選,在將熱詞融入asr系統(tǒng)前減少熱詞總數。
3、進一步地,借助tts模型把熱詞轉為熱詞音頻,與語音音頻融合;利用預訓練音頻編碼器分別從語音和熱詞音頻提取特征,通過交叉注意力機制捕捉跨模態(tài)關系;再用cnn提取局部特征,經全局池化層得到全局特征;最后由softmax層為熱詞打分,依據分數篩選熱詞。
4、進一步地,設置不同的熱詞排列方式,用打分器網絡生成熱詞分數,按不同順序輸入熱詞到模型,觀察模型性能變化,選擇最佳熱詞排序方式。
5、進一步地,所述熱詞排列方式包括隨機順序排列方式、升序排列方式、降序排列方式。
6、進一步地,所述升序排列方式,高概率熱詞放末尾。
7、進一步地,所述降序排列方式,高概率熱詞放開頭。
8、進一步地,使用命名實體識別模型生成貼近現實場景的專有名詞熱詞列表。
9、進一步地,所述命名實體識別模型對文本中的詞匯逐個篩選,識別出其中的專有名詞,構建全面的熱詞列表。
10、進一步地,所述專有名詞包括聯(lián)系人姓名、電話號碼、個人名字、位置名稱。
11、進一步地,包括以下步驟:
12、步驟1、數據準備;
13、步驟2、模型構建與訓練;
14、步驟3、熱詞排序與選擇;
15、步驟4、對比與分析。
16、現有上下文asr模型面對大量熱詞時,受限于上下文長度和計算效率,難以有效處理,導致整體性能下降。本發(fā)明設計新型打分器網絡,對熱詞進行篩選,在將熱詞融入asr系統(tǒng)前減少熱詞總數。本發(fā)明借助tts模型把熱詞轉為熱詞音頻,與語音音頻融合。利用預訓練音頻編碼器分別從語音和熱詞音頻提取特征,通過交叉注意力機制捕捉跨模態(tài)關系,讓模型更好關聯(lián)熱詞與語音內容。再用cnn提取局部特征,經全局池化層得到全局特征,最后由softmax層為熱詞打分,依據分數篩選熱詞。本發(fā)明在librispeech數據集結合is21熱詞列表測試,熱詞錯誤率(b-wer)相對降低超40%,提升了模型識別熱詞性能,增強了上下文asr模型處理大量熱詞的可擴展性和效率,在不同模型和熱詞列表中泛化性良好。
17、現有未探究熱詞在輸入模型時的順序對上下文asr性能的影響,缺乏優(yōu)化熱詞輸入順序的方法。本發(fā)明研究熱詞排序對模型性能的影響,對比不同排序方式下模型的表現。本發(fā)明針對is21熱詞列表,設置隨機順序、升序(高概率熱詞放末尾)、降序(高概率熱詞放開頭)三種排列方式,用提出的打分器網絡生成熱詞分數,按不同順序輸入熱詞到whisper模型,觀察模型性能變化。本發(fā)明發(fā)現將真實熱詞按升序輸入whisper模型時,模型性能最佳。為優(yōu)化熱詞輸入模型的順序提供了參考,有助于提升上下文asr系統(tǒng)性能。
18、現有熱詞列表構建方式不夠貼近實際應用場景,導致asr系統(tǒng)在處理真實場景中的熱詞時效果不佳。本發(fā)明使用命名實體識別(ner)模型生成更貼近現實場景的專有名詞熱詞列表。本發(fā)明利用ner模型對librispeech文本中的詞匯逐個篩選,識別出其中的專有名詞,如聯(lián)系人姓名、電話號碼、個人名字、位置名稱等,構建全面的熱詞列表。本發(fā)明實驗結果顯示,使用該熱詞列表結合提出的方法,在whisper-turbo模型中選擇得分最高的前50個熱詞,b-wer可顯著降低30%,更有效地提升了模型在實際場景下處理熱詞的能力。
19、本發(fā)明與現有技術相比較,具有如下顯而易見的實質性特點和顯著優(yōu)點:
20、1、技術優(yōu)勢:本發(fā)明通過創(chuàng)新的熱詞排序與選擇技術,有效解決了上下文asr模型處理大量熱詞時的性能瓶頸問題。所提出的打分器網絡,綜合利用tts模型、音頻編碼器、交叉注意力機制和cnn等技術,能夠精準篩選和排序熱詞,顯著提升模型識別熱詞的能力。相比傳統(tǒng)方法,在處理相同熱詞任務時,b-wer大幅降低,這意味著在實際應用中,語音識別的準確性得到極大提高,可有效減少因熱詞識別錯誤導致的信息誤差,為語音交互相關產業(yè)提供更可靠的技術支持。
21、2、指標方面:實驗結果有力證明了本發(fā)明技術方案的優(yōu)越性。在librispeech數據集上,無論是使用is21熱詞列表還是ner生成的熱詞列表,都能實現b-wer的顯著降低,最高相對減少超過40%。同時,在不同的上下文asr模型,如whisper和tcpgen-based?biasingwhisper中,本發(fā)明都能取得良好效果,提升模型性能。這表明本發(fā)明技術方案在不同數據集和模型上具有廣泛的適用性和穩(wěn)定性,為其產業(yè)化應用提供了堅實的性能保障。
22、3、實施角度:本發(fā)明所采用的技術組件,如tts模型(edge-tts)、asr模型(whisper-turbo)等均有成熟的開源實現,降低了技術實施的門檻和成本。在實驗中詳細給出的模型參數設置,如線性層投影維度、交叉注意力機制的頭數和dropout率、cnn各層的輸出通道數和內核大小等,為實際應用中的模型構建和優(yōu)化提供了明確的指導,便于企業(yè)和開發(fā)者快速將該技術集成到現有的語音識別系統(tǒng)中,加速產品的迭代升級,具有較高的可實施性。
23、4、本發(fā)明的技術方案具有顯著的技術優(yōu)勢、優(yōu)異的指標表現和良好的實施可行性,在語音識別相關產業(yè),如智能語音助手、語音轉寫、智能客服等領域具有廣闊的產業(yè)化應用前景,具備極高的轉化價值。
24、以下將結合附圖對本發(fā)明的構思、具體結構及產生的技術效果作進一步說明,以充分地了解本發(fā)明的目的、特征和效果。