|
作者:M. Malcangi*, M. D’aria*, R. Sannino***, L. Spelgatti*** * 意大利米蘭大學計算機學系 ** 意大利米蘭比可卡大學 *** 意法半導體(意大利Agrate)公司 摘要:在過去10年里,以人類語言和音頻信號為媒介的人機交互應用在日常生活的作用越來越重要。設備本身必須充分利用不同的功能,才能取得最佳的性能,例如,音頻定位、自動語音識別、自動說話人識別等。本文著重探討取得這些結果所需的算法和完整的嵌入式方案即MEMS麥克風陣列所需的硬件架構。 關鍵詞:音頻定位,語音識別,說話人識別,MEMS麥克風 1. 前言 自動語音識別、語音模式識別和說話人識別及確認等應用對噪聲十分敏感,信源定位識別是音頻和語音信號捕捉處理應用的一個關鍵的預處理功能。特別是基于微機電系統(MEMS) [1][2]的麥克風陣列出現后,麥克風陣列音頻定位方案引起科研企業和開發人員的廣泛關注。 目前業界正在使用MEMS麥克風陣列子系統開發嵌入式音頻定位、自動語音識別和自動說話人識別解決方案,聲音識別定位是我們識別確認他人身份的基本功能,當我們聽到有人講話時,會將頭轉向說話人,查看說話人。 音源定位是自動語音識別和自動說話人識別系統的一個重要環節,對于提高語音識別系統的性能至關重要。麥克風陣列可捕捉從不同方向傳來的聲音,通過算法運算使麥克風指向某一個特定方向,放大從該方向捕捉到的音頻信號,同時衰減從其它方向捕捉的音頻信號,整個動作就像一個智能麥克風。 下載全文:
利用MEMS麥克風陣列定位并識別音頻或語音信源.pdf
(560.68 KB)
|