|
從整個智能家居語音系統(tǒng)來看,主要構成為語音采集模塊、語音前級處理模塊、語音訓練模塊、語音識別模塊、語音提示模塊和輸出控制模塊等。 語音采集模塊主要起到完成信號調理和信號采集的功能,通過將語音信號轉換為語音脈沖序列,模塊中主要包括聲音與電信號的轉換、信號調理和采樣等信號處理過程。 其中采樣位數與采樣率對音頻接口而言是最重要的兩個指標,也是選擇聲音模塊的重要標準。每增加一個采樣位數相當于力度范圍增加了6dB,采樣位數越多則捕捉到的信號越精準。 而采樣頻率是指計算機每秒鐘采集多少個聲音樣本,是描述聲音文件的音質、音調,衡量聲卡、聲音文件的質量標準。采樣率越高,計算機攝取的圖片越多,對于原始音頻的還原也越加精確。 語音前級處理模塊主要用于濾除干擾信號、提取語音特征矢量,并將提取的語音特征矢量量化為標準語音特征矢量。 而語音訓練模塊主要功能是將多次采集、提取到的語音特征標準矢量進行概率統(tǒng)計,避免語音受到人自身情緒、環(huán)境等因素引起的干擾。簡而言之,這一模塊是幫助進行語音校準,減少誤差。 語音識別模塊,顧名思義,主要通過將新采集到的語音特征矢量與語音模板庫中的語音模型進行比較,然后再判斷當前語音命令功能。而語音模板庫中,主要存儲訓練后的最佳標準語音特征矢量。 其他如語音提示模塊的主要功能為提示用戶進行相關操作的進度,以及前往完成的情況;而輸出控制模塊便是針對智能語音識別的結果來輸出相應的控制信號,比如開關、音量調節(jié)、溫度大小等。 通過這些模塊的加入,便能夠讓語音識別人機交互成為現實。并依照這個框架,語音識別技術已經開始有了長遠的發(fā)展。 到今年,語音識別技術已經發(fā)展了71年,從最初只能識別特定單詞,到慢慢實現理解人的語音、語義,并參與到智能家居等落地應用中來,為人們實現更好的生活體驗。相比智能視覺只是針對人臉這一個變量而言,智能語音技術需要解決的是更復雜的語義、繁雜的環(huán)境、精準關鍵詞的檢測等來提升輸入效率,而這些都需要時間來完成。 AMEYA360報道:一文看懂智能家居語音系統(tǒng) |