|
無論是會(huì)議、訪談錄音的整理,還是各種視頻的字幕制作與語音質(zhì)檢,快速解決各類場景下的音頻轉(zhuǎn)文字的需求,都離不開音頻文件轉(zhuǎn)寫服務(wù)。 音頻文件轉(zhuǎn)寫服務(wù),是自動(dòng)語音識(shí)別Automatic Speech Recognition(ASR)技術(shù)的一種應(yīng)用,將長段音頻文件(5小時(shí)以內(nèi)或文件大小在2G以下)轉(zhuǎn)換成文本數(shù)據(jù)。適用于會(huì)議轉(zhuǎn)寫、字幕生成、音頻內(nèi)容分析等場景。 近期,云知聲音頻文件轉(zhuǎn)寫發(fā)布最新版本。經(jīng)過不斷地努力與算法攻堅(jiān),云知聲團(tuán)隊(duì)在前端語音信號(hào)處理、聲學(xué)模型、解碼方式等各項(xiàng)技術(shù)實(shí)現(xiàn)全面升級(jí),尤其聲學(xué)模型方面,首次使用了基于注意力機(jī)制的端到端模型,在準(zhǔn)確率方面有了明顯提升;同時(shí),在快速糾錯(cuò)和熱詞識(shí)別等方面也進(jìn)行了功能優(yōu)化與實(shí)時(shí)更新,進(jìn)一步滿足了各使用場景用戶的需求,提升音頻文件轉(zhuǎn)寫使用體驗(yàn)。 01全新技術(shù)升級(jí) 準(zhǔn)確率提升超3% 最新的版本中,云知聲的音頻文件轉(zhuǎn)寫在語音識(shí)別技術(shù)上采用最先進(jìn)的AED 端到端系統(tǒng)(Attention-based Encoder Decoder),又創(chuàng)新性的提出了SMAD(Self-and-Mixed attention Decoder)技術(shù),即在解碼中,采用文本和聲學(xué)的混合注意力機(jī)制,從而得到識(shí)別的最優(yōu)結(jié)果。 無論是不同設(shè)備錄制、不同網(wǎng)絡(luò)傳輸、還是帶有一定噪聲和干擾的語音,都可以實(shí)現(xiàn)準(zhǔn)確轉(zhuǎn)寫。在通用場景測試中,云知聲準(zhǔn)確率絕對提升超3%。達(dá)到行業(yè)頂尖水平。這不僅能帶給終端用戶更好的體驗(yàn);對開發(fā)者來說,也是一次效率以及質(zhì)量的升級(jí),大大滿足開發(fā)者精0益求精的訴求。 02 更簡單易用 開發(fā)者0成本接入先進(jìn)語音識(shí)別技術(shù) 音頻文件轉(zhuǎn)寫通過 Web API 的方式給開發(fā)者提供通用 HTTP 接口,具備流式傳輸能力和輕量、跨平臺(tái)的特點(diǎn),方便開發(fā)者直接調(diào)用、快速集成。 云知聲作為國內(nèi)頭部的人工智能獨(dú)角獸企業(yè),以人工智能語音技術(shù)為核心,通過全棧式技術(shù)鏈條,為企業(yè)和用戶提供智能語音技術(shù)和綜合解決方案。 本次升級(jí)只是技術(shù)提升,并不改動(dòng)接口,所以原來對接過云知聲音頻文件轉(zhuǎn)寫服務(wù)的開發(fā)者沒有任何影響。 此外, 我們?yōu)樾陆尤氲拈_發(fā)者準(zhǔn)備了免費(fèi)體驗(yàn)包,注冊即可認(rèn)領(lǐng);實(shí)名認(rèn)證的個(gè)人開發(fā)者和企業(yè)開發(fā)者,還可以獲得一大份認(rèn)證禮包。 新手 3步 集成: 作為新一代智能語音識(shí)別引擎,云知聲音頻文件轉(zhuǎn)寫最新版本已經(jīng)在官網(wǎng)及AI開放平臺(tái)煥新上線,以優(yōu)質(zhì)的性能對外提供AI開放式服務(wù),賦能更多對音頻文件轉(zhuǎn)寫有需求的開發(fā)者與合作伙伴。 未來,團(tuán)隊(duì)會(huì)在繼續(xù)打磨技術(shù)的基礎(chǔ)上,賦能更多應(yīng)用場景,加速語音識(shí)別技術(shù)的快速落地! |