剛剛結(jié)束的全國兩會,不僅是人大代表繁忙的時刻,更是讓廣大媒體記者忙碌了起來。歷時兩周的兩會,各大媒體記者需要整理上百個大大小小的會議、幾千名人大代表的各種會議精神和發(fā)言內(nèi)容,確保新聞的時效性。若是沒能速記到一字不差,便只得老老實實通宵整理會議錄音,費時費力。
為了方便更多媒體記者快速整理訪談、會議新聞稿件,捷通華聲在靈云語音云上線最新ASR引擎的基礎(chǔ)上,推出黨政會議專業(yè)領(lǐng)域語言模型,面對兩會發(fā)言、政府報告、黨團會議等相關(guān)錄音實現(xiàn)了超高的轉(zhuǎn)寫識別準確率,獲得媒體記者一致好評。
黨政專業(yè)領(lǐng)域模型優(yōu)化 成就超高識別準確率
“我的天!這語音云也忒牛了!本打算熬夜整理兩會錄音的,沒想到等了幾分鐘,錄音內(nèi)容就變成了文字,太省事了!”一位剛剛結(jié)束兩會工作的記者用了靈云樂識轉(zhuǎn)寫錄音后驚嘆道,“而且這準確率太高了,黨政相關(guān)的專業(yè)詞匯幾乎全轉(zhuǎn)寫對了!”
兩會政府報告轉(zhuǎn)寫結(jié)果,準確率近99%
近期,有不少記者使用了靈云語音云轉(zhuǎn)寫了兩會相關(guān)內(nèi)容的錄音后,紛紛表示識別準確率大幅提高,像“第十三個五年規(guī)劃綱要草案”、“全面建成小康社會”、“戶籍人口城鎮(zhèn)化率”等等黨政領(lǐng)域的專業(yè)詞匯都轉(zhuǎn)寫的十分準確。
如何造就變態(tài)準的識別率?
本次識別準確率提升明顯的良好體驗,得益于捷通華聲針對語音云靈云樂說的語音識別技術(shù),在核心ASR引擎的升級和語言模型的定制領(lǐng)域訓練優(yōu)化。
語音識別系統(tǒng)結(jié)構(gòu)框圖
從語音識別原理來講,影響語音識別準確率很重要的因素在于語音識別系統(tǒng)的模型,一般包括聲學模型、語言模型兩部分,捷通華聲通過領(lǐng)先的人工智能技術(shù),在兩方面針對黨政會議的錄音均進行了針對性的優(yōu)化。
聲學模型是從語音信號中抽取的特征到音節(jié)概率的計算。作為語音識別系統(tǒng)的重要組成部分,它占據(jù)著語音識別大部分的計算開銷,決定著語音識別系統(tǒng)的性能。捷通華聲通過將最新推出的全新一代靈云語音識別引擎,對建模單元粗粒度、模型訓練方法、解碼幀率進行創(chuàng)新優(yōu)化,有效提升了語音識別引擎的執(zhí)行效率、魯棒性,增強了口音、語速適配能力,大幅提升了聲學模型的效果,識別率得以實現(xiàn)跨越式提升。
語言模型是音節(jié)到字概率的計算。捷通華聲近期通過對語言模型進行定制場景訓練優(yōu)化,推出了專門針對黨政會議的語言模型,該模型將大量關(guān)于黨政會議、報告的語音及文本語料放入其中進行了訓練優(yōu)化,面對涉及黨政相關(guān)的領(lǐng)域詞匯,實現(xiàn)了更好的匹配度,從而面對專業(yè)領(lǐng)域的錄音,有了更好的識別效果。
除了黨政會議領(lǐng)域,靈云語音云還擁有新聞媒體、會議辦公、情感寫作、IT科技、影視娛樂、醫(yī)療保險、法律法院務(wù)等多種領(lǐng)域的語言模型以供用戶選擇,滿足不同領(lǐng)域的音頻轉(zhuǎn)寫,幫助各行各業(yè)的用戶實現(xiàn)高效記錄和信息輸入。
在線轉(zhuǎn)寫編輯 邊聽邊改更高效
語音轉(zhuǎn)寫為文字后,為更好地提高文字整理效率,語音云還擁有在線分音頻節(jié)點編輯功能,用戶可以點擊任意需編輯的文字,系統(tǒng)會定位到該處文字的音頻節(jié)點,然后邊聽該段音頻邊即時修改文字,哪里文字轉(zhuǎn)寫不準,可以隨時點擊定位到相應(yīng)錄音上進行修改。
通常一段一小時的采訪錄音需要花三四個小時才能整理完,而有了這個強大功能,通過邊聽邊校對,一小時的錄音聽完也就整理完了。并且,完全避免了整理錄音時聽著錄音手動按下暫停,在word上敲打文字后再回來點擊繼續(xù)播放的復雜操作。
語音云直達鏈接
用戶可直接輸入網(wǎng)址:speech.aicloud.com即可進入語音云網(wǎng)站,另外也可以登錄靈云平臺(www.aicloud.com)點擊語音云服務(wù)按鈕進入。