Oriental COCOSDA2016于2016年10月26日-28日,在美麗的巴厘島如期召開(kāi)。O-COCOSDA是東方語(yǔ)音數(shù)據(jù)庫(kù)設(shè)計(jì)、構(gòu)建、評(píng)估、研究與應(yīng)用等領(lǐng)域最重要的會(huì)議之一。逾百名來(lái)自亞太地區(qū)各國(guó)的語(yǔ)言學(xué)專(zhuān)家、語(yǔ)音技術(shù)研究者和基礎(chǔ)語(yǔ)音數(shù)據(jù)資源供應(yīng)商出席了會(huì)議。
在當(dāng)今世界,英語(yǔ)無(wú)疑是一種最強(qiáng)勢(shì)的語(yǔ)言。由于歷史原因和不可逆轉(zhuǎn)的國(guó)際化趨勢(shì),英語(yǔ)對(duì)其他國(guó)家的語(yǔ)言帶來(lái)了巨大的影響,比如混合語(yǔ)言(Mixlingual)現(xiàn)象的產(chǎn)生。
在中國(guó)的大城市里,那些在海外受過(guò)高等教育、或在跨國(guó)公司工作的高級(jí)白領(lǐng)們,講中文的時(shí)候夾雜一些英語(yǔ)單詞,已經(jīng)是一種司空見(jiàn)慣的現(xiàn)象,比如“我非常努力,不想成為人生的loser(失敗者)”。在一些長(zhǎng)期受英國(guó)殖民統(tǒng)治的國(guó)家,如印度,本地語(yǔ)言和英語(yǔ)單詞混合,是當(dāng)?shù)厝巳粘=涣髦凶顬槠毡榈恼Z(yǔ)言現(xiàn)象。即便完全沒(méi)有讀過(guò)書(shū)的人,在交談中也會(huì)夾雜個(gè)把英語(yǔ)單詞。筆者曾在印度旅居多年,雖然不懂印地語(yǔ),但并不妨礙在一定程度上揣測(cè)本地人之間交流的大致內(nèi)容,因?yàn)樗麄冊(cè)诮徽勚惺褂么罅康挠⒄Z(yǔ)單詞。
這種語(yǔ)碼混合(Code-mixing)現(xiàn)象,不僅帶來(lái)了各國(guó)本土語(yǔ)言的微妙演化,也同時(shí)為語(yǔ)音識(shí)別技術(shù)帶來(lái)了巨大的挑戰(zhàn)。目前,各大語(yǔ)音識(shí)別引擎巨頭,在單一語(yǔ)言的識(shí)別率方面,往往能達(dá)到90%以上、甚至高達(dá)95%的識(shí)別準(zhǔn)確率。但遇到包含語(yǔ)碼混合現(xiàn)象的語(yǔ)音時(shí),其識(shí)別準(zhǔn)確率會(huì)大幅下降。其原因雖是多方面的,但其中一個(gè)最主要的原因是:大規(guī)模、高品質(zhì)的混合語(yǔ)言訓(xùn)練數(shù)據(jù)(比如中、英混讀語(yǔ)音訓(xùn)練數(shù)據(jù))目前還很少見(jiàn)。
在這次會(huì)議上,對(duì)于混合語(yǔ)言現(xiàn)象的研究是來(lái)自各國(guó)參會(huì)代表們普遍關(guān)注的重點(diǎn)之一,有若干篇會(huì)議論文談及混合語(yǔ)音數(shù)據(jù)庫(kù)和基于這些數(shù)據(jù)庫(kù)之上所做的混合語(yǔ)音識(shí)別研究成果。中國(guó)的語(yǔ)音技術(shù)研究水平,一直在亞洲、乃至全世界保持領(lǐng)先水平。在本次會(huì)議上,來(lái)自國(guó)內(nèi)的研究機(jī)構(gòu)和企業(yè),在來(lái)自亞洲其他國(guó)家同行們的面前,展現(xiàn)了中國(guó)在該領(lǐng)域的獨(dú)特風(fēng)采!
作為國(guó)內(nèi)領(lǐng)先的語(yǔ)音技術(shù)研究機(jī)構(gòu),清華大學(xué)語(yǔ)音語(yǔ)言技術(shù)中心(CSLT)聯(lián)合北京海天瑞聲科技有限公司(SpeechOcean),國(guó)內(nèi)唯一具有多達(dá)110種語(yǔ)言能力的數(shù)據(jù)資源與服務(wù)提供商,在此次會(huì)議上發(fā)起了“Special Session for Mixlingual Speech Processing”(混合語(yǔ)言語(yǔ)音處理特殊議題),其內(nèi)容包括(但不限于)混合語(yǔ)言的語(yǔ)音學(xué)分析、語(yǔ)音識(shí)別、語(yǔ)音合成、說(shuō)話(huà)人識(shí)別、語(yǔ)言理解等混合語(yǔ)言處理任務(wù)。
除此之外,清華大學(xué)和海天瑞聲還在會(huì)議上聯(lián)合發(fā)起了一個(gè)“中英文混合語(yǔ)音識(shí)別競(jìng)賽(OC16 MixASR-CHEN Challenge)”。
該混合語(yǔ)音特殊議題和語(yǔ)音識(shí)別競(jìng)賽,面向亞洲所有的大學(xué)、科研機(jī)構(gòu)以及企業(yè)的語(yǔ)音技術(shù)研發(fā)機(jī)構(gòu)發(fā)起召集。清華大學(xué)CSLT提供了實(shí)驗(yàn)Baseline,實(shí)驗(yàn)數(shù)據(jù)庫(kù)OC16-CE80則由北京海天瑞聲科技有限公司提供。
OC16-CE80是一個(gè)錄音總長(zhǎng)度為80個(gè)小時(shí)、包括1445名發(fā)音人的中英文混合語(yǔ)音數(shù)據(jù)庫(kù),也是國(guó)內(nèi)目前罕見(jiàn)的大規(guī)模中英文混合語(yǔ)音數(shù)據(jù)庫(kù)。該語(yǔ)音識(shí)別數(shù)據(jù)庫(kù)是在目前市場(chǎng)占有率最高的三種手機(jī)操作平臺(tái)上進(jìn)行錄音(其中Android系統(tǒng)占50%,iPhone占30%)??紤]到在大中城市里、受過(guò)良好教育的年輕一代更傾向于“中英文混合”式的語(yǔ)言風(fēng)格,在發(fā)音人的地域選擇、年齡分布、語(yǔ)料來(lái)源等方面,也做了精心的設(shè)計(jì)和安排。據(jù)海天瑞聲的陳清介紹,目前還有100多個(gè)小時(shí)的數(shù)據(jù)沒(méi)有公布,這些數(shù)據(jù)將在以后類(lèi)似的學(xué)術(shù)交流活動(dòng)中逐步公布出來(lái)。
該特殊議題收集到了若干篇論文,其中,由“清華大學(xué)”和“海天瑞聲”的合作論文《OC16-CE80:AChinese-English Mixlingual Data base and A Speech Recognition Baseline》獲得了Oriental COCOSDA2016最佳論文獎(jiǎng)。
(“清華大學(xué)”與“海天瑞聲”合作論文獲得最佳論文獎(jiǎng))
在若干提交競(jìng)賽結(jié)果的參賽隊(duì)伍中,三星中國(guó)研究院(Samsung RD Institute of China-Beijing)力拔頭籌,以中英文語(yǔ)音識(shí)別綜合WER達(dá)到14.75%的成績(jī),在競(jìng)賽中獲得了第一名,充分展示了中國(guó)語(yǔ)音技術(shù)研究者的實(shí)力!除此之外,三星中國(guó)研究院還獲得了會(huì)議頒發(fā)的“Best Performance Award(最佳表現(xiàn)獎(jiǎng))”
該競(jìng)賽的第二由上海師范大學(xué)獲得,中英文識(shí)別綜合WER達(dá)到16.11%;第三名是臺(tái)灣中央研究院與華碩Da Vinci Innovation Lab合作獲得,中英文識(shí)別綜合WER達(dá)到19.05%;
海天瑞聲的市場(chǎng)總監(jiān)陳清,在會(huì)議上介紹了該次競(jìng)賽所使用的數(shù)據(jù)庫(kù)“OC16-CE80”,及其他混合語(yǔ)言數(shù)據(jù)庫(kù),包括一個(gè)臺(tái)灣語(yǔ)+英語(yǔ)的混合語(yǔ)音庫(kù),四個(gè)在建的混合語(yǔ)音庫(kù)(印尼語(yǔ)+英語(yǔ)、印地語(yǔ)+英語(yǔ)、日語(yǔ)+英語(yǔ)、韓語(yǔ)+英語(yǔ))。海天瑞聲以其多達(dá)110種語(yǔ)言的數(shù)據(jù)服務(wù)能力、近10萬(wàn)小時(shí)的多種語(yǔ)音識(shí)別和語(yǔ)音合成數(shù)據(jù)庫(kù)資源,及多語(yǔ)種文本和發(fā)音詞典等,得到了與會(huì)代表們的普遍關(guān)注和垂詢(xún)。同時(shí),“海天瑞聲”也是目前國(guó)內(nèi)唯一有能力提供稀有語(yǔ)種數(shù)據(jù)服務(wù)的供應(yīng)商,包括北朝鮮語(yǔ)、希伯來(lái)語(yǔ)、加泰羅尼亞語(yǔ)、阿拉伯語(yǔ)、捷克語(yǔ)、波蘭語(yǔ)等,給聽(tīng)眾們留下了深刻的印象。
海天瑞聲表示未來(lái)將攜手各大國(guó)際科研機(jī)構(gòu)推出更多高質(zhì)量免費(fèi)的科研學(xué)術(shù)數(shù)據(jù)。并介紹了在即將舉辦的APSIPA16(2016年12月14日在韓國(guó)濟(jì)州島召開(kāi))上,與清華大學(xué)CSLT共同舉辦的Oriental Multiple Language Special SessionLanguage Recognition Challenge。這個(gè)活動(dòng)也是由海天瑞聲提供免費(fèi)實(shí)驗(yàn)數(shù)據(jù),并由清華大學(xué)提供實(shí)驗(yàn)Baseline。
(清華大學(xué)CSLT的王東老師,在會(huì)議上介紹實(shí)驗(yàn)baseline,并宣布競(jìng)賽結(jié)果)

(海天瑞聲的陳清在介紹試驗(yàn)數(shù)據(jù)庫(kù)詳情)

獲獎(jiǎng)人員與會(huì)議組織者合影

三星中國(guó)研究院的余驍捷在接受會(huì)議主席頒獎(jiǎng)