聊天機器人一直都是一個性感的話題,電影《Her》中那個風趣又善解人意的虛擬戀人,可謂是我們對于人工智能技術(shù)的美好遐想,但要達到那一步對于我們還是一場長途跋涉。
但這絲毫不影響當下聊天機器人的火熱,尤其是隨著近兩年智能音箱的爆發(fā)。在AI的舞臺上,微軟小冰是一個明星人物,憑借著鄰家女孩溫柔可人般的形象,以及良好的交互體驗,可謂風靡萬千少男少女。
自2014年誕生以來,在微軟(亞洲)互聯(lián)網(wǎng)工程院諸位技術(shù)大牛的辛勤培育下,目前已經(jīng)成長至第六代,從最初的閑聊走入更多應(yīng)用場景,從大家熟悉的主持節(jié)目、唱歌、講故事、寫詩,到新聞評論、金融、智能家居、手機助手等都有它的蹤影。
在近期舉辦的自然語言處理領(lǐng)域的世界頂級會議之一EMNLP(Empirical Methods in Natural Language Processing)上,作為6場Tutorial分享之一,微軟小冰團隊總結(jié)了他們在聊天機器人領(lǐng)域的探索。
▲微軟小冰首席科學家武威博士
近期,智東西來到微軟(亞洲)互聯(lián)網(wǎng)工程院,與微軟小冰首席科學家武威博士圍繞聊天機器人技術(shù)進行一場深入溝通。透過微軟小冰背后人機交互技術(shù)的演進,我們看到了小冰由最初單一模態(tài)的文字回復升級到如今可以用語音、文字、圖像等多模態(tài)的交互,其背后對話模型也由檢索模型升級到生成模型、共感模型,小冰由最初靜態(tài)、被動的聊天機器人變成了一個動態(tài)、交互性更強的虛擬助手。
一、從單一模態(tài)到多模態(tài)演進
四年前,剛誕生的微軟小冰只能在微信中被動的回復用戶的文字消息,而如今它已經(jīng)成長到第六代,逐漸具備了語音、視覺的能力;在交互能力上,也實現(xiàn)了從被動回復到主動交互的轉(zhuǎn)變;在與6.6億人類用戶的交談中,小冰的交互體驗越來越好。
武威就微軟小冰的技術(shù)迭代談道,最開始小冰是一個單一模態(tài)(文字)的聊天機器人,等到了第三代的時候,小冰有了視覺感官。當時用戶發(fā)送一張照片給小冰,小冰就可以看到這張照片,并基于這張照片跟用戶進行聊天。
而隨著小冰升級到第五代后,它有了實時視覺感官,此時小冰擁有了對視覺信息的動態(tài)感知能力。比如當你從小冰面前走過,向它揮手,它可以感知到這些動態(tài)的信息并作出回應(yīng)。
在第六代小冰中,微軟小冰團隊又將實時視覺感官、聽覺、全雙工語音以及對話引擎進一步融合,形成一個交互能力更強的更智能的物種。
而這背后正是多模態(tài)交互技術(shù),也是當下業(yè)界的一個研究熱點。武威表示,多模態(tài)一定是未來人工智能研究的一個方向。多模態(tài)跨過了自然語言,是一種更加貼近人的交互方式。因為人的交互本身,無論輸入還是輸出都是多模態(tài)的,而做人工智能,我們本身就希望能模擬人的行為。
武威認為,從自然語言的角度來講,多模態(tài)技術(shù)還處在行業(yè)的探索與發(fā)力期。目前大家都意識到了多模態(tài)的重要性,但是同時又缺乏相應(yīng)的數(shù)據(jù)進行研究。目前無論是學界還是業(yè)界也都在進行一些數(shù)據(jù)集的建設(shè)。
小冰在多模態(tài)上也發(fā)展的較為靠前,目前微軟小冰團隊已經(jīng)同構(gòu)多感官融合的架構(gòu)實現(xiàn)了一些多模態(tài)交互,比如你輸入一段文字/語音/圖片,小冰會根據(jù)它看到或聽到的進行回復,而回復的內(nèi)容可能是文字、語音或者一個表情等,武威認為這種交互已經(jīng)是一個近似多模態(tài)的場景。
像目前的智能音箱,主要以語音交互為主,未來人機交互又是否會以一種模態(tài)為主模態(tài)呢?武威認為,這一問題要結(jié)合具體的交互場景來判斷。但如果從人類交互的角度來講,可能某一時刻,某一種模態(tài)扮演更加重要的作用,但基本上人所有模態(tài)都的需要的,所有模態(tài)都影響人的感知。
二、從回復到交互三種模型的迭代
最初微軟小冰團隊的目標是,無論用戶給出怎樣的輸入,小冰都能夠給出一個不錯的回復,并且盡可能的將小冰與用戶之間的對話維持下去?;蛟S正是基于這樣的目標,小冰在模型上經(jīng)歷了從檢索模型到生成模型再到基于生成模型的共感模型,自身交互能力也經(jīng)歷了從被動回復到動態(tài)交互的演進。
在小冰誕生以前,搜索引擎的技術(shù)已經(jīng)相當成熟,微軟在做小冰時,將微軟在Bing搜索引擎中積累的技術(shù)能力應(yīng)用到聊天機器人中,就形成了檢索模型。
武威介紹道,得益于搜索引擎的發(fā)展,檢索技術(shù)更加成熟,隨著深度學習時代的到來,它們能夠更好的讓機器學習特征,并建立更好的排序模型。檢索模型的特點在于對數(shù)據(jù)庫信息的重用,只要數(shù)據(jù)庫中有對應(yīng)的信息,機器就可能給出一個很好的回復。
但檢索模型的局限在于,一方面如果索引中沒有相關(guān)的回復,那機器人就沒有辦法給出很好的回答;另一方面檢索模型是對相關(guān)信息的重復使用,這就導致回答相對單一,交互體驗受到局限。
正是檢索模型的局限性,學界與業(yè)界開始研究生成模型,就自然語言而言,目前生成模型也是一塊前沿的研究領(lǐng)域。武威稱,生成模型是未來對話研究的一個方向,未來還有非常大的發(fā)展空間。它是更接近人說話過程的一個模型,簡單來說就是對語言的合成。比如小冰可以根據(jù)你的說話內(nèi)容,合成出不同模態(tài)的回復,或者合成出不同性格的回復,這樣回復的內(nèi)容就會更加豐富,更加像人類的表達。
目前這兩種模型都應(yīng)用在微軟小冰中,并承擔不同的分工。武威介紹道這兩種模型各有特點,檢索技術(shù)非常成熟,直接使用已有的回復,并且符合語言的邏輯,相對來說效果會更好一些,在主流的聊天機器人產(chǎn)品上仍扮演著重要角色。
而生成模型是一個更自然的對人類交互進行建模的過程,但技術(shù)還不那么成熟,比如生成的回復,經(jīng)常會是一些萬能回復我知道了、我也是等,語言本身可能也相矛盾等,這些問題都是對話生成的一個研究重點,很多問題有待解決。
在兩個模型的配合上他認為,生成模型更適合從全局出發(fā),對人機交互對話的全流程進行把控,而檢索模型可以解決目前生成模型做的不太好的一些問題,針對交互細節(jié)進行優(yōu)化。比如在具體應(yīng)用中,如果小冰識別到了用戶的意圖,并且能夠在數(shù)據(jù)庫中找到一個非常合適的回復,就可以使用檢索模型進行回答;如果無法找到一個合適的回復,就可以依靠生成模型進行對話的生成。武威還補充道,在印度尼西亞、日本等地,微軟的聊天機器人都是基于生成模型進行回復的。
但是在武威看來,單純的生成模型在人機交互中仍然是一種被動回復,讓回復的結(jié)果更加人性化,但還算不上交互。而共感模型是基于生成模型,逐漸解決的就是小冰從回復到交互的問題。
武威說,共感模型的關(guān)鍵在于交互,它是主動與被動回復的結(jié)合,是一個帶有策略的動態(tài)的對話過程。比如在人與人的交互中,會有主動的一方與被動的一方,并且雙方的角色也可能會不斷轉(zhuǎn)換,這構(gòu)成了一個完整的交互過程。共感模型也是如此,它是一個動態(tài)的交流過程,小冰可以去察覺用戶的對話意愿,來判斷是該主動一點,還是多一點傾聽,通過主動與被動的對話策略來引導對話的延續(xù)。
從檢索模型到生成模型再到第六代微軟小冰中的共感模型,武威稱,這是一個由淺層、簡單層次的回復,上升到對話引導和管理的過程。
三、NLP技術(shù)的前沿探索
但目前聊天機器人仍屬于早期的探索階段,盡管微軟小冰已經(jīng)在行業(yè)中走到一個比較靠前的位置,但也仍存在許多問題有待解決。
武威從技術(shù)與場景兩個維度談道,從技術(shù)上來說,如今的聊天機器人在回復上仍有很多問題,比如不相關(guān)、缺乏內(nèi)容等;從場景來說,聊天機器人最終會走向什么樣的場景也有待探索。
針對與當下行業(yè)在人機交互技術(shù)上的難點,他說機器如何更好的理解用戶,怎么理解用戶的意圖,怎么能夠產(chǎn)生更加流暢、內(nèi)容豐富的回復,都是聊天機器人行業(yè)需要解決的問題,行業(yè)仍然在探索期。
盡管對話生成領(lǐng)域有大量工作致力于增強對話生成的多樣性,但武威指出這一領(lǐng)域仍有較大空間,多模態(tài)盡管是未來的一個研究方向,但是多模態(tài)進入人機交互后,會帶來怎么的新問題,目前行業(yè)都有待進一步探索。
而被譽為人工智能桂冠上的明珠的NLP(自然語言處理)技術(shù),武威稱,只能說我們有了大模型、大數(shù)據(jù),我們可以利用它們產(chǎn)生一個不錯的表示,但這個表示離理解有多遠,則很難講。
比如在機器閱讀理解中,如果我們稍微波動一下數(shù)據(jù),這對人來講可能沒有太大影響,但是機器就會產(chǎn)生較大的錯誤,這就說明機器在很多問題上理解的并不到位。此外端到端的生成模型就像一個黑盒子,我們很難解釋為什么會生成這樣的回復,這也導致我們很難進一步去解決其中的問題。
2018年伊始,阿里和微軟亞洲研究院相繼刷新了斯坦福大學發(fā)起的SQuAD(Stanford Question Answering Dataset)文本理解挑戰(zhàn)賽成績,一時間機器閱讀理解得分超過人類成為一個熱議的話題。
武威對機器閱讀理解的這一進展持肯定觀點,他稱正是得益于SQuAD之類數(shù)據(jù)集的出現(xiàn),我們在此基礎(chǔ)上不斷迭代算法模型,近幾年來整個機器閱讀理解取得了飛躍性的發(fā)展。
但是不能憑空說機器閱讀理解超過人類,應(yīng)該說在特定數(shù)據(jù)以及特定的評估準則下,機器可以跟人類水平持平,甚至在指標上超過人類。
盡管近兩年NLP開始在諸如智能硬件、車載以及垂直行業(yè)領(lǐng)域開始落地,并且取得一些不錯的效果,但武威認為NLP最終還是要回到通用上來。因為人理解世界是以一種通用的認知進行的,開放式對話才是人的一般狀態(tài)。
此外他還強調(diào)道,通用NLP是基礎(chǔ),細分領(lǐng)域的NLP只有扎根在這個基礎(chǔ)上,才能夠有更深的發(fā)展。
但在通用NLP上,盡管有谷歌的BERT模型在11項NLP任務(wù)中都取得不錯的效果,但數(shù)據(jù)背后模型究竟理解到了什么,都有待行業(yè)探索。
武威就自然語言談道,當下已有機構(gòu)將通用的開放式聊天對話和基于任務(wù)式的對話結(jié)合在一起去做相關(guān)的研究,并且微軟小冰也在做相關(guān)領(lǐng)域的探索。
結(jié)語:多模態(tài)、個性化交互成趨勢
通過與武威的溝通和微軟小冰在人機交互上的一些探索可以發(fā)現(xiàn),多模態(tài)交互、任務(wù)與非任務(wù)結(jié)合的對話方式等都可能是未來人機交互的一個研究趨勢。
此外,他認為個性化也是聊天機器人的一個方向,目前很多高校、機構(gòu)也都在朝著這一方向探索。微軟未來也會在小冰框架基礎(chǔ)上,生產(chǎn)各種各樣的具有不同個性的聊天機器人。
要想推動聊天機器人進一步發(fā)展,武威認為一方面數(shù)據(jù)非常重要,另一方面在模型的方法論上也有待突破。比如當下我們深度依賴深度學習這種基于序列到序列的建模,但下一個這種級別的模型是什么?能帶來本質(zhì)變化的模型是什么?有有待業(yè)界去研究。
如果說電影《Her》代表了我們對人工智能的一種探尋,那我們還需要多久才能達到那一狀態(tài)?武威謹慎地稱很難評估,因為有些東西一旦能夠評估,就說明你已經(jīng)知道答案了,而NLP之所以我們當下難以攻克,正是因為我們目前不知道未來的答案是什么。