由機器之心主辦的全球機器智能峰會( GMIS 2017 )在北京正式啟幕。第四范式創(chuàng)始人、首席執(zhí)行官戴文淵, LSTM 之父 Jurgen
Schmidhuber
,前微軟人工智能首席科學(xué)家鄧力,今日頭條副總裁馬維英等人工智能領(lǐng)袖受邀出席了開幕當(dāng)天的主論壇、并頒發(fā)主題演講。作為人工智能工業(yè)應(yīng)用的代表,戴文淵在此次大會上針對人工智能如安在工業(yè)界應(yīng)用進行了關(guān)鍵性說明。
戴文淵認(rèn)為,盡管組織核心的競爭模式已經(jīng)從流量為王的互聯(lián)網(wǎng)模式升級到了生產(chǎn)、運營效率貢獻模式,輿論集體投奔人工智能,但人工智能目前尚未在工業(yè)界全面落地。這是因為企業(yè)構(gòu)建商用人工智能須五大核心要素,即Big
data(大數(shù)據(jù))、Response(持續(xù)的反饋)、 Algorithm (算法)、 Infrastructure (計算資源)和 Needs
(明確的需求),他將其概括為 “BRAIN” 。戴文淵建議企業(yè)采取 “ 專業(yè)化分工 + 專注核心環(huán)節(jié) ”
的方式,充分借力人工智能平臺,關(guān)注數(shù)據(jù)自己及業(yè)務(wù)需求,更加高效通過智能決策引擎讓數(shù)據(jù)發(fā)揮價值。
Big Data ——有意義的過程數(shù)據(jù)
大數(shù)據(jù)是人工智能存在的基石。多來源、多類型的大數(shù)據(jù)可以從差別角度進行迫近真實的描述,而利用算法可以挖掘數(shù)據(jù)之間的多層次關(guān)聯(lián)關(guān)系。針對數(shù)據(jù),戴文淵提出真正能夠產(chǎn)生人工智能的是過程數(shù)據(jù)(同“用戶行為數(shù)據(jù)”)。
戴文淵提到,過去的互聯(lián)網(wǎng)紅利期雖然行業(yè)中有海量數(shù)據(jù)涌入,但大量的數(shù)據(jù)沒有標(biāo)和明確的定義,數(shù)據(jù)清洗及標(biāo)簽化難度相當(dāng)高。他舉例到,“統(tǒng)計局公布的各地區(qū)
PM2.5 統(tǒng)計數(shù)據(jù)并不能讓我們產(chǎn)生預(yù)測 PM2.5 的能力,人工智能需要基于具體行為來掌握情況、學(xué)會技能。例如近期較受關(guān)注的智能投顧(
Robo-Advisor ),就是讓機器先學(xué)習(xí)投資經(jīng)理們是如何進行投顧的行為數(shù)據(jù),才能利用機器進行智能投顧?!?/p>
安身于行業(yè)應(yīng)用視角,戴文淵指出,根據(jù)當(dāng)下技術(shù)發(fā)展,一個優(yōu)秀的人工智能模型需要一千萬以上的數(shù)據(jù)樣本。因此,在數(shù)據(jù)方面,企業(yè)需加強對用戶每一個行為及其結(jié)果的記錄意識。以在線廣告為例,用戶的搜索行為、廣告內(nèi)容及用戶是否有點擊行為等,都需要加以記錄,最終形成滲透至每一個場景、每一臺設(shè)備和每一種辦事里的數(shù)據(jù)采集機制。
Response ——數(shù)字化的持續(xù)反饋
用戶行為數(shù)據(jù)是機器學(xué)習(xí)的基礎(chǔ),如果想讓機器學(xué)到最新的、即時的用戶行為,戴文淵認(rèn)為,能夠形成持續(xù)的反饋閉環(huán)的人工智能系統(tǒng)是機器智能提升的前提。機器需要通過正、負反饋來不停學(xué)習(xí)、不停進步。以
AlphaGo 為例, AlphaGo
的自我博弈就是不停收集落棋結(jié)果的反饋,然后不停地更新本身的策略,經(jīng)過無數(shù)次博弈與反饋,輸出一個最優(yōu)的行為策略。戴文淵體現(xiàn),當(dāng)下越來越多的新聞聚合平臺開始轉(zhuǎn)型為基于人工智能技術(shù)的個性化保舉平臺,這在過去數(shù)據(jù)不足的情況下是很難實現(xiàn)的,素質(zhì)上是因為當(dāng)前各新聞平臺都開始記錄并積累用戶日志,讓機器能夠不停地學(xué)習(xí)如點擊、閱讀時長、轉(zhuǎn)發(fā)、保藏、投訴等反饋數(shù)據(jù)。
此外,機器能夠容易理解的反饋數(shù)據(jù)需要符合被標(biāo)記標(biāo)簽的性質(zhì),F(xiàn)acebook上的“ like ”和“ dislike
”就是一種數(shù)字化的標(biāo)記反饋。對此,戴文淵建議企業(yè)應(yīng)該建立數(shù)字化、不間斷的反饋數(shù)據(jù)閉環(huán),將實時數(shù)據(jù)進行反饋,使模型具備自我進化能力。以第四范式“銀行交易實時反欺詐解決方案”為例,新的數(shù)據(jù)、新的欺詐場景實時反饋給系統(tǒng),與此同時,對數(shù)據(jù)進行“欺詐交易”或是“正常交易”的標(biāo)注,再用標(biāo)注過的數(shù)據(jù)繼續(xù)模型的訓(xùn)練,讓機器具備“火眼金睛”。
Algorithm ——高維度的算法能力
算法是人工智能決定效率提升的關(guān)鍵因素。戴文淵指出,人工智能技術(shù)的優(yōu)勢包羅超越人類想象的特征變量組合方式,能夠做到“千人千面”甚至“千人萬面”,大量無法統(tǒng)計的規(guī)則會被機器自主發(fā)現(xiàn)和抓取,從而充分挖掘“長尾用戶”的行為規(guī)律,提高機器學(xué)習(xí)模型預(yù)測的精準(zhǔn)度。這就需要超高維度的算法。
超高維度的算法,首先必要原始數(shù)據(jù)的絕對值很大,這對于大數(shù)據(jù)的分布式存儲、處理技術(shù)具有較高要求。其次,利用萬億級的海量特征進行機器學(xué)習(xí)特征處理、模型訓(xùn)練以及線上辦事,需要成千上萬個節(jié)點進行協(xié)同工作,這對算法及系統(tǒng)的要求是全方位的
—— 從異步分布式的計算模式,到高性能的網(wǎng)絡(luò),再到海量的內(nèi)存存儲等都有極高的要求。對此,戴文淵提到去年 7
月,第四范式發(fā)布了新一代機器學(xué)習(xí)模型—— DSN ( Deep Sparse Network ,同 “ 深度稀疏網(wǎng)絡(luò) ”
),該算法底層是上千億大小的寬度網(wǎng)絡(luò),其基本理念是隨著數(shù)據(jù)量增大,模型的維度會隨之升高大,從而保證“機器的智力”連結(jié)高水準(zhǔn)。
Infrastructure ——高性能的計算能力