企業(yè)發(fā)布
首頁(yè) > 企業(yè)發(fā)布 > 詳細(xì)內(nèi)容
極客邦科技專訪騰訊小知陳松堅(jiān):知識(shí)表示是NLP乃至AI發(fā)展的瓶頸
2018/12/27 16:44:00 來(lái)源:中國(guó)企業(yè)新聞網(wǎng)
導(dǎo)言:極客邦科技主辦全球人工智能與機(jī)器學(xué)習(xí)技術(shù)大會(huì) -- AICon 2018,會(huì)上專訪了騰訊數(shù)據(jù)平臺(tái)部高級(jí)算法研究員陳松堅(jiān),與大眾分享 NLP 的發(fā)展瓶頸以及當(dāng)前技術(shù)研發(fā)趨勢(shì)。
極客邦科技主辦全球人工智能與機(jī)器學(xué)習(xí)技術(shù)大會(huì) -- AICon 2018,會(huì)上專訪了騰訊數(shù)據(jù)平臺(tái)部高級(jí)算法研究員陳松堅(jiān),與大眾分享 NLP 的發(fā)展瓶頸以及當(dāng)前技術(shù)研發(fā)趨勢(shì)。
人工智能領(lǐng)域有這樣一句名言:解決了 NLP 的難題,也就解決了 AI 領(lǐng)域80%的問(wèn)題。從對(duì)話機(jī)器人 Eliza 開始,人們就對(duì)“會(huì)說(shuō)話的機(jī)器”出奇的著迷,隨著人工智能技術(shù)的進(jìn)步,越來(lái)越多的人投身自然語(yǔ)言處理(NLP)的研究中,為了開發(fā)出智能、易用的對(duì)話機(jī)器人而不懈努力著。
幾個(gè)月前,AI 前線策劃了一篇文章,題為《都說(shuō)聊天機(jī)器人已死,為什么騰訊還要打造自己的智能客服?》,在這篇文章中,曾深入討論過(guò)智能客服/問(wèn)答產(chǎn)品和 NLP 技術(shù)的技術(shù)難點(diǎn)、解決思路、商業(yè)化落地的途徑和未來(lái)發(fā)展,在極客邦科技主辦的全球人工智能與機(jī)器學(xué)習(xí)技術(shù)大會(huì) -- AICon 2018上,極客邦科技有幸再次專訪到騰訊數(shù)據(jù)平臺(tái)部高級(jí)算法研究員陳松堅(jiān),除了對(duì)他本人的技術(shù)研發(fā)之路有了更深的了解,陳松堅(jiān)也分享了許多有關(guān) NLP 發(fā)展瓶頸以及技術(shù)趨勢(shì)的看法。
入坑 NLP,一不小心深耕十年
自然語(yǔ)言處理被稱為人工智能皇冠上的明珠,為了它,無(wú)數(shù)研究人員為之辛勤鉆研,陳松堅(jiān)就是這其中的一員。2009年,還是研究生的陳松堅(jiān)選擇了 NLP 作為自己的研究方向。為了這個(gè)選擇,他與自己作了一番斗爭(zhēng)。
從當(dāng)時(shí)比較現(xiàn)實(shí)的角度看,算法或許更好就業(yè),于是陳松堅(jiān)選擇了機(jī)器學(xué)習(xí)、NLP、計(jì)算機(jī)視覺、數(shù)據(jù)挖掘等幾個(gè)方向作為備選。至于為什么最終選擇 NLP,陳松堅(jiān)說(shuō),主要是因?yàn)榭紤]自己當(dāng)時(shí)對(duì)搜索引擎比較關(guān)注,尤其是智能搜索技術(shù);而從理想的角度想,他說(shuō)自己從小比較喜歡機(jī)器人,一直有個(gè)夢(mèng)想開始建造自己的機(jī)器人系統(tǒng),而 NLP 是其中的不可或缺的部分,于是也就自然地做出選擇了。
兜兜轉(zhuǎn)轉(zhuǎn)過(guò)了十年,陳松堅(jiān)也早已成長(zhǎng)為一名專業(yè)的研發(fā)人員,但是手里的工作還是轉(zhuǎn)回到了 NLP 相關(guān)的項(xiàng)目上來(lái) -- 即騰訊小知,他開玩笑的說(shuō):或許是內(nèi)心的召喚讓自己重回智能對(duì)話這個(gè)研究領(lǐng)域。
騰訊小知是如何煉成的?
對(duì)于大部分對(duì)話機(jī)器人的研究人員來(lái)說(shuō):人類如何產(chǎn)生認(rèn)知并且與外部進(jìn)行交互是一個(gè)永恒的課題,對(duì)于陳松堅(jiān)來(lái)說(shuō)自然是不例外,他認(rèn)為:深度學(xué)習(xí)的興起使得語(yǔ)音和圖像識(shí)別的錯(cuò)誤率大大降低,感知的問(wèn)題得到了很大程度的解決。但是認(rèn)知的問(wèn)題,目前可以說(shuō)還沒(méi)有本質(zhì)上的進(jìn)步,原因就是那個(gè)永恒的課題。
“語(yǔ)言是思維的外化,研究語(yǔ)言的理解和產(chǎn)生,就是想借此推動(dòng)認(rèn)知智能的發(fā)展!标愃蓤(jiān)補(bǔ)充道:“當(dāng)然這需要一個(gè)迭代的過(guò)程,也需要一個(gè)場(chǎng)景去實(shí)踐和落實(shí)這些想法,于是我們選擇了智能客服這個(gè)商業(yè)場(chǎng)景,去打造企業(yè)服務(wù)中的智能問(wèn)答服務(wù),輸出價(jià)值!
陳松堅(jiān)說(shuō),智能問(wèn)答中有很多方面都可以進(jìn)行深入研究。
比如,基礎(chǔ)層可以做深度語(yǔ)義匹配模型核心組件的進(jìn)一步優(yōu)化,還有開發(fā)問(wèn)答拒識(shí)模型,用于過(guò)濾當(dāng)前問(wèn)答庫(kù)無(wú)法回答的問(wèn)題;應(yīng)用層可以做強(qiáng)化學(xué)習(xí)在多輪任務(wù)機(jī)器人的應(yīng)用,主要用于進(jìn)行對(duì)話策略的在線學(xué)習(xí)。目前騰訊小知團(tuán)隊(duì)已經(jīng)成功開發(fā)了若干個(gè)特定任務(wù)的 demo,正在準(zhǔn)備正式部署到線上使用。
說(shuō)回陳松堅(jiān)深度參與的騰訊小知項(xiàng)目。
騰訊小知是從去年7月開始啟動(dòng)研發(fā)的智能客服系統(tǒng),經(jīng)歷1年多的核心功能打造,現(xiàn)已落地多個(gè)應(yīng)用,日均回答百萬(wàn)量級(jí)。在之前的采訪中,陳松堅(jiān)曾說(shuō):騰訊小知目前落地在政務(wù)、零售、服務(wù)等多個(gè)行業(yè),上線時(shí)間僅2個(gè)月,已落地了數(shù)套成熟行業(yè)解決方案,成長(zhǎng)勢(shì)頭很好。
雖然長(zhǎng)勢(shì)喜人,但說(shuō)起騰訊小知的成長(zhǎng)歷程,陳松堅(jiān)還是發(fā)出了一聲感嘆:萬(wàn)事起頭難。
他解釋道,在騰訊小知?jiǎng)偲鸩降臅r(shí)候,團(tuán)隊(duì)里對(duì)深度匹配模型的經(jīng)驗(yàn)較少,而又由于業(yè)務(wù)上線的進(jìn)度比較緊迫,因此選擇雙線作戰(zhàn),一邊開發(fā)基于傳統(tǒng)機(jī)器學(xué)習(xí)模型(xgboost)的線上系統(tǒng),另一邊進(jìn)行深度語(yǔ)義匹配模型的論文復(fù)現(xiàn)、調(diào)優(yōu)和工程實(shí)踐。
考慮到 SaaS 場(chǎng)景下用戶能夠提供的訓(xùn)練語(yǔ)料非常欠缺,陳松堅(jiān)和團(tuán)隊(duì)因此特地引入了遷移學(xué)習(xí)的策略來(lái)對(duì)應(yīng)解決語(yǔ)料不足的問(wèn)題。事實(shí)證明這些安排和策略都取得不錯(cuò)的效果。
能夠帶領(lǐng)騰訊小知的算法團(tuán)隊(duì),從零開始一步一步地建設(shè)這種面向行業(yè)的智能問(wèn)答解決方案,讓陳松堅(jiān)倍感欣慰,一方面需要快速響應(yīng)業(yè)務(wù)的需求,快速實(shí)現(xiàn)和上線新功能,切實(shí)解決客戶提出的問(wèn)題;另一方面又必須緊跟業(yè)界和學(xué)界最新的技術(shù),并積極尋求實(shí)施落地的路徑,陳松堅(jiān)說(shuō),從個(gè)人角度來(lái)說(shuō),這是最有成就感的事情。
從業(yè)近十年,陳松堅(jiān)也積累了大量的實(shí)踐經(jīng)驗(yàn),在采訪中他也毫不吝嗇地將這些經(jīng)驗(yàn)分享給了有同樣困擾的開發(fā)者:
他認(rèn)為對(duì)于開發(fā)者來(lái)說(shuō),首先,“要盡早搞清楚業(yè)務(wù)的需求”,不同行業(yè)的問(wèn)答解決方案很可能會(huì)涉及到不同的技術(shù)點(diǎn),而且不同的業(yè)務(wù)場(chǎng)景對(duì)準(zhǔn)確率指標(biāo)的要求也不一樣,這個(gè)也會(huì)影響算法落地的側(cè)重點(diǎn)。比如騰訊小知最早接入的公安行業(yè),知識(shí)庫(kù)就特別復(fù)雜,分支條件很多,因此需要大量使用知識(shí)圖譜來(lái)補(bǔ)全 FAQ 機(jī)器人的問(wèn)答死角。
第二,“要注意測(cè)評(píng)數(shù)據(jù)集的準(zhǔn)確構(gòu)建,尤其是線上環(huán)境的測(cè)試數(shù)據(jù)的收集”,需要保證線下實(shí)驗(yàn)?zāi)軐?duì)齊模型在線上環(huán)境的效果。另外就是跟業(yè)務(wù)關(guān)聯(lián)的評(píng)價(jià)體系的構(gòu)建,這樣才能朝著正確的方向,穩(wěn)定地迭代優(yōu)化。
NLP 如何突破瓶頸?
智能客服是非常綜合的 AI 系統(tǒng),幾乎涉及 NLP 領(lǐng)域所有技術(shù)點(diǎn),甚至還包括語(yǔ)音和圖像的處理。但人們對(duì)技術(shù)往往短期期望過(guò)高,而長(zhǎng)期期望過(guò)低。雖然近年來(lái) NLP 應(yīng)用,尤其是翻譯、寫作、對(duì)話機(jī)器人等,在模型增強(qiáng)和知識(shí)圖譜建設(shè)完善的過(guò)程中,在特定的場(chǎng)景下,滿足了大部分人的使用需求,但是,在陳松堅(jiān)看來(lái),NLP 仍有一些瓶頸問(wèn)題需要解決。
他說(shuō):“AI 領(lǐng)域目前解決的問(wèn)題,使用的都是模式識(shí)別的方法”。進(jìn)一步解釋的話,就是通過(guò)大量的訓(xùn)練數(shù)據(jù)去找到數(shù)據(jù)內(nèi)里的模式,然后再應(yīng)用到實(shí)際數(shù)據(jù)的識(shí)別上,比如說(shuō)語(yǔ)音的識(shí)別,圖像的識(shí)別等,對(duì)應(yīng)的是感知智能。
而 NLP 問(wèn)題往往需要更高級(jí)的方法,因?yàn)樵谡Z(yǔ)言理解中涉及到大量的上下文,而除了一般意義的語(yǔ)言上下文,更重要的是外部知識(shí)上下文。這對(duì)應(yīng)的就是認(rèn)知智能的范疇,即如何幫助機(jī)器人構(gòu)建概念世界,并作用到 NLP 的處理過(guò)程中。
陳松堅(jiān)比喻說(shuō):“我認(rèn)為,‘對(duì)知識(shí)表示的建模,是目前 NLP 乃至 AI 技術(shù)發(fā)展的瓶頸’,如果說(shuō) NLP 是皇冠上的明珠,那知識(shí)表示就是其中最大的一顆!
他解釋道,目前的知識(shí)都是基于符號(hào)表示的,比如知識(shí)圖譜是利用了圖節(jié)點(diǎn)來(lái)表示概念,關(guān)聯(lián)邊來(lái)表示概念之間的關(guān)系,但總的來(lái)說(shuō)還是一個(gè)符號(hào)系統(tǒng),所有的操作還是符號(hào)的檢索和匹配,而跟當(dāng)前的深度神經(jīng)網(wǎng)絡(luò)模型沒(méi)辦法有機(jī)結(jié)合。
所以,他本人與研發(fā)團(tuán)隊(duì)思考的方向也是諸如:是否可以將所有概念和關(guān)系都利用深度學(xué)習(xí)技術(shù)向量化,以及如何將規(guī)則也使用模型表示等問(wèn)題。
“強(qiáng)化學(xué)習(xí)在多輪對(duì)話中的應(yīng)用”也是陳松堅(jiān)重點(diǎn)關(guān)注的技術(shù)趨勢(shì),主要是在特定場(chǎng)景下進(jìn)行對(duì)話策略的學(xué)習(xí),例如訂票訂餐任務(wù)、商品推薦等。他認(rèn)為,目前主流的任務(wù)機(jī)器人都是基于槽位填充的方法,對(duì)話策略主要基于事先約定的規(guī)則,不夠靈活,而強(qiáng)化學(xué)習(xí)可以通過(guò)結(jié)合端到端模型來(lái)實(shí)現(xiàn)對(duì)話策略的靈活調(diào)整,并且能夠?qū)崿F(xiàn)在線學(xué)習(xí),使得多輪對(duì)話模型可以持續(xù)優(yōu)化。
免責(zé)聲明:
※ 以上所展示的信息來(lái)自媒體轉(zhuǎn)載或由企業(yè)自行提供,其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本網(wǎng)站證實(shí),對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本網(wǎng)站不作任何保證或承諾,請(qǐng)讀者僅作參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。如果以上內(nèi)容侵犯您的版權(quán)或者非授權(quán)發(fā)布和其它問(wèn)題需要同本網(wǎng)聯(lián)系的,請(qǐng)?jiān)?0日內(nèi)進(jìn)行。
※ 有關(guān)作品版權(quán)事宜請(qǐng)聯(lián)系中國(guó)企業(yè)新聞網(wǎng):020-34333079 郵箱:cenn_gd@126.com 我們將在24小時(shí)內(nèi)審核并處理。
標(biāo)簽 :
相關(guān)網(wǎng)文
24小時(shí)熱點(diǎn)圖片
一周新聞資訊點(diǎn)擊排行
關(guān)于我們 | CENN服務(wù) | 對(duì)外合作 | 刊登廣告 | 法律聲明 | 聯(lián)系我們 | 手機(jī)版
客戶服務(wù)熱線:020-34333079、34333137 傳真:020-34333002 舉報(bào)電話:020-34333002、13925138999(春雷) 舉報(bào)郵箱:cenn_gd@126.com
版權(quán)所有:中國(guó)企業(yè)新聞網(wǎng) 運(yùn)營(yíng)商:廣州至高點(diǎn)網(wǎng)絡(luò)技術(shù)有限公司 地址:廣州市海珠區(qū)江燕路353號(hào)保利紅棉48棟1004