現(xiàn)在位置:主頁(yè) > 科技 > Facebook完全開源Horizon AI:強(qiáng)化學(xué)習(xí)平臺(tái)是未來(lái)趨勢(shì)

Facebook完全開源Horizon AI:強(qiáng)化學(xué)習(xí)平臺(tái)是未來(lái)趨勢(shì)

作者:編輯 ? 時(shí)間:2018-12-08 ? 瀏覽:人次

Facebook完全開源Horizon AI:強(qiáng)化學(xué)習(xí)平臺(tái)是未來(lái)趨勢(shì)

Horizon AI成首個(gè)用于生產(chǎn)的開源RL平臺(tái)

Horizon AI是一個(gè)端到端的強(qiáng)化學(xué)習(xí)(reinforcement learning,即RL)平臺(tái),目的是訓(xùn)練計(jì)算機(jī)系統(tǒng)分析數(shù)據(jù),并利用反饋將決策過(guò)程的回報(bào)最大化,以持續(xù)優(yōu)化Facebook旗下各類產(chǎn)品和服務(wù)的使用體驗(yàn)。

在近期的一份聲明中,F(xiàn)acebook如此介紹Horizon AI:

“我們開發(fā)這個(gè)平臺(tái),是為了彌合強(qiáng)化學(xué)習(xí)在學(xué)術(shù)研究方面日益增長(zhǎng)的影響力與實(shí)際應(yīng)用狹窄范圍之間的差距。過(guò)去一年,我們?cè)贔acebook上部署了Horizon AI,提高了該平臺(tái)把 RL 基于決策的方法運(yùn)用到大規(guī)模應(yīng)用程序的能力。”

當(dāng)其他人致力于研究RL應(yīng)用程序時(shí),Horizon AI是第一個(gè)用于生產(chǎn)的開源RL平臺(tái)。

Facebook完全開源Horizon AI:強(qiáng)化學(xué)習(xí)平臺(tái)是未來(lái)趨勢(shì)

Horizon AI 助力更多領(lǐng)域應(yīng)用RL

谷歌的研究科學(xué)家凱文?墨菲(Kevin Murphy)在1998年撰寫了一篇文章,舉了一個(gè)例子來(lái)解釋強(qiáng)化學(xué)習(xí):“在訓(xùn)練狗時(shí)可以玩一個(gè)小把戲:不要告訴它應(yīng)該做什么,但如果它做了正確或錯(cuò)誤的事情,你可以獎(jiǎng)勵(lì)或懲罰它,它必須自己找出得到獎(jiǎng)勵(lì)或遭受懲罰的原因。我們可以用類似的方法來(lái)訓(xùn)練AI完成許多任務(wù)?!?/p>

強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)( machine learning,即ML)的一個(gè)分支。機(jī)器學(xué)習(xí)系統(tǒng)通常會(huì)生成預(yù)測(cè),隨后需要工程師將這些預(yù)測(cè)轉(zhuǎn)換為策略(即行動(dòng)策略)。強(qiáng)化學(xué)習(xí)系統(tǒng)則更進(jìn)一步,它創(chuàng)建的系統(tǒng)能夠做出決策、采取行動(dòng),然后根據(jù)反饋進(jìn)行調(diào)整。例如,RL 系統(tǒng)可以根據(jù)其他 ML 系統(tǒng)的估計(jì)和視頻緩沖區(qū)的狀態(tài),直接為特定播放中的視頻選擇高比特率或低比特率。

雖然 RL 的策略優(yōu)化能力在研究中顯示出了良好的效果,但人工智能社區(qū)很難使用這些模型處理生產(chǎn)環(huán)境中有很大差別的實(shí)際需求。借助 Horizon AI,研究者可以將兩種完全不同類型的應(yīng)用連接起來(lái):復(fù)雜但終究有限的研究用模擬器環(huán)境;基于 ML 的策略優(yōu)化系統(tǒng),依賴于存在固有噪聲的、稀疏的、任意分布的數(shù)據(jù)。

Facebook完全開源Horizon AI:強(qiáng)化學(xué)習(xí)平臺(tái)是未來(lái)趨勢(shì)

就像深度學(xué)習(xí)徹底改變了神經(jīng)網(wǎng)絡(luò)的應(yīng)用,Horizon AI這樣的項(xiàng)目有可能將定義科學(xué)家和工程師未來(lái)如何將 RL 應(yīng)用到生產(chǎn)環(huán)境中,怎樣使用策略優(yōu)化來(lái)產(chǎn)生影響。Horizon AI 考慮了特定生產(chǎn)環(huán)境的問(wèn)題,包括特征規(guī)范化、分布式訓(xùn)練、大規(guī)模部署和服務(wù)、具有數(shù)千種不同特征類型和分布的數(shù)據(jù)集,以及高維離散的連續(xù)動(dòng)作空間。

盡管行業(yè)內(nèi)也存在其他強(qiáng)化學(xué)習(xí)平臺(tái),但Horizon AI是獨(dú)一無(wú)二的,因?yàn)樗脑O(shè)計(jì)意圖是輸出產(chǎn)品和結(jié)果,而非用于測(cè)試和實(shí)驗(yàn)。

在Facebook平臺(tái)上,它基于用戶數(shù)據(jù)為推送通知系統(tǒng)提供決策,頁(yè)面管理員據(jù)此向用戶發(fā)送他們感興趣的信息更新,并提高網(wǎng)站關(guān)鍵功能(如在線視頻)的質(zhì)量。

Facebook工程師、Horizon AI項(xiàng)目負(fù)責(zé)人杰森?高奇(JasonGauci)表示:“我認(rèn)為強(qiáng)化學(xué)習(xí)將是整個(gè)行業(yè)的未來(lái)趨勢(shì),會(huì)在機(jī)器學(xué)習(xí)方面得到廣泛采用。所以我們將Horizon AI開源,為全世界的愛好者提供一個(gè)出色的強(qiáng)化學(xué)習(xí)應(yīng)用平臺(tái)。任何有基本經(jīng)驗(yàn)的人都可以生成一個(gè)數(shù)據(jù)集,訓(xùn)練一個(gè)模型,看看它是如何工作的。我們希望讓更多人對(duì)這個(gè)領(lǐng)域感到興奮?!?/p>

轉(zhuǎn)載請(qǐng)保留原文鏈接:http://www.eatcooks.com/a/keji/2018/1208/21507.html上一篇:上一篇:英特爾和中國(guó)移動(dòng)達(dá)成戰(zhàn)略合作,還和華為完成5G新測(cè)試
下一篇:下一篇:沒有了