我們擅長(zhǎng)商業(yè)策略與用戶體驗(yàn)的完美結(jié)合。
歡迎瀏覽我們的案例。
現(xiàn)在提到 AI 的時(shí)候,大家已經(jīng)很少聯(lián)想到電影《終結(jié)者》中的天網(wǎng)那樣有自己獨(dú)特思維邏輯以至于得出了反人類結(jié)論的「超人類智能」了。這當(dāng)然是件好事,說(shuō)明我們都知道了現(xiàn)階段的 AI 并不具有那樣的邏輯思維能力,沿著現(xiàn)有方向繼續(xù)發(fā)展下去也不會(huì)有;也說(shuō)明我們已經(jīng)了解了身邊就有形形色色的運(yùn)用機(jī)器學(xué)習(xí)解決具體問(wèn)題的技術(shù)成果。
但我們同時(shí)也面對(duì)著一個(gè)新問(wèn)題,就是隨著人類用模型做出越來(lái)越多的決策,模型所看重的因素真的和設(shè)計(jì)它的人類所希望的一樣嗎?又或者,模型完全捕捉了設(shè)計(jì)者提供的數(shù)據(jù)中的模式,但數(shù)據(jù)本身卻含有設(shè)計(jì)者沒有意識(shí)到的偏見。這時(shí)候我們又要怎么辦?
DeepMind 安全團(tuán)隊(duì)的這篇文章就對(duì)相關(guān)問(wèn)題做出了一些討論、提出了一些見解。它概述了 DeepMind 近期一篇論文《Scalable agent alignment via reward modeling: a research direction》中提出的研究方向;這篇論文試圖為「智能體對(duì)齊」問(wèn)題提供一個(gè)研究方向。由此他們提出了一個(gè)基于獎(jiǎng)勵(lì)建模的遞歸式應(yīng)用的方法,讓機(jī)器在充分理解用戶意圖的前提下,再去解決真實(shí)世界中的復(fù)雜問(wèn)題。雷鋒網(wǎng) AI 科技評(píng)論編譯如下。
近些年,強(qiáng)化學(xué)習(xí)在許多復(fù)雜的游戲環(huán)境中展現(xiàn)出令人驚嘆的實(shí)力,從 Atari 游戲、圍棋、象棋到 Dota 2 和星際爭(zhēng)霸 II,AI 智能體在許多復(fù)雜領(lǐng)域的表現(xiàn)正在迅速超越人類。對(duì)研究人員來(lái)說(shuō),游戲是嘗試與檢驗(yàn)機(jī)器學(xué)習(xí)算法的理想平臺(tái),在游戲中,必須動(dòng)用綜合認(rèn)知能力才能完成任務(wù),跟解決現(xiàn)實(shí)世界問(wèn)題所需的能力并無(wú)兩樣。此外,機(jī)器學(xué)習(xí)研究人員還可以在云上并行運(yùn)行上千個(gè)模擬實(shí)驗(yàn),為學(xué)習(xí)系統(tǒng)提供源源不斷的訓(xùn)練數(shù)據(jù)。
最關(guān)鍵的一點(diǎn)是,游戲往往都有明確的目標(biāo)任務(wù),以及反映目標(biāo)完成進(jìn)度的打分系統(tǒng)。這個(gè)打分系統(tǒng)不但能夠?yàn)閺?qiáng)化學(xué)習(xí)智能體提供有效的獎(jiǎng)勵(lì)信號(hào),還能使我們迅速獲得反饋,從而判斷哪個(gè)算法和框架的表現(xiàn)最好。
讓智能體與人類一致
不過(guò),AI 的終極目標(biāo)是幫助人類應(yīng)對(duì)現(xiàn)實(shí)生活中日益復(fù)雜的挑戰(zhàn),然而現(xiàn)實(shí)生活中沒有設(shè)置好的獎(jiǎng)勵(lì)機(jī)制,這對(duì)于人類評(píng)價(jià) AI 的工作表現(xiàn)來(lái)說(shuō)形成了挑戰(zhàn)。因此,需要盡快找到一個(gè)理想的反饋機(jī)制,讓 AI 能夠充分理解人類的意圖并幫助人類達(dá)成目標(biāo)。換句話說(shuō),我們希望用人類的反饋對(duì) AI 系統(tǒng)進(jìn)行訓(xùn)練,使其行為能夠與我們的意圖保持一致。為了達(dá)到這個(gè)目的,DeepMind 的研究人員們定義了一個(gè)「智能體對(duì)齊」問(wèn)題如下:
如何創(chuàng)建行為與用戶意圖保持一致的智能體?
這個(gè)對(duì)齊問(wèn)題可以歸納在強(qiáng)化學(xué)習(xí)的框架中,差異在于智能體是通過(guò)交互協(xié)議與用戶進(jìn)行交流、了解他們的意圖,而非使用傳統(tǒng)的數(shù)值化的獎(jiǎng)勵(lì)信號(hào)。至于交互協(xié)議的形式可以有很多種,當(dāng)中包括演示(模仿學(xué)習(xí),如谷歌的模仿學(xué)習(xí)機(jī)器人)、偏好傾向(人類直接評(píng)價(jià)結(jié)果,如 OpenAI 和 DeepMind 的你做我評(píng) )、最優(yōu)動(dòng)作、傳達(dá)獎(jiǎng)勵(lì)函數(shù)等??偟膩?lái)說(shuō),智能體對(duì)齊問(wèn)題的解決方案之一,就是創(chuàng)建一個(gè)能讓機(jī)器根據(jù)用戶意圖運(yùn)作的策略。
DeepMind 的論文《Scalable agent alignment via reward modeling: a research direction》中概述了一個(gè)正面解決「智能體對(duì)齊」問(wèn)題的研究方向?;谶^(guò)去在 AI 安全問(wèn)題分類和 AI 安全問(wèn)題闡述方面所做的工作,DeepMind 將描述這些領(lǐng)域至今所取得的進(jìn)展,從而啟發(fā)大家得到一個(gè)對(duì)于智能體對(duì)齊問(wèn)題的解決方案,形成一個(gè)善于高效溝通,會(huì)從用戶反饋中學(xué)習(xí),并且能準(zhǔn)確預(yù)測(cè)用戶偏好的系統(tǒng)。無(wú)論是應(yīng)對(duì)當(dāng)下相對(duì)簡(jiǎn)單的任務(wù),還是未來(lái)日趨復(fù)雜、抽象化的、甚至超越人類理解能力的任務(wù),他們希望系統(tǒng)都能勝任有余。
通過(guò)獎(jiǎng)勵(lì)建模進(jìn)行對(duì)齊
DeepMind 這項(xiàng)研究方向的核心在于獎(jiǎng)勵(lì)建模。他們首先會(huì)訓(xùn)練一個(gè)包含用戶反饋的獎(jiǎng)勵(lì)模型,通過(guò)這種方式捕捉用戶的真實(shí)意圖。與此同時(shí),通過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練一個(gè)策略,使獎(jiǎng)勵(lì)模型的獎(jiǎng)勵(lì)效果最大化。換句話說(shuō),他們把學(xué)習(xí)做什么(獎(jiǎng)勵(lì)模型)與學(xué)習(xí)怎么做(策略)區(qū)分了開來(lái)。
獎(jiǎng)勵(lì)建模示意圖:獎(jiǎng)勵(lì)模型基于用戶反饋進(jìn)行訓(xùn)練,以便更好地捕捉用戶意圖;同一時(shí)間,獎(jiǎng)勵(lì)模型為經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的智能體提供獎(jiǎng)勵(lì)。
過(guò)去 DeepMind 做過(guò)一些類似的工作,比如教智能體根據(jù)用戶喜好做后空翻,根據(jù)目標(biāo)示例將物件排成特定形狀,根據(jù)用戶的喜好和專業(yè)的演示玩 Atari 游戲(你做我評(píng) )。在未來(lái),DeepMind 的研究人員們還希望可以研究出一套算法,讓系統(tǒng)可以根據(jù)用戶的反饋迅速調(diào)整自己去適應(yīng)用戶的行為模式。(比如通過(guò)自然語(yǔ)言)
擴(kuò)大獎(jiǎng)勵(lì)模型規(guī)模
從長(zhǎng)遠(yuǎn)來(lái)看,DeepMind 的研究人員們希望可以將獎(jiǎng)勵(lì)模型的規(guī)模擴(kuò)大至一些目前對(duì)人類評(píng)估能力來(lái)說(shuō)還比較復(fù)雜的領(lǐng)域。要做到這一點(diǎn),他們必須提升用戶評(píng)估結(jié)果的能力。因此,他們也將闡述如何遞歸地應(yīng)用獎(jiǎng)勵(lì)模型:通過(guò)獎(jiǎng)勵(lì)模型訓(xùn)練智能體,使其能在用戶的評(píng)估過(guò)程中提供幫助。一旦評(píng)估變得比行為簡(jiǎn)單,也就意味著系統(tǒng)可以從簡(jiǎn)單的任務(wù)過(guò)渡至更加普遍、復(fù)雜的任務(wù)。這也可以看作迭代擴(kuò)增(iterated amplification)的實(shí)例(詳情見「超級(jí) AI」的種子?復(fù)雜到人類難以評(píng)價(jià)的問(wèn)題,可以教會(huì)一個(gè) AI )。
遞歸獎(jiǎng)勵(lì)模型的示意圖:經(jīng)過(guò)遞歸獎(jiǎng)勵(lì)模型訓(xùn)練的智能體(右邊的小圈圈)將幫助用戶評(píng)估由正在被訓(xùn)練的智能體(右邊打圈圈)產(chǎn)出的結(jié)果
舉例說(shuō)明,比如想要通過(guò)訓(xùn)練智能體來(lái)設(shè)計(jì)計(jì)算機(jī)芯片,為了評(píng)估所提議的芯片設(shè)計(jì)的可行性,我們會(huì)通過(guò)獎(jiǎng)勵(lì)模型訓(xùn)練一組智能體「助手」,幫助我們完成芯片模擬性能基準(zhǔn)測(cè)試、計(jì)算散熱性能、預(yù)估芯片的壽命、發(fā)現(xiàn)安全漏洞等任務(wù)。智能體「助手」輸出的成果幫助用戶評(píng)估了芯片設(shè)計(jì)的可行性,接著用戶可以據(jù)此來(lái)訓(xùn)練芯片設(shè)計(jì)智能體。雖然說(shuō)智能體「助手」需要解決的一系列任務(wù),對(duì)于今天的學(xué)習(xí)系統(tǒng)來(lái)說(shuō)難度還是有點(diǎn)高,然而總比直接讓它設(shè)計(jì)一個(gè)計(jì)算機(jī)芯片要容易:想設(shè)計(jì)出計(jì)算機(jī)芯片,你必須理解設(shè)計(jì)過(guò)程中的每一項(xiàng)評(píng)估任務(wù),反之卻不然。從這個(gè)角度來(lái)說(shuō),遞歸獎(jiǎng)勵(lì)模型可以讓我們對(duì)智能體提供「支持」,使其能在和用戶意圖保持一致的情況下,去解決越來(lái)越難的任務(wù)。
研究面臨的挑戰(zhàn)
如果想將獎(jiǎng)勵(lì)模型應(yīng)用到復(fù)雜的問(wèn)題上,有幾項(xiàng)挑戰(zhàn)依然等待著我們?nèi)タ朔O聢D展示了 5 項(xiàng)在研究中可能面臨的挑戰(zhàn),對(duì)此感興趣的同學(xué)可以查閱 DeepMind 論文,文中詳細(xì)描述了這些挑戰(zhàn)及對(duì)應(yīng)的解決方案。
當(dāng)我們擴(kuò)大獎(jiǎng)勵(lì)建模時(shí)將會(huì)遇到的挑戰(zhàn)(左側(cè))以及最有希望的解決方案(右側(cè))
這提醒了我們關(guān)于智能體對(duì)齊問(wèn)題的最后一個(gè)關(guān)鍵要素:一旦要在現(xiàn)實(shí)世界中投入使用智能體,首先我們需要向用戶證明這些智能體已經(jīng)充分對(duì)齊。為此,DeepMind 在文中提出了 5 項(xiàng)有助于提高用戶對(duì)于智能體信任度的研究途徑,它們是:設(shè)計(jì)選擇、測(cè)試、可解釋性、形式驗(yàn)證和理論保證。他們還有一個(gè)充滿野心的想法,那就是為產(chǎn)品制作安全證書,證書主要用于證明開發(fā)技術(shù)的可靠性,以及增強(qiáng)用戶使用訓(xùn)練智能體進(jìn)行工作的信心。
未來(lái)的研究方向
雖然 DeepMind 的研究人員們深信遞歸獎(jiǎng)勵(lì)模型會(huì)是智能體對(duì)齊訓(xùn)練非常有前景的一個(gè)研究方向,然而他們目前無(wú)法預(yù)估這個(gè)方向在未來(lái)會(huì)怎么發(fā)展(需要大家進(jìn)行更多的研究!)。不過(guò)值得慶祝的是,專注智能體對(duì)齊問(wèn)題的其它幾種研究方向也同時(shí)有別的研究人員正在做出成果:
模仿學(xué)習(xí)
短視強(qiáng)化學(xué)習(xí)(Myopic reinforcement learning)
逆強(qiáng)化學(xué)習(xí)(Inverse reinforcement learning)
合作逆強(qiáng)化學(xué)習(xí)
迭代擴(kuò)增(復(fù)雜到人類難以評(píng)價(jià)的問(wèn)題,可以教會(huì)一個(gè) AI )
通過(guò)爭(zhēng)論學(xué)習(xí)(人和人吵架生氣,但 AI 和 AI 吵架反倒可以帶來(lái)安全 )
智能體基礎(chǔ)組件設(shè)計(jì)(Agent foundations)
DeepMind 也在文中探討了這幾種研究方向的異同之處。
如同計(jì)算機(jī)視覺系統(tǒng)對(duì)于對(duì)抗性輸入的魯棒性研究對(duì)當(dāng)今的機(jī)器學(xué)習(xí)實(shí)際應(yīng)用至關(guān)重要,智能體對(duì)齊研究同樣有望成為機(jī)器學(xué)習(xí)系統(tǒng)在復(fù)雜現(xiàn)實(shí)世界進(jìn)行部署的關(guān)鍵鑰匙??傊?,人類有理由保持樂(lè)觀:雖然學(xué)術(shù)研究上很可能會(huì)在試圖擴(kuò)大獎(jiǎng)勵(lì)模型時(shí)面臨挑戰(zhàn),然而這些挑戰(zhàn)都是一些有望解決的具體技術(shù)性問(wèn)題。從這個(gè)意義上說(shuō),這個(gè)研究方向已經(jīng)準(zhǔn)備就緒,可以對(duì)深度強(qiáng)化學(xué)習(xí)智能體進(jìn)行實(shí)證研究。
協(xié)助課題研究取得進(jìn)展是 DeepMind 日常工作中很重要的一個(gè)主題。如果作為研究者、工程師或者有天賦的通才,有興趣參與 DeepMind 的研究中來(lái),DeepMind 也歡迎他們申請(qǐng)加入自己的研究團(tuán)隊(duì)。
(邯鄲網(wǎng)站建設(shè))
小米應(yīng)用商店發(fā)布消息稱 持續(xù)開展“APP 侵害用戶權(quán)益治理”系列行動(dòng) 11:37:04
騰訊云與CSIG成立政企業(yè)務(wù)線 加速數(shù)字技術(shù)在實(shí)體經(jīng)濟(jì)中的落地和應(yīng)用 11:34:49
樂(lè)視回應(yīng)還有400多人 期待新的朋友加入 11:29:25
亞馬遜表示 公司正在將其智能購(gòu)物車擴(kuò)展到馬薩諸塞州的一家全食店 10:18:04
三星在元宇宙平臺(tái)推出游戲 玩家可收集原材料制作三星產(chǎn)品 09:57:29
特斯拉加州San Mateo裁減229名員工 永久關(guān)閉該地區(qū)分公司 09:53:13