我們擅長(zhǎng)商業(yè)策略與用戶(hù)體驗(yàn)的完美結(jié)合。
歡迎瀏覽我們的案例。
IT之家 7 月 13 日消息,科技媒體 The Verge 昨日?qǐng)?bào)道,谷歌旗下的 DeepMind 團(tuán)隊(duì)正在使用 Gemini 訓(xùn)練其機(jī)器人,讓其能夠完成更復(fù)雜的任務(wù),且能在復(fù)雜的環(huán)境下自由穿梭。
DeepMind 團(tuán)隊(duì)已經(jīng)發(fā)表了最新的研究論文,利用 Gemini 1.5 Pro 的上下文窗口(達(dá)到 200 萬(wàn)個(gè)詞元),讓用戶(hù)可以更輕松地使用自然語(yǔ)言指令與 RT-2 機(jī)器人互動(dòng)。
IT之家注:上下文窗口(context window)是指語(yǔ)言模型在進(jìn)行預(yù)測(cè)或生成文本時(shí),所考慮的前一個(gè)詞元(token)或文本片段的大小范圍。
其工作原理是拍攝指定區(qū)域(如家庭或辦公空間)的視頻導(dǎo)覽,研究人員使用 Gemini 1.5 Pro 讓機(jī)器人“觀看”視頻以了解環(huán)境;然后,機(jī)器人可以根據(jù)觀察到的情況,通過(guò)語(yǔ)言和 / 或圖像輸出來(lái)執(zhí)行命令。
例如用戶(hù)向機(jī)器人展示一部手機(jī),并詢(xún)問(wèn)“在哪里可以充電?”,機(jī)器人會(huì)引導(dǎo)用戶(hù)找到室內(nèi)的電源插座。
DeepMind 稱(chēng),在一個(gè) 9000 平方英尺(IT之家備注:約 836.13 平方米)的操作區(qū)內(nèi),機(jī)器人在升級(jí) Gemini 之后,測(cè)試發(fā)出 50 多條用戶(hù)指令,成功率高達(dá) 90%。
研究人員還發(fā)現(xiàn) "初步證據(jù)" 表明,Gemini 1.5 Pro 能讓機(jī)器人計(jì)劃如何完成導(dǎo)航以外的指令。
例如,當(dāng)一位桌上擺放著許多可樂(lè)罐的用戶(hù)詢(xún)問(wèn)機(jī)器人是否有他們最喜歡的飲料時(shí),Gemini “知道機(jī)器人應(yīng)該導(dǎo)航到冰箱,檢查是否有可樂(lè),然后返回用戶(hù)處報(bào)告結(jié)果”。DeepMind 表示計(jì)劃進(jìn)一步研究這些結(jié)果。
谷歌探索“AI+機(jī)器人”的未來(lái):836平方米復(fù)雜場(chǎng)景下指令成功率高達(dá)90% 09:20:53
發(fā)揮雙重優(yōu)勢(shì)布局?jǐn)?shù)實(shí)融合 09:27:08
微軟發(fā)布 Win11 RP 226x1.3951:增強(qiáng)分享通知、優(yōu)化文件管理器 09:23:46
半導(dǎo)體芯片封裝將迎新格局,玻璃基板技術(shù)冉冉升起 09:18:53
國(guó)際首個(gè)通信與智能融合的6G試驗(yàn)網(wǎng)成功搭建 09:17:41
“車(chē)路云一體化”顯現(xiàn)增量投資機(jī)會(huì) 09:14:40