我們擅長(zhǎng)商業(yè)策略與用戶(hù)體驗(yàn)的完美結(jié)合。
歡迎瀏覽我們的案例。
谷歌 AI 發(fā)布了一篇關(guān)于 Muse 的研究論文,這是一種新的文本至圖像生成技術(shù),它基于掩碼生成(Masked Generative)Transformer,可以生成與 DALL-E 2和 Imagen 等競(jìng)爭(zhēng)對(duì)手相媲美的高質(zhì)量圖片,但是速度要快得多。
Muse 被訓(xùn)練為預(yù)測(cè)隨機(jī)掩碼圖像的 token,它會(huì)使用業(yè)已訓(xùn)練過(guò)的大型語(yǔ)言模型所生成的嵌入式文本。這項(xiàng)工作涉及在離散的 token 空間中進(jìn)行掩碼建模。Muse 使用一個(gè) 9 億個(gè)參數(shù)的模型,稱(chēng)為掩碼生產(chǎn) transformer(masked generative transformer),以創(chuàng)造視覺(jué)效果,而不是采用像素空間擴(kuò)散或自回歸模型。
谷歌聲稱(chēng),借助 TPUv4 芯片,可以在 0.5 秒內(nèi)創(chuàng)建一個(gè) 256*256 的圖像,而使用 Imagen 則需要 9.1 秒,根據(jù)谷歌的說(shuō)法,Imagen 使用的擴(kuò)散模型提供了“前所未有的逼真程度”和“深度的語(yǔ)言理解”。TPU,即張量處理單元(Tensor Processing Unit),是谷歌開(kāi)發(fā)的定制芯片,專(zhuān)門(mén)用作 AI 的加速器。
根據(jù)研究,谷歌 AI 已經(jīng)訓(xùn)練了一系列不同規(guī)模的 Muse 模型,參數(shù)從 6.32 億到 30 億不等,研究發(fā)現(xiàn),預(yù)先訓(xùn)練好的大型語(yǔ)言模型,對(duì)于生成逼真的高質(zhì)量圖像至關(guān)重要。
Muse 的性能也超過(guò)了最先進(jìn)的自回歸模型 Parti,因?yàn)樗褂昧瞬⑿薪獯a,在推理時(shí)間上比 Imagen-3B 或 Parti-3B 模型快 10 倍以上,根據(jù)使用同等硬件的測(cè)試,比 Stable Diffusion v1.4 快 3 倍。
Muse 創(chuàng)建的視覺(jué)效果與輸入中的各種語(yǔ)義成分相對(duì)應(yīng),如名詞、動(dòng)詞和形容詞。此外,它還展示了視覺(jué)風(fēng)格和多對(duì)象特性的知識(shí),如合成性(compositionality)和基數(shù)(cardinality)。
近年來(lái),由于新的訓(xùn)練方法和改進(jìn)的深度學(xué)習(xí)架構(gòu),圖像生成模型有了長(zhǎng)足的進(jìn)步。這些模型有能力生成非常詳盡和逼真的圖像,在廣泛的行業(yè)和應(yīng)用中,它們正在成為越來(lái)越強(qiáng)大的工具。
?。?a href="http://www.nasamidwest.com">碼上科技)
谷歌AI發(fā)布Muse研究論文 是一種新的文本至圖像生成技術(shù) 09:13:31
蘋(píng)果代工廠和碩1月?tīng)I(yíng)收1246.08億新臺(tái)幣 創(chuàng)歷年同期新高 11:16:03
知情人士稱(chēng)多個(gè)跨國(guó)公司高管計(jì)劃訪問(wèn)中國(guó) 包括蘋(píng)果CEO庫(kù)克 11:11:41
郭明錤表示幾乎所有Android品牌均面臨因需求疲弱導(dǎo)致的高庫(kù)存風(fēng)險(xiǎn) 10:48:06
谷歌前高管表示在新的人工智能搜索時(shí)代 微軟已奮袂而起 10:36:32
迪士尼流媒體CTO將離開(kāi)公司 CEO正重組迪士尼 10:19:04