我們擅長(zhǎng)商業(yè)策略與用戶體驗(yàn)的完美結(jié)合。
歡迎瀏覽我們的案例。
微軟 AI&Research 今天分享了有史以來(lái)最大的基于 Transformer 架構(gòu)的語(yǔ)言生成模型 Turing NLG(下文簡(jiǎn)稱為T-NLG),并開(kāi)源了一個(gè)名為 DeepSpeed 的深度學(xué)習(xí)庫(kù),以簡(jiǎn)化對(duì)大型模型的分布式培訓(xùn)。
基于 Transformer 的架構(gòu),意味著該模型可以生成單詞來(lái)完成開(kāi)放式文本任務(wù)。除了完成未完成的句子外,它還可以生成對(duì)輸入文檔的問(wèn)題和摘要的直接答案。
去年 8 月,英偉達(dá)曾宣布已訓(xùn)練世界上最大的基于 Transformer 的語(yǔ)言模型,當(dāng)時(shí)該模型使用了 83 億個(gè)參數(shù),比 BERT 大 24 倍,比 OpenAI 的 GPT-2 大 5 倍。
而此次微軟所分享的模型,T-NLG 的參數(shù)為 170 億個(gè),是英偉達(dá)的 Megatron(現(xiàn)在是第二大 Transformer 模型)的兩倍,其參數(shù)是 OpenAI 的 GPT-2 的十倍。微軟表示,T-NLG 在各種語(yǔ)言建?;鶞?zhǔn)上均優(yōu)于最新技術(shù),并在應(yīng)用于許多實(shí)際任務(wù)(包括總結(jié)和問(wèn)題解答)時(shí)表現(xiàn)出色。
不過(guò),像 Google 的 Meena 一樣,最初使用 GPT-2,T-NLG 最初只能在私人演示中共享。
微軟 AI 研究應(yīng)用科學(xué)家 Corby Rosset 在博客文章中寫(xiě)道:“除了通過(guò)匯總文檔和電子郵件來(lái)節(jié)省用戶時(shí)間之外,T-NLG 還可以通過(guò)為作者提供寫(xiě)作幫助,并回答讀者可能對(duì)文檔提出的問(wèn)題,由此來(lái)增強(qiáng) Microsoft Office 套件的使用體驗(yàn)。”
具有 Transformer 架構(gòu)的語(yǔ)言生成模型可以預(yù)測(cè)下一個(gè)單詞。它們可用于編寫(xiě)故事,以完整的句子生成答案以及總結(jié)文本。
微軟表示,他們的目標(biāo)是在任何情況下都能夠像人類一樣直接,準(zhǔn)確,流暢地做出響應(yīng):以前,問(wèn)題解答和摘要系統(tǒng)依賴于從文檔中提取現(xiàn)有內(nèi)容,這些內(nèi)容可以作為備用答案或摘要,但它們通??雌饋?lái)不自然或不連貫。使用T-NLG 這樣的自然語(yǔ)言生成模型,可以自然地總結(jié)或回答有關(guān)個(gè)人文檔或電子郵件主題的問(wèn)題。
來(lái)自 AI 領(lǐng)域的專家告訴 VentureBeat,2019 年是 NLP 模型開(kāi)創(chuàng)性的一年——使用 Transformer 架構(gòu)無(wú)疑是 2019 年最大的機(jī)器學(xué)習(xí)趨勢(shì)之一,這導(dǎo)致了語(yǔ)言生成領(lǐng)域和 GLUE 基準(zhǔn)測(cè)試領(lǐng)導(dǎo)者的進(jìn)步,F(xiàn)acebook 的 RoBERTa、谷歌的 XLNet 和微軟的 MT-DNN 都紛紛加入到各類基準(zhǔn)測(cè)試榜首的爭(zhēng)奪當(dāng)中。
同樣是在今天,微軟還開(kāi)源了一個(gè)名為 DeepSpeed 的深度學(xué)習(xí)庫(kù)。該學(xué)習(xí)庫(kù)已針對(duì)開(kāi)發(fā)人員進(jìn)行了優(yōu)化,以提供低延遲、高吞吐量的推理。
DeepSpeed 包含零冗余優(yōu)化器(ZeRO),用于大規(guī)模訓(xùn)練具有 1 億個(gè)或更多參數(shù)的模型,微軟過(guò)去曾用它訓(xùn)練T-NLG。
微軟表示,DeepSpeed 和 ZeRO 使得他們能夠降低模型并行度(從 16 降低到4),將每個(gè)節(jié)點(diǎn)的批處理大小增加四倍,并將訓(xùn)練時(shí)間減少了三分之二;DeepSpeed 使用更少的 GPU 可以使大型模型的訓(xùn)練效率更高。
開(kāi)發(fā)人員和機(jī)器學(xué)習(xí)從業(yè)人員都可以使用 DeepSpeed 和 ZeRO,因?yàn)榕嘤?xùn)大型網(wǎng)絡(luò)(例如利用 Transformer 架構(gòu)的網(wǎng)絡(luò))可能會(huì)很昂貴,并且可能會(huì)遇到大規(guī)模問(wèn)題。
另外,Google 的 DeepMind 今天也發(fā)布了一種新的遠(yuǎn)程內(nèi)存模型 Compressive Transformer,以及一種針對(duì)書(shū)本級(jí)語(yǔ)言建模的新基準(zhǔn) PG19。
?。?a href="http://www.nasamidwest.com">邯鄲網(wǎng)站建設(shè))
小米應(yīng)用商店發(fā)布消息稱 持續(xù)開(kāi)展“APP 侵害用戶權(quán)益治理”系列行動(dòng) 11:37:04
騰訊云與CSIG成立政企業(yè)務(wù)線 加速數(shù)字技術(shù)在實(shí)體經(jīng)濟(jì)中的落地和應(yīng)用 11:34:49
樂(lè)視回應(yīng)還有400多人 期待新的朋友加入 11:29:25
亞馬遜表示 公司正在將其智能購(gòu)物車擴(kuò)展到馬薩諸塞州的一家全食店 10:18:04
三星在元宇宙平臺(tái)推出游戲 玩家可收集原材料制作三星產(chǎn)品 09:57:29
特斯拉加州San Mateo裁減229名員工 永久關(guān)閉該地區(qū)分公司 09:53:13