我們擅長商業(yè)策略與用戶體驗的完美結合。
歡迎瀏覽我們的案例。
機器學習模型已經(jīng)變得非常擅長生成逼真的人臉,逼真到我可能永遠不會再相信一個機器或人類是真實的。這種由英偉達(Nvidia)研究人員開發(fā)的新方法可以分離面部的細節(jié)層次,并對它們進行單獨調(diào)整,以此實現(xiàn)超越其他方法的效果。最終生成的圖像非常非常逼真。
研究人員的 論文發(fā)表在預印本網(wǎng)站 Arxiv 上,其中描述了一種生成和混合圖像(特別是人臉)的新架構,可以“帶來更好的插值特性,而且也能更好地解析變化的潛在因素”。
這基本上意味著該系統(tǒng)能夠更好地意識到圖像之間有意義的變化,并且在各種尺度上都能進行引導。舉例來說,研究人員的 舊系統(tǒng) 可能生成兩張“不同”的面孔,但除了一個人的耳朵被擦除以及襯衫顏色不同之外,它們基本上是一樣的。那不是真正的不同,但系統(tǒng)并不知道無需重點關注圖像的這些組成部分。
新系統(tǒng)的靈感源自所謂的風格轉移,也就是對圖像(比如說一張畫)的重要風格特征進行提取,并應用到另一張圖像的創(chuàng)作當中,如果一切順利的話,最終得到的圖像應該跟原來的擁有類似外觀。就生成面孔而言,這里的“風格”并不是指筆觸或顏色分布,而是圖像的構成(居中,靠左或靠右,諸如此類)以及臉部的生理特點(膚色、雀斑以及毛發(fā))。
這些風格特征或大或小,尺度各異——在非常小的時候,它可能是面部的單個特征;在中間的時候,它可能是鏡頭的構成;在最大尺度上,它就是圖像整體色調(diào)之類的東西。讓系統(tǒng)對所有這些特征進行調(diào)整,整張圖像就會發(fā)生變化;與此同時,僅僅調(diào)整一部分可能只會改變一個人的發(fā)色,或者是雀斑或面部毛發(fā)的分布。
在最上面的圖像中,我們可以看到面孔是如何發(fā)生徹底變化的,但“來源”和“風格”的明顯標記仍然被保留下來,比如最底下一行的藍色襯衫。在其他情形中,衣服是用整塊布料生成的,就比如中心位置那個小孩貌似穿著和服一樣。它是從哪兒來的呢?請注意,所有這些都是完全可變的,并不是 A+B=C,而是取決于設置選項的調(diào)整方式,A 和 B 的所有因素都存在或都不存在。
這些人臉都不是來自真實的人類,但如果你說它們是某個人設置的個人頭像,我絲毫不會起疑。面部生成器現(xiàn)在已經(jīng)能夠不斷地生成外觀完全正常的人類圖像,想想還是有點可怕。下面是更多的例子:
它的效果還不完美,但的確有效。而且,能夠生成的不僅僅是人類,汽車、貓和風景,這些事物或多或少都符合相同的范式,即擁有可以分離并進行單獨再現(xiàn)的小、中、大風格特征。對我個人而言,一個能夠生成無限數(shù)量喵星人的系統(tǒng)似乎更加有趣。
此外,這些研究人員還發(fā)布了一個新的面部數(shù)據(jù)集:70,000 張(經(jīng)過許可)從 Flickr 采集的面部圖像,全都經(jīng)過對齊和剪裁。他們使用亞馬遜的眾包服務 Mechanical Turk 清除掉了雕像、繪畫和其他異常值。鑒于此類項目使用的標準數(shù)據(jù)集主要是明星走紅毯的照片,這應該能夠提供擁有更多變化的面部數(shù)據(jù)集來開展研究。
?。?a href="http://www.nasamidwest.com">邯鄲網(wǎng)絡公司)