2月22日,谷歌宣布將暫停Gemini的人物圖像生成,努力解決與Gemini圖像生成功能相關(guān)的最新問(wèn)題;將很快重新發(fā)布改進(jìn)版本。
此前,Gemini在圖片中生成了各種性別、種族的人群,即使生成的結(jié)果與史實(shí)不符,例如以“美國(guó)開(kāi)國(guó)元?jiǎng)兹A盛頓”為主題的圖片中,出現(xiàn)了婦女和有色人種。
3月2日,50歲的谷歌聯(lián)合創(chuàng)始人謝爾蓋·布林在加州的“AGI之家”與企業(yè)家們進(jìn)行了交談,談及此事時(shí)評(píng)價(jià)道:“我們?cè)趫D像生成方面搞砸得很徹底,我認(rèn)為這主要由于沒(méi)有進(jìn)行徹底的測(cè)試。出發(fā)點(diǎn)是好的,但結(jié)果卻讓很多人感到沮喪。”
谷歌發(fā)布基礎(chǔ)世界模型Genie
2月27日,谷歌發(fā)布了生成式AI的全新范式——生成式交互環(huán)境(Genie,Generative Interactive Environments)。
Genie是一個(gè)110億參數(shù)的基礎(chǔ)世界模型,可以通過(guò)單張圖像提示生成可玩的交互式環(huán)境。GenieAI是一個(gè)利用互聯(lián)網(wǎng)視頻訓(xùn)練的基礎(chǔ)世界模型,可以從合成圖像、照片甚至素描中生成無(wú)限多的可玩(可控制動(dòng)作的)世界。它的使用范圍廣泛,可以用于從圖像或文本生成整個(gè)互動(dòng)世界,是訓(xùn)練未來(lái)通用AI代理的有利工具。
螞蟻集團(tuán)推出百靈大模型
2月28日,螞蟻集團(tuán)推出20億參數(shù)多模態(tài)遙感基礎(chǔ)模型SkySense,其論文已被世界計(jì)算機(jī)視覺(jué)頂會(huì)CVPR 2024接收。
數(shù)據(jù)顯示,SkySense在17項(xiàng)測(cè)試場(chǎng)景中指標(biāo)均超過(guò)國(guó)際同類產(chǎn)品,這也是迄今為止國(guó)際上參數(shù)規(guī)模最大、覆蓋任務(wù)最全、識(shí)別精度最高的多模態(tài)遙感基礎(chǔ)模型。SkySense可用于地貌、農(nóng)作物觀測(cè)和解譯等,有效輔助農(nóng)業(yè)生產(chǎn)和經(jīng)營(yíng)。
潞晨科技復(fù)現(xiàn)Sora并開(kāi)源
3月4日,國(guó)內(nèi)著名開(kāi)源團(tuán)隊(duì)Colossal-AI(潞晨科技旗下)根據(jù)Sora技術(shù)報(bào)告、VideoGPT、擴(kuò)散Transformers等資料,復(fù)現(xiàn)了Sora模型架構(gòu)方案并將其開(kāi)源——Open-Sora。
值得一提的是,Colossal-AI還將復(fù)現(xiàn)成本降低了46%,同時(shí)將模型訓(xùn)練輸入序列長(zhǎng)度擴(kuò)充至819K patches。目前,Open-Sora在Github超過(guò)1200顆星。
Midjourney封禁Stability AI:惡意爬取數(shù)據(jù),致服務(wù)器癱瘓24小時(shí)
3月7日,Midjourney封禁Stability AI引發(fā)了一場(chǎng)關(guān)于數(shù)據(jù)安全和道德責(zé)任的爭(zhēng)議。事件起因于Stability AI的數(shù)據(jù)收集工程師對(duì)Midjourney服務(wù)器發(fā)起了惡意攻擊,導(dǎo)致其服務(wù)中斷24小時(shí)。盡管Stability AI CEO Emad聲稱公司并未授權(quán)此行為,但Midjourney決定暫時(shí)封禁其員工使用其軟件。
華為諾亞發(fā)布0.6B文生圖模型PixArt-Σ,可直出4K圖像
3月10日,華為諾亞方舟實(shí)驗(yàn)室聯(lián)合多個(gè)研究機(jī)構(gòu)共同開(kāi)發(fā)的項(xiàng)目,推出了一款名為PixArt-Σ的擴(kuò)散變換器模型(DiT)。
PixArt-Σ 的進(jìn)步有兩個(gè)方面。一是高質(zhì)量訓(xùn)練數(shù)據(jù),引入了更高質(zhì)量的圖像數(shù)據(jù),配合更精確和詳細(xì)的圖像標(biāo)題;二是高效的token壓縮:在DiT框架內(nèi)提出了一個(gè)新的注意力模塊,能夠壓縮鍵和值,顯著提高效率,從而支持超高分辨率圖像的生成。
這些改進(jìn)使得PixArt-Σ在模型大?。?.6B參數(shù))上遠(yuǎn)小于現(xiàn)有的文本到圖像擴(kuò)散模型,如SDXL(2.6B參數(shù))和SD Cascade(5.1B參數(shù)),同時(shí)在圖像質(zhì)量和用戶提示遵循能力上都有了顯著提升。此外,PixArt-Σ生成4K圖像的能力,為電影和游戲等行業(yè)的高質(zhì)量視覺(jué)內(nèi)容制作提供了強(qiáng)大支持。
Pika推出自動(dòng)生成音效功能Sound Effects
3月11日,Pika 發(fā)布了全新的功能Sound Effects,實(shí)現(xiàn)了視頻和音效的無(wú)縫生成。用戶可以通過(guò)簡(jiǎn)單的操作,通過(guò)描述prompt或讓 AI 自動(dòng)生成音效,為視頻增添更多氛圍。
Sound Effects的操作十分簡(jiǎn)單,用戶只需一個(gè) prompt或簡(jiǎn)單的描述就能生成音效,使視頻更加生動(dòng)。通過(guò)選擇不同的音效,用戶可以為視頻增添各種聲音,從車?guó)Q聲到煙花聲,音效都與視頻畫面高度匹配。此外,用戶還可以在生成視頻后,針對(duì)單個(gè)視頻添加音效,提升視頻質(zhì)量和趣味性。
Midjourney發(fā)布角色一致性新功能
3月12日,Midjourney推出了一項(xiàng)新功能,使得在生成多張圖片時(shí),能夠保持同一人物的一致性。通過(guò)使用“-cref”(角色參考)標(biāo)簽,可以保留輸入圖片中的角色特征,使得在不同場(chǎng)景中的臉部特征、體型和服裝保持一致。