Sora“滿月”了，但不止一個(gè)AI在新生

可能是科技史上最密集的AI動(dòng)態(tài)發(fā)布月

來(lái)源：澎湃新聞·澎湃號(hào)·湃客時(shí)間：2024-03-18 作者：流川

分享到：

2月22日，谷歌宣布將暫停Gemini的人物圖像生成，努力解決與Gemini圖像生成功能相關(guān)的最新問(wèn)題；將很快重新發(fā)布改進(jìn)版本。

此前，Gemini在圖片中生成了各種性別、種族的人群，即使生成的結(jié)果與史實(shí)不符，例如以“美國(guó)開(kāi)國(guó)元?jiǎng)兹A盛頓”為主題的圖片中，出現(xiàn)了婦女和有色人種。

3月2日，50歲的谷歌聯(lián)合創(chuàng)始人謝爾蓋·布林在加州的“AGI之家”與企業(yè)家們進(jìn)行了交談，談及此事時(shí)評(píng)價(jià)道：“我們?cè)趫D像生成方面搞砸得很徹底，我認(rèn)為這主要由于沒(méi)有進(jìn)行徹底的測(cè)試。出發(fā)點(diǎn)是好的，但結(jié)果卻讓很多人感到沮喪。”

谷歌發(fā)布基礎(chǔ)世界模型Genie

2月27日，谷歌發(fā)布了生成式AI的全新范式——生成式交互環(huán)境（Genie，Generative Interactive Environments）。

Genie是一個(gè)110億參數(shù)的基礎(chǔ)世界模型，可以通過(guò)單張圖像提示生成可玩的交互式環(huán)境。GenieAI是一個(gè)利用互聯(lián)網(wǎng)視頻訓(xùn)練的基礎(chǔ)世界模型，可以從合成圖像、照片甚至素描中生成無(wú)限多的可玩（可控制動(dòng)作的）世界。它的使用范圍廣泛，可以用于從圖像或文本生成整個(gè)互動(dòng)世界，是訓(xùn)練未來(lái)通用AI代理的有利工具。

螞蟻集團(tuán)推出百靈大模型

2月28日，螞蟻集團(tuán)推出20億參數(shù)多模態(tài)遙感基礎(chǔ)模型SkySense，其論文已被世界計(jì)算機(jī)視覺(jué)頂會(huì)CVPR 2024接收。

數(shù)據(jù)顯示，SkySense在17項(xiàng)測(cè)試場(chǎng)景中指標(biāo)均超過(guò)國(guó)際同類產(chǎn)品，這也是迄今為止國(guó)際上參數(shù)規(guī)模最大、覆蓋任務(wù)最全、識(shí)別精度最高的多模態(tài)遙感基礎(chǔ)模型。SkySense可用于地貌、農(nóng)作物觀測(cè)和解譯等，有效輔助農(nóng)業(yè)生產(chǎn)和經(jīng)營(yíng)。

潞晨科技復(fù)現(xiàn)Sora并開(kāi)源

3月4日，國(guó)內(nèi)著名開(kāi)源團(tuán)隊(duì)Colossal-AI（潞晨科技旗下）根據(jù)Sora技術(shù)報(bào)告、VideoGPT、擴(kuò)散Transformers等資料，復(fù)現(xiàn)了Sora模型架構(gòu)方案并將其開(kāi)源——Open-Sora。

值得一提的是，Colossal-AI還將復(fù)現(xiàn)成本降低了46%，同時(shí)將模型訓(xùn)練輸入序列長(zhǎng)度擴(kuò)充至819K patches。目前，Open-Sora在Github超過(guò)1200顆星。

Midjourney封禁Stability AI：惡意爬取數(shù)據(jù)，致服務(wù)器癱瘓24小時(shí)

3月7日，Midjourney封禁Stability AI引發(fā)了一場(chǎng)關(guān)于數(shù)據(jù)安全和道德責(zé)任的爭(zhēng)議。事件起因于Stability AI的數(shù)據(jù)收集工程師對(duì)Midjourney服務(wù)器發(fā)起了惡意攻擊，導(dǎo)致其服務(wù)中斷24小時(shí)。盡管Stability AI CEO Emad聲稱公司并未授權(quán)此行為，但Midjourney決定暫時(shí)封禁其員工使用其軟件。

華為諾亞發(fā)布0.6B文生圖模型PixArt-Σ，可直出4K圖像

3月10日，華為諾亞方舟實(shí)驗(yàn)室聯(lián)合多個(gè)研究機(jī)構(gòu)共同開(kāi)發(fā)的項(xiàng)目，推出了一款名為PixArt-Σ的擴(kuò)散變換器模型（DiT）。

PixArt-Σ 的進(jìn)步有兩個(gè)方面。一是高質(zhì)量訓(xùn)練數(shù)據(jù)，引入了更高質(zhì)量的圖像數(shù)據(jù)，配合更精確和詳細(xì)的圖像標(biāo)題；二是高效的token壓縮：在DiT框架內(nèi)提出了一個(gè)新的注意力模塊，能夠壓縮鍵和值，顯著提高效率，從而支持超高分辨率圖像的生成。

這些改進(jìn)使得PixArt-Σ在模型大?。?.6B參數(shù)）上遠(yuǎn)小于現(xiàn)有的文本到圖像擴(kuò)散模型，如SDXL（2.6B參數(shù)）和SD Cascade（5.1B參數(shù)），同時(shí)在圖像質(zhì)量和用戶提示遵循能力上都有了顯著提升。此外，PixArt-Σ生成4K圖像的能力，為電影和游戲等行業(yè)的高質(zhì)量視覺(jué)內(nèi)容制作提供了強(qiáng)大支持。

Pika推出自動(dòng)生成音效功能Sound Effects

3月11日，Pika 發(fā)布了全新的功能Sound Effects，實(shí)現(xiàn)了視頻和音效的無(wú)縫生成。用戶可以通過(guò)簡(jiǎn)單的操作，通過(guò)描述prompt或讓 AI 自動(dòng)生成音效，為視頻增添更多氛圍。

Sound Effects的操作十分簡(jiǎn)單，用戶只需一個(gè) prompt或簡(jiǎn)單的描述就能生成音效，使視頻更加生動(dòng)。通過(guò)選擇不同的音效，用戶可以為視頻增添各種聲音，從車?guó)Q聲到煙花聲，音效都與視頻畫面高度匹配。此外，用戶還可以在生成視頻后，針對(duì)單個(gè)視頻添加音效，提升視頻質(zhì)量和趣味性。

Midjourney發(fā)布角色一致性新功能

3月12日，Midjourney推出了一項(xiàng)新功能，使得在生成多張圖片時(shí)，能夠保持同一人物的一致性。通過(guò)使用“-cref”（角色參考）標(biāo)簽，可以保留輸入圖片中的角色特征，使得在不同場(chǎng)景中的臉部特征、體型和服裝保持一致。

« 1 2 3 4 5 6 7 8 »

關(guān)鍵詞:openAI sora 獨(dú)角獸算力融資人工智能芯片瀏覽量：12555

聲明：凡本網(wǎng)注明"來(lái)源：儀商網(wǎng)"的所有作品，版權(quán)均屬于儀商網(wǎng)，未經(jīng)本網(wǎng)授權(quán)不得轉(zhuǎn)載、摘編使用。
經(jīng)本網(wǎng)授權(quán)使用，并注明"來(lái)源：儀商網(wǎng)"。違反上述聲明者，本網(wǎng)將追究其相關(guān)法律責(zé)任。
本網(wǎng)轉(zhuǎn)載并注明自其它來(lái)源的作品，歸原版權(quán)所有人所有。目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點(diǎn)或證實(shí)其內(nèi)容的真實(shí)性，不承擔(dān)此類作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。如有作品的內(nèi)容、版權(quán)以及其它問(wèn)題的，請(qǐng)?jiān)谧髌钒l(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系，否則視為放棄相關(guān)權(quán)利。
本網(wǎng)轉(zhuǎn)載自其它媒體或授權(quán)刊載，如有作品內(nèi)容、版權(quán)以及其它問(wèn)題的，請(qǐng)聯(lián)系我們。相關(guān)合作、投稿、轉(zhuǎn)載授權(quán)等事宜，請(qǐng)聯(lián)系本網(wǎng)。
QQ：2268148259、3050252122。