Groq成立于2016年,由前谷歌員工Jonathan Ross創(chuàng)立。他曾發(fā)明了驅(qū)動谷歌機(jī)器學(xué)習(xí)軟件的張量處理單元(TPU),這兩項技術(shù)當(dāng)時為AlphaGo提供了重要的技術(shù)支撐。
字節(jié)跳動發(fā)布萬卡集群系統(tǒng)MegaScale論文
2月23日,字節(jié)跳動發(fā)布萬卡集群論文,展示了構(gòu)建和部署 MegaScale 的設(shè)計、實(shí)施和工程經(jīng)驗,這是一個用于訓(xùn)練超過1萬個GPU規(guī)模的大型語言模型生產(chǎn)系統(tǒng)。
在12288個GPU上訓(xùn)練175B LLM模型時,MegaScale實(shí)現(xiàn)了55.2%的模型FLOP利用率 (MFU),與Megatron-LM相比,MFU提高了1.34倍。
中國為人工智能初創(chuàng)企業(yè)提供14萬至28萬美元的“算力券”
為了支持蓬勃發(fā)展的人工智能行業(yè),中國向初創(chuàng)企業(yè)提供“算力券”,來降低企業(yè)數(shù)據(jù)中心運(yùn)營相關(guān)的成本。至少有17個中國城市政府承諾提供這些補(bǔ)貼,代金券價值從14萬美元到28萬美元不等。
meta 推出2個24K GPU集群
3月13日,meta披露了有關(guān)萬卡集群的硬件、網(wǎng)絡(luò)、存儲、設(shè)計、性能和軟件的詳細(xì)信息,并聲稱到2024年底將完成350000個英偉達(dá)H100 GPU集群的構(gòu)建。屆時,其整個資源池計算能力將相當(dāng)于近600000個H100。
Cerebras發(fā)布了世界上最快的芯片,擁有4萬億個晶體管
3月14日,Cerebras發(fā)布了大尺寸芯片WSE-3,包含4萬億個晶體管,在相同的功耗和價格下,WSE-3的性能是之前記錄保持者WSE-2的兩倍。
相比H100 GPU ,WSE-3大了57倍,內(nèi)核數(shù)量增加了52倍,芯片內(nèi)存增加了800倍,內(nèi)存帶寬增加了7000倍,結(jié)構(gòu)帶寬增加了3700倍以上。這些都是芯片實(shí)現(xiàn)高性能的基礎(chǔ)。
WSE-3是專為訓(xùn)練業(yè)界最大的AI模型而打造的,基于5納米制程、將為Cerebras CS-3人工智能超級計算機(jī)提供動力,通過90萬個人工智能優(yōu)化的計算核心,提供每秒125 petaflops峰值A(chǔ)I性能(1 petaflops是指每秒1萬億次浮點(diǎn)運(yùn)算)。
AI模型
大語言模型
谷歌發(fā)布多模態(tài)模型Gemini 1.5 Pro,支持100萬token上下文
2月16日,谷歌發(fā)布多模態(tài)大模型Gemini 1.5 Pro,建立在谷歌Transformer和MoE架構(gòu)的領(lǐng)先研究之上。
通過一系列機(jī)器學(xué)習(xí)創(chuàng)新,谷歌增加了Gemini 1.5 Pro的上下文窗口容量,并實(shí)現(xiàn)在生產(chǎn)中運(yùn)行高達(dá)100萬個Token,遠(yuǎn)超32k的Gemini 1.0、128k的GPT-4 Turbo、200k的Claude 2.1。
Gemini 1.5 Pro可以一次性處理大量信息——包括1小時的視頻、11小時的音頻、超過30000行代碼的代碼庫或超過700000個單詞。
谷歌發(fā)布開源大模型Gemma
2月22日,谷歌推出了“開源”大模型Gemma。Gemma采用了與Gemini相同的技術(shù),由谷歌DeepMind與谷歌其他團(tuán)隊共同合作開發(fā),在拉丁文中意為 “寶石”。
Gemma包括兩種權(quán)重規(guī)模的模型:Gemma 2B 與Gemma 7B,每種規(guī)模都有預(yù)訓(xùn)練與指令微調(diào)版本。同時,谷歌還推出了一系列工具,旨在支持開發(fā)者創(chuàng)新,促進(jìn)合作,并指導(dǎo)如何負(fù)責(zé)任地使用Gemma模型。
Mistral獲微軟投資,發(fā)布旗艦?zāi)P蚆istral Large
2月27日,Mistral AI發(fā)布Mistral Large旗艦?zāi)P?,并且推出對?biāo)ChatGPT的對話產(chǎn)品:Le Chat。
Mistral Large達(dá)到了頂級的推理能力。它可以用于復(fù)雜的多語言推理任務(wù),包括文本理解、轉(zhuǎn)換和代碼生成。
據(jù)Mistral AI CEO Arthur Mensch透露,開發(fā)這款新模型的成本不到2000萬歐元(約合2200萬美元)。
同時,微軟宣布與Mistral AI達(dá)成深度合作,并對其進(jìn)行了投資。未來,Mistral AI直接將模型資源放在微軟云當(dāng)中售賣,成為OpenAI之后第二家在微軟Azure云平臺上提供商業(yè)AI模型的公司。
Anthropic發(fā)布Claude 3模型,全面超越GPT-4
3月4日,Anthropic推出了最新的Claude 3大模型。