新京報貝殼財經(jīng)訊(記者陳維城)10月27日,美團LongCat團隊發(fā)布并開源LongCat-Video視頻生成模型,以統(tǒng)一模型在文生、圖生視頻基礎(chǔ)任務(wù)上達(dá)到開源SOTA(最先進(jìn)水平),并依托原生視頻續(xù)寫任務(wù)預(yù)訓(xùn)練,實現(xiàn)分鐘級長視頻連貫生成,保障跨幀時序一致性與物理運動合理性。
LongCat-Video的模型評估圍繞內(nèi)部基準(zhǔn)測試和公開基準(zhǔn)測試展開,覆蓋 Text-to-Video(文本生成視頻)、Image-to-Video(圖像生成視頻)兩大核心任務(wù)。依托視頻續(xù)寫任務(wù)預(yù)訓(xùn)練,新模型可穩(wěn)定輸出5分鐘級別的長視頻,視頻推理速度提升至10.1倍。
美團LongCat團隊認(rèn)為,此次發(fā)布的視頻生成模型,是為探索“世界模型”邁出的第一步。未來,憑借精準(zhǔn)重構(gòu)真實世界運行狀態(tài)的能力,LongCat模型也會融入公司近年來持續(xù)投入的自動駕駛、具身智能等深度交互業(yè)務(wù)場景中。
編輯 楊娟娟
校對 陳荻雁
