新京報貝殼財經(jīng)訊（記者陳維城）10月27日，美團LongCat團隊發(fā)布并開源LongCat-Video視頻生成模型，以統(tǒng)一模型在文生、圖生視頻基礎(chǔ)任務(wù)上達(dá)到開源SOTA（最先進(jìn)水平），并依托原生視頻續(xù)寫任務(wù)預(yù)訓(xùn)練，實現(xiàn)分鐘級長視頻連貫生成，保障跨幀時序一致性與物理運動合理性。

LongCat-Video的模型評估圍繞內(nèi)部基準(zhǔn)測試和公開基準(zhǔn)測試展開，覆蓋 Text-to-Video（文本生成視頻）、Image-to-Video（圖像生成視頻）兩大核心任務(wù)。依托視頻續(xù)寫任務(wù)預(yù)訓(xùn)練，新模型可穩(wěn)定輸出5分鐘級別的長視頻，視頻推理速度提升至10.1倍。

美團LongCat團隊認(rèn)為，此次發(fā)布的視頻生成模型，是為探索“世界模型”邁出的第一步。未來，憑借精準(zhǔn)重構(gòu)真實世界運行狀態(tài)的能力，LongCat模型也會融入公司近年來持續(xù)投入的自動駕駛、具身智能等深度交互業(yè)務(wù)場景中。

編輯楊娟娟

校對陳荻雁

115 +1

微博

微信