跳到主要內容

Meta 發布開放程式碼世界模型 V-JEPA 2


今天,我們很高興地宣布 V-JEPA 2 正式發布。這是首個基於視訊訓練的世界模型,它能夠實現最先進的理解和預測能力,以及在新環境中進行零樣本規劃和機器人控制。在我們努力實現高階機器智慧 (AMI) 的目標的過程中,擁有能夠像人類一樣學習世界、規劃如何執行不熟悉的任務並高效適應周圍不斷變化的世界的 AI 系統至關重要。

V-JEPA 2 是一個擁有 12 億個參數的模型,它是使用我們在 2022 年首次分享的元聯合嵌入預測架構(JEPA) 建構的。我們先前的工作表明,JEPA 在圖像和3D 點雲等模態下表現良好。 V -JEPA是我們去年發布的第一個視訊訓練模型,在此基礎上,V-JEPA 2 改進了動作預測和世界建模功能,使機器人能夠與不熟悉的物體和環境互動以完成任務。我們也分享了三個新的基準,以幫助研究界評估他們現有的模型使用影片學習和推理世界的程度。透過分享這項工作,我們旨在讓研究人員和開發人員能夠存取最佳模型和基準,以幫助加速研究和進步,最終帶來更優秀、更強大的 AI 系統,從而改善人們的生活。

什麼是世界模型?

我們都知道,如果你把一個網球拋向空中,重力會把它拉回來。如果它懸空,突然在空中旋轉飛向另一個方向,或突然變成蘋果,那真是令人驚訝。這種身體直覺並非成年人經過多年教育就能獲得的——幼兒在能夠說出完整句子之前,就透過觀察周圍的世界培養出了這種直覺。

預測世界將如何回應我們的行為(或他人的行為)的能力是人類一直以來都在運用的,尤其是在規劃行動以及如何最好地應對新情況時。不妨想想這種生理直覺在我們日常生活中是如何被體現的。當我們穿過陌生擁擠的區域時,我們會一邊朝著目的地前進,一邊努力避免撞到沿途的人或障礙物。打冰球時,我們會滑向冰球即將飛向的方向,而不是它目前的位置。用爐子煮飯時,我們會考慮鍋子還要燒多久,或是否要調低火候。我們內在的世界模型不僅為我們提供了這種直覺,還充當著一個內在模擬器,讓我們能夠預測假設行動的結果,最終根據我們認為最能實現目標的方式,選擇最佳行動。

在採取行動之前,我們會使用世界模型來設想潛在的後果。在我們致力於建立能夠先思考後行動的 AI 代理的過程中,讓它們學習實現以下功能的世界模型至關重要:

  • 理解:世界模型應該能夠理解對世界的觀察,包括辨識影片中的物體、動作和運動等。
  • 預測:世界模型應該能夠預測世界將如何發展,以及如果代理人採取行動,世界將如何變化。
  • 規劃:基於預測能力,世界模型應該有助於規劃實現給定目標的行動序列。

我們的長期願景是,世界模型將使 AI 代理能夠在物理世界中進行規劃和推理。為了實現這一願景,我們即將發布 V-JEPA 2,這是一個主要基於視頻進行訓練的世界模型——視頻是豐富且易於獲取的世界信息來源。透過將 V-JEPA 2 代碼和模型檢查點開放給商業和研究應用,我們希望圍繞這項研究建立一個廣泛的社區,推動我們朝著最終目標邁進,即開發能夠改變 AI 與物理世界交互方式的世界模型。


Picture Source:
ai.meta

留言

這個網誌中的熱門文章

美國公布 2025 年六月非農就業人數

美國勞工統計局今天報告稱,6 月非農業就業總人數增加了 14.7 萬人,失業率基本持平於 4.1%。州政府和醫療保健領域的就業機會增加。聯邦政府部門的就業機會持續減少。 本新聞稿提供的統計數據來自兩項月度調查。 家庭調查以人口統計特徵衡量勞動力狀況,包括失業率。 機構調查以行業衡量非農業就業人數、工時和收入。 家庭調查數據 6月份,失業率為 4.1%,失業人數為 700 萬,兩者皆變化不大。自2024年5月以來,失業率一直維持在 4.0% 至 4.2% 的窄幅區間內。 在主要勞動族群中,非裔美國人(6.8%)的失業率在6月有所上升,而成年女性(3.6%)和白人(3.6%)的失業率則下降。成年男性(3.9%)、青少年(14.4%)、亞裔(3.5%)和西班牙裔(4.8%)的失業率在當月幾乎沒有變化。 6 月份,長期失業人數(失業 27 週或以上)增加了 19 萬,達到 160 萬,基本上抵消了上個月的降幅。長期失業者佔所有失業人口的 23.3%。 6 月份,勞動參與率基本維持不變,為 62.3%,就業人口比率維持在 59.7%。 6 月份,因經濟原因從事兼職工作的人數為 450 萬,基本維持不變。這些人原本更傾向於全職工作,但由於工作時間減少或無法找到全職工作,他們只能從事兼職工作。 6 月份,目前希望就業但未加入勞動力的人數基本保持不變,為 600 萬人。這些人未被計入失業人數,因為他們在調查前 4 週內沒有積極尋找工作,或無法接受工作。 在希望就業但未加入勞動力隊伍的人數中,6 月處於邊緣就業狀態的人數增加了 23.4 萬人,達到 180 萬人。這些人希望工作,並且能夠工作,在過去 12 個月的某個時間點尋找工作,但在調查前 4 週內沒有尋找工作。灰心喪志的工人(邊緣就業人群中的一部分,他們認為沒有工作機會)的人數在 6 月增加了 25.6 萬人,達到 63.7 萬人。 機構調查數據 6月份非農業就業總人數增加了 14.7 萬個,與過去 12 個月平均每月增加 14.6 萬個的水平持平。6月份,州政府和醫療保健領域的就業機會增加。聯邦政府的就業機會持續減少。 6月政府就業機會增加了 7.3 萬個。州政府就業機會增加了4.7萬個,主要集中在教育領域(增加了4萬個)。地方政府教育領域的就業機會持續增加(增加了2.3萬個)。聯邦政府就業機會持續減少(減少了7千個),自1月...

DeepSeek-V3.1 發布,邁向 AI Agent

DeepSeek-V3.1 在 DeepSeek-V3.1-Base 的基礎上進行後訓練,後者基於原始 V3 基礎檢查點,通過兩階段長上下文擴展方法構建,遵循原始 DeepSeek-V3 報告中概述的方法。 DeepSeek 透過收集更多長文件並大幅擴展兩個訓練階段來擴展資料集。32K 擴展階段的標記數量增加了 10 倍,達到 6,300 億個標記,而 128K 擴展階段的標記數量增加了 3.3 倍,達到 2,090 億個標記。此外,DeepSeek-V3.1 使用 UE8M0 FP8 規模資料格式進行訓練,以確保與微尺度資料格式相容。 DeepSeek-V3.1 是一個同時支持思考模式和非思考模式的混合模型。相較於上一版本,本次升級帶來了多個方面的改進: 混合推理:思考與非思考-一個模型,兩種模式 更快的思考:DeepSeek-V3.1-Think 與 DeepSeek-R1-0528 相比,可以在更短的時間內找到答案 更強大的代理商技能:後製訓練可提高工具使用率和多步驟代理任務 DeepSeek-V3.1 模型提升了工具使用、程式碼生成和推理效率,在高難度基準測試中實現了與 DeepSeek-R1 相當的效能,同時響應速度更快。它支援結構化工具呼叫、代碼代理和搜尋代理,適用於研究、編碼和代理工作流程。 工具和代理程式升級 在 SWE / Terminal-Bench 上獲得更好的結果 針對複雜搜尋任務的更強大的多步驟推理 思考效率大幅提升 模型更新 V3.1 基礎:在 V3 基礎上繼續對 840B 個 token 進行預訓練,以進行長上下文擴展 Tokenizer 和聊天範本已更新 - 新的 tokenizer 設定: https://huggingface.co/deepseek-ai/DeepSeek- V3.1/blob/main/tokenizer_config.json V3.1 基礎開源權重: https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base V3.1 開源權重: https://huggingface.co/deepseek-ai/DeepSeek-V3.1 價格變動 新定價開始及非高峰折扣結束時間為 2025 年 9 月 5 日 16:00(UTC 時間) 在此之前,API 遵循當前定價 ...

Multiverse Computing 推出微型高性能 AI 模型

據公司新聞稿稱,Multiverse Computing 表示已經解決了長期困擾人工智慧的一個問題:在不損失效能的情況下縮小模型。 這家總部位於西班牙的公司週四發布了名為 "Model Zoo" 的產品,這是一系列 "奈米模型",據稱這些模型可以在中等硬體上本地運行,同時性能可匹敵甚至超越更大型的系統。 此次發表的產品包括兩款新產品——ChickenBrain 和 SuperFly,旨在證明在人工智慧領域,規模越大並不一定越好。 ChickenBrain 是 Meta 的 Llama 3.1 大型語言模型的精簡版,Multiverse 表示,該模型比通常所需的計算資源小 3700 倍。儘管如此,該模型在 MMLU Pro、MATH500、GSM8K 和 GPQA Diamond 等行業基準測試中仍優於 Llama 3.1 8B。 該公司在 MacBook Pro 和低成本 Raspberry Pi 等日常設備上對其進行了測試,表明它無需專門的雲端基礎設施即可運行。 SuperFly 較小,基於開源的 SmolLM2 135 模型,僅有 9,400 萬個參數。 Multiverse 表示,它足夠小,可以容納兩隻蒼蠅的神經容量,比雞腦小 15000 倍。該模型旨在實現無需互聯網連接即可運行的對話式 AI,因此非常適合嵌入到消費產品和車輛中。 該公司指出,SuperFly 可在智慧家電等領域實現直接應用,無需將資料傳送到雲端即可實現語音控制。這將使洗衣機或冰箱即使在離線狀態下也能回應簡單的語言指令。在汽車領域,它可以為車載助理提供動力,使其在沒有蜂窩信號覆蓋的區域也能繼續運行,處理導航、氣候和音頻任務。 https://theaiinsider.tech/2025/08/15/multiverse-computing-reports-it-shrinks-ai-models-without-sacrificing-power/ Picture Source: Multiverse Computing