跳到主要內容

Meta 公開新一代的 SAM 3D 程式碼


Meta AI 發布新一代 Meta Segment Anything Model 3 (SAM 3) 模型集,這是一個統一的模型,它使用文字、範例和視覺提示來偵測、分割和追蹤圖像和影片中的物件。以及開放程式碼的模型,用於從單張影像重建 3D 物件和人體,為物理世界場景中的基於實物的 3D 重建樹立了新標準的 SAM 3D。

SAM 3D 是 SAM 模型庫中首個此類全新成員,它將對自然圖像的常識性 3D 理解帶入現實,無論是探索 AR/VR 新領域的研究人員、希望為遊戲生成素材的創作者,還是僅僅對 AI 賦能的 3D 建模的可能性感到好奇,SAM 3D 都將為開發者開啟與視覺世界互動和理解的全新方式。

SAM 3D 引入了兩個新模型:SAM 3D Objects,用於物件和場景重建,以及 SAM 3D Body,專注於人體和形狀估計。這兩個模型均具有強大的性能,能夠將靜態 2D 影像轉換為精細的 3D 重建模型。

SAM 3D Objects 代表了一種全新的方法,它能夠從單張自然圖像中實現穩健且基於視覺的 3D 重建和物體姿態估計,從而從日常圖像中重建物體的精細 3D 形狀、紋理和佈局。SAM 3D Objects 的創新之處在於,它利用強大的資料標註引擎打破了從實體世界取得 3D 資料的長期壁壘,並將其與全新的多階段 3D 訓練方案緊密結合。

SAM 3D Body 旨在滿足從單張影像精確估計 3D 人體姿態和形狀的需求—即使在涉及不尋常姿態、影像部分被遮蔽或多人等複雜情況下也能勝任。該模型利用了一種名為 Meta Momentum Human Rig (MHR) 的新型開源 3D 網格格式,該格式透過分離人體骨骼結構和軟組織形狀,提高了可解釋性。SAM 3D Body 的突出之處在於其精度和穩健性的顯著提升,在多項 3D 基準測試中均超越了以往的模型。

目前,SAM 3D 和 SAM 3 為 Facebook Marketplace 的全新「房間預覽」功能提供了支持,幫助用戶在購買家居裝飾品之前,直觀地了解其在實際空間中的風格和效果。

https://kopyai.com/zh-tw/latest/view/type.news/0/55

Picture Source

Meta AI

留言

這個網誌中的熱門文章

美國公布 2025 年六月非農就業人數

美國勞工統計局今天報告稱,6 月非農業就業總人數增加了 14.7 萬人,失業率基本持平於 4.1%。州政府和醫療保健領域的就業機會增加。聯邦政府部門的就業機會持續減少。 本新聞稿提供的統計數據來自兩項月度調查。 家庭調查以人口統計特徵衡量勞動力狀況,包括失業率。 機構調查以行業衡量非農業就業人數、工時和收入。 家庭調查數據 6月份,失業率為 4.1%,失業人數為 700 萬,兩者皆變化不大。自2024年5月以來,失業率一直維持在 4.0% 至 4.2% 的窄幅區間內。 在主要勞動族群中,非裔美國人(6.8%)的失業率在6月有所上升,而成年女性(3.6%)和白人(3.6%)的失業率則下降。成年男性(3.9%)、青少年(14.4%)、亞裔(3.5%)和西班牙裔(4.8%)的失業率在當月幾乎沒有變化。 6 月份,長期失業人數(失業 27 週或以上)增加了 19 萬,達到 160 萬,基本上抵消了上個月的降幅。長期失業者佔所有失業人口的 23.3%。 6 月份,勞動參與率基本維持不變,為 62.3%,就業人口比率維持在 59.7%。 6 月份,因經濟原因從事兼職工作的人數為 450 萬,基本維持不變。這些人原本更傾向於全職工作,但由於工作時間減少或無法找到全職工作,他們只能從事兼職工作。 6 月份,目前希望就業但未加入勞動力的人數基本保持不變,為 600 萬人。這些人未被計入失業人數,因為他們在調查前 4 週內沒有積極尋找工作,或無法接受工作。 在希望就業但未加入勞動力隊伍的人數中,6 月處於邊緣就業狀態的人數增加了 23.4 萬人,達到 180 萬人。這些人希望工作,並且能夠工作,在過去 12 個月的某個時間點尋找工作,但在調查前 4 週內沒有尋找工作。灰心喪志的工人(邊緣就業人群中的一部分,他們認為沒有工作機會)的人數在 6 月增加了 25.6 萬人,達到 63.7 萬人。 機構調查數據 6月份非農業就業總人數增加了 14.7 萬個,與過去 12 個月平均每月增加 14.6 萬個的水平持平。6月份,州政府和醫療保健領域的就業機會增加。聯邦政府的就業機會持續減少。 6月政府就業機會增加了 7.3 萬個。州政府就業機會增加了4.7萬個,主要集中在教育領域(增加了4萬個)。地方政府教育領域的就業機會持續增加(增加了2.3萬個)。聯邦政府就業機會持續減少(減少了7千個),自1月...

DeepSeek-V3.1 發布,邁向 AI Agent

DeepSeek-V3.1 在 DeepSeek-V3.1-Base 的基礎上進行後訓練,後者基於原始 V3 基礎檢查點,通過兩階段長上下文擴展方法構建,遵循原始 DeepSeek-V3 報告中概述的方法。 DeepSeek 透過收集更多長文件並大幅擴展兩個訓練階段來擴展資料集。32K 擴展階段的標記數量增加了 10 倍,達到 6,300 億個標記,而 128K 擴展階段的標記數量增加了 3.3 倍,達到 2,090 億個標記。此外,DeepSeek-V3.1 使用 UE8M0 FP8 規模資料格式進行訓練,以確保與微尺度資料格式相容。 DeepSeek-V3.1 是一個同時支持思考模式和非思考模式的混合模型。相較於上一版本,本次升級帶來了多個方面的改進: 混合推理:思考與非思考-一個模型,兩種模式 更快的思考:DeepSeek-V3.1-Think 與 DeepSeek-R1-0528 相比,可以在更短的時間內找到答案 更強大的代理商技能:後製訓練可提高工具使用率和多步驟代理任務 DeepSeek-V3.1 模型提升了工具使用、程式碼生成和推理效率,在高難度基準測試中實現了與 DeepSeek-R1 相當的效能,同時響應速度更快。它支援結構化工具呼叫、代碼代理和搜尋代理,適用於研究、編碼和代理工作流程。 工具和代理程式升級 在 SWE / Terminal-Bench 上獲得更好的結果 針對複雜搜尋任務的更強大的多步驟推理 思考效率大幅提升 模型更新 V3.1 基礎:在 V3 基礎上繼續對 840B 個 token 進行預訓練,以進行長上下文擴展 Tokenizer 和聊天範本已更新 - 新的 tokenizer 設定: https://huggingface.co/deepseek-ai/DeepSeek- V3.1/blob/main/tokenizer_config.json V3.1 基礎開源權重: https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base V3.1 開源權重: https://huggingface.co/deepseek-ai/DeepSeek-V3.1 價格變動 新定價開始及非高峰折扣結束時間為 2025 年 9 月 5 日 16:00(UTC 時間) 在此之前,API 遵循當前定價 ...

Multiverse Computing 推出微型高性能 AI 模型

據公司新聞稿稱,Multiverse Computing 表示已經解決了長期困擾人工智慧的一個問題:在不損失效能的情況下縮小模型。 這家總部位於西班牙的公司週四發布了名為 "Model Zoo" 的產品,這是一系列 "奈米模型",據稱這些模型可以在中等硬體上本地運行,同時性能可匹敵甚至超越更大型的系統。 此次發表的產品包括兩款新產品——ChickenBrain 和 SuperFly,旨在證明在人工智慧領域,規模越大並不一定越好。 ChickenBrain 是 Meta 的 Llama 3.1 大型語言模型的精簡版,Multiverse 表示,該模型比通常所需的計算資源小 3700 倍。儘管如此,該模型在 MMLU Pro、MATH500、GSM8K 和 GPQA Diamond 等行業基準測試中仍優於 Llama 3.1 8B。 該公司在 MacBook Pro 和低成本 Raspberry Pi 等日常設備上對其進行了測試,表明它無需專門的雲端基礎設施即可運行。 SuperFly 較小,基於開源的 SmolLM2 135 模型,僅有 9,400 萬個參數。 Multiverse 表示,它足夠小,可以容納兩隻蒼蠅的神經容量,比雞腦小 15000 倍。該模型旨在實現無需互聯網連接即可運行的對話式 AI,因此非常適合嵌入到消費產品和車輛中。 該公司指出,SuperFly 可在智慧家電等領域實現直接應用,無需將資料傳送到雲端即可實現語音控制。這將使洗衣機或冰箱即使在離線狀態下也能回應簡單的語言指令。在汽車領域,它可以為車載助理提供動力,使其在沒有蜂窩信號覆蓋的區域也能繼續運行,處理導航、氣候和音頻任務。 https://theaiinsider.tech/2025/08/15/multiverse-computing-reports-it-shrinks-ai-models-without-sacrificing-power/ Picture Source: Multiverse Computing