跳到主要內容

發表文章

目前顯示的是 8月, 2025的文章

Xiaomi 發布聲音理解大模型 MiDashengLM-7B!

Xiaomi (小米) 正式發表並全面開放 MiDashengLM-7B 多模態大模型程式碼和參數,旨在為其電動車和智慧家居設備提供 AI 驅動,這款專注於音訊理解的 AI 模型在性能和效率上都取得了顯著突破。 一流的性能 在多個關鍵音訊理解任務上表現優於 Qwen2.5-Omni-7B、Kimi-Audio-Instruct-7B 。 高效率 與 Qwen2.5-Omni-7B 相比,在同等批量大小下,吞吐量加快了3.2 倍。 透過進一步增加批次大小,吞吐量提升了 20 倍。我們在 80GB GPU 上測試了大量大小高達 512 的30 秒音訊輸入。基準測試僅支援批次大小為 8。 與 Qwen2.5-Omni-7B 相比,第一個令牌時間 (TTFT) 加速高達4 倍。 基於標題的對齊 使用通用音訊字幕(而不是 ASR 成績單)進行訓練,以實現整體音訊理解。 完全透明 公共源訓練資料和可重複的管道。 Apache License 2.0 適用於研究和商業用途。 MiDashengLM-7B 模型以現有的語音技術為基礎,並採用了阿里巴巴的開放程式碼 Qwen2.5-Omni-7B 作為解碼器訓練的初始化模型。 https://kopyai.com/zh-tw/latest/view/type.news/0/45 Picture Source: unsplash.com

Google 推出虛擬衛星 AI 模型 - AlphaEarth Foundations

Google DeepMind 團隊推出虛擬衛星 AI 模型 - AlphaEarth Foundations,這是一個整合了數 PB 的地球觀測數據,產生統一的數據,徹底改變了全球地圖繪製和監測模式。 衛星每天都會捕捉資訊豐富的影像和測量數據,為科學家和專家提供近乎即時的地球視圖。雖然這些數據影響深遠,但其複雜性、多模態性和高刷新率也帶來了新的挑戰:如何連接不同的數據集並有效地利用它們。 AlphaEarth Foundations 是一個功能類似虛擬衛星的人工智慧 (AI) 模型。它透過將海量地球觀測資料整合成統一的數位表示(或稱為「嵌入」),使電腦系統能夠輕鬆處理,從而準確且有效率地描述地球的整個陸地和沿海水域。這使得該模型能夠為科學家提供更完整、更一致的地球演化圖景,幫助他們在糧食安全、森林砍伐、城市擴張和水資源等關鍵問題上做出更明智的決策。 為了加速研究並解鎖用例,Google 將 AlphaEarth 基金會的年度嵌入資料集作為 Google Earth Engine 中的衛星嵌入資料集發布。在過去的一年裡,Google 與 50 多個組織合作,在其實際應用中測試了該資料集。 Google 的合作夥伴已經看到了顯著的效益,他們利用這些數據來更好地對未測繪的生態系統進行分類,了解農業和環境變化,並大幅提高測繪工作的準確性和速度。 AlphaEarth Foundations 的運作方式 AlphaEarth Foundations 透過解決兩個主要挑戰:資料過載和資訊不一致,為了解我們的星球提供了強大的新視角。 首先,它整合了來自數十個不同公共來源的海量資訊——光學衛星圖像、雷達、3D雷射測繪、氣候模擬等等。它將所有這些資訊整合在一起,以10x10米的清晰網格分析全球陸地和沿海水域,從而能夠以驚人的精度追蹤隨時間推移的變化。 其次,它使這些數據變得切實可行。該系統的關鍵創新在於它能夠為每個方格創建高度緊湊的摘要。與我們測試過的其他人工智慧系統相比,這些摘要所需的儲存空間減少了16倍,並顯著降低了行星級分析的成本。 這項突破使科學家們能夠實現先前不可能實現的成就:按需創建詳細一致的世界地圖。無論是監測農作物健康狀況、追蹤森林砍伐,或是觀察新建築,他們都不再需要依賴單顆衛星。現在,他們擁有了一種全新的地理空間資料基礎。 https://kopyai.com/z...