Xiaomi (小米) 正式發表並全面開放 MiDashengLM-7B 多模態大模型程式碼和參數,旨在為其電動車和智慧家居設備提供 AI 驅動,這款專注於音訊理解的 AI 模型在性能和效率上都取得了顯著突破。 一流的性能 在多個關鍵音訊理解任務上表現優於 Qwen2.5-Omni-7B、Kimi-Audio-Instruct-7B 。 高效率 與 Qwen2.5-Omni-7B 相比,在同等批量大小下,吞吐量加快了3.2 倍。 透過進一步增加批次大小,吞吐量提升了 20 倍。我們在 80GB GPU 上測試了大量大小高達 512 的30 秒音訊輸入。基準測試僅支援批次大小為 8。 與 Qwen2.5-Omni-7B 相比,第一個令牌時間 (TTFT) 加速高達4 倍。 基於標題的對齊 使用通用音訊字幕(而不是 ASR 成績單)進行訓練,以實現整體音訊理解。 完全透明 公共源訓練資料和可重複的管道。 Apache License 2.0 適用於研究和商業用途。 MiDashengLM-7B 模型以現有的語音技術為基礎,並採用了阿里巴巴的開放程式碼 Qwen2.5-Omni-7B 作為解碼器訓練的初始化模型。 https://kopyai.com/zh-tw/latest/view/type.news/0/45 Picture Source: unsplash.com