Anthropic 團隊發布新一代的旗艦模型 Claude Opus 4.6,這是一款面向開發者和專業人員的 AI 模型,它規劃更周密,能夠更長時間地執行代理任務,在大規模程式碼庫中運行更可靠,並且擁有更強大的程式碼審查和調試能力,可以更有效地發現自身錯誤,在下列場景如執行財務分析、進行研究以及使用和建立文件、電子表格和簡報等更能提升效率。 Claude Opus 4.6 模型在多項評估中均表現出色,例如: 它在智能體編碼評估 Terminal-Bench 2.0 中取得了最高分,並在“人類最後的考試”(一項複雜的多學科推理測試)中領先於所有其他前沿模型。 在 GDPval-AA(一項評估金融、法律和其他領域中具有經濟價值的知識工作任務表現的評估)中,Opus 4.6 的表現比業內次優模型(OpenAI 的 GPT-5.2)高出約 144 個 Elo 分數,比其前身(Claude Opus 4.5)高出 190 分。 Opus 4.6 在 BrowseComp 測試中也優於其他任何模型,該測試旨在衡量模型在線上尋找難尋資訊的能力。 Opus 4.6 的整體安全性也與業內任何其他前沿模型一樣出色,甚至更勝一籌,在各項安全評估中,其異常行為發生率極低。 在 API 方面,Claude 可以利用壓縮技術來概括自身上下文,從而執行耗時更長的任務而不會觸及效能限制。 Claude Opus 4.6 現已在 claude.ai 以及所有主流雲端平台上線。 https://kopyai.com/zh-tw/latest/view/type.news/0/61 Picture Source 9to5mac.com