跳到主要內容

發表文章

目前顯示的是 3月, 2025的文章

亞馬遜的 Alexa 基金正在支持人工智慧新創公司

亞馬遜於 2015 年成立了 Alexa 基金,以支援早期語音新創公司。隨著大型語言模型的出現以及亞馬遜推出由 Gen AI 驅動的 Alexa + 以及一系列多模式 AI 模型,該基金現在希望擴大其範圍並向 AI 新創公司投入更多資金。 在亞馬遜與 TechCrunch 分享的一篇部落格文章中,Alexa Fund 負責人 Paul Bernard 解釋說,該公司現在希望投資包括人工智慧硬體和智慧代理在內的領域。 伯納德表示:“雖然多年來 Alexa 基金的使命已經不再局限於最初專注於語音技術,但人工智慧的快速發展為我們帶來了一個轉折點,讓基金能夠擁抱新技術,同時仍然履行其最初的使命。” 「因此,該基金一直在投資那些推動人工智慧硬體、生成媒體、智慧代理、新興人工智慧架構等領域發展的新創公司。為了深入了解這一不斷發展的投資策略,我們與 Alexa 基金的主管 Paul Bernard 進行了會面,向他詢問了該基金的新使命及其最近的投資。” 該基金已投資了四家從事不同領域的新創公司: NinjaTech AI:這是一家一體化人工智慧公司,其聊天機器人可以生成程式碼、圖像和視頻,進行深入研究並為您安排會議。就像 Quora 的 Poe 等 AI 助理平台一樣,NinjaTech AI 可以存取 OpenAI、Meta、Anthropic、Google 和 DeepSeek 的模型。亞馬遜表示,該公司在 AWS 上運行其基礎設施。 Hedra: Hedra 是一家 AI 媒體公司,允許用戶透過其工作室產生圖像、音訊和視訊。該公司最近推出了用於各種形式的內容創作的Character-3 AI。去年,該公司從 a16z Games Speedrun、Abstract 和 Index Ventures 籌集了 1,000 萬美元。 Ario:Ario 是一款人工智慧家庭管理應用程序,用於處理日程安排和任務。該公司創建了一個學校電子郵件解碼器,透過學校通訊來創建事件和行動項目。伯納德說,這款應用程式給他留下了深刻的印象,因為它了解任務背後的個人背景。值得注意的是,Hearth Display和Maple等新創公司也致力於解決家庭日程管理問題。 HeyBoss:在網路上很難逃避「氛圍編碼」這個短語,特別是如果你關注科技的話。 HeyBoss 是同一類別的新創公司,它允許您透過描述來...

Google 發布最聰明的 AI 模型 Gemini 2.5!

今天,我們推出最聰明的 AI 模型 Gemini 2.5。我們的第一個 2.5 版本是 2.5 Pro 的實驗版本,它在廣泛的基準測試中都處於領先地位,並且在LMArena上以顯著優勢排名第一。 Gemini 2.5 模型是思考模型,能夠在做出反應之前透過自己的想法進行推理,從而提高性能和準確性。 在人工智慧領域,系統的「推理」能力不僅僅指分類和預測。它指的是分析資訊、得出合乎邏輯的結論、結合背景和細微差別並做出明智決策的能力。 長期以來,我們一直在探索透過強化學習、思路鏈提示等技術,讓人工智慧變得更聰明、更推理能力。在此基礎上,我們最近推出了我們的第一個思維模型,Gemini 2.0 Flash Thinking。 現在,借助 Gemini 2.5,我們透過結合顯著增強的基礎模型和改進的後期訓練,實現了全新的性能水準。展望未來,我們將把這些思考能力直接融入我們的所有模型中,以便它們能夠處理更複雜的問題,並支援更強大、更具情境感知能力的代理。 Gemini 2.5 Pro 簡介 Gemini 2.5 Pro Experimental 是我們用來執行複雜任務的最先進的模型。它在LMArena排行榜(衡量人類偏好)上以顯著優勢名列前茅,表明該模型性能強大,且具有高品質的風格。 2.5 Pro也表現出強大的推理和編碼能力,在常見的編碼、數學和科學基準測試中處於領先地位。 Gemini 2.5 Pro 現已在Google AI Studio和Gemini 應用程式中針對 Gemini Advanced 用戶推出,並且即將在Vertex AI中推出。我們還將在未來幾週內推出定價,讓人們能夠使用具有更高速率限制的 2.5 Pro 進行規模生產使用。 增強推理 Gemini 2.5 Pro 在一系列需要高階推理的基準測試中都處於領先地位。 2.5 Pro 不使用會增加成本的測試時間技術(如多數投票),在 GPQA 和 AIME 2025 等數學和科學基準測試中處於領先地位。 在「人類的最後考試」中,它在未使用工具的模型中也獲得了 18.8% 的最高分數,這是最先進的成績。 「人類的最後考試」是一個由數百名學科專家設計的資料集,旨在捕捉人類知識和推理的前沿。 進階編碼 我們一直專注於程式設計效能,Gemini 2.5 較 2.0 有了很大的飛躍——未來還會有更多的改進。 2.5 P...

加密貨幣與 SEC 的長期鬥爭隨著 Ripple 的勝利而結束

美國證券交易委員會多年來針對加密貨幣產業的討伐似乎已經結束。 最終篇章於週三落下帷幕,當時 Ripple宣布美國證券交易委員會 (SEC) 已正式撤銷針對該公司長達四年的訴訟。該訴訟是在傑伊·克萊頓 (Jay Clayton) 擔任美國證券交易委員會 (SEC) 主席的最後一天提起的,指控 Ripple 通過出售其 XRP 代幣籌集了 13 億美元, 但並未將其註冊為證券。 加密貨幣公司和交易所 Coinbase、Kraken、羅賓漢、幣安和 OpenSea 先前均遭遇過訴訟或調查被撤銷、解決或擱置。 Ripple 目前正在慶祝勝利。 Ripple 首席法律官 Stuart Alderoty 在透過電子郵件向 CNBC 表示:“Ripple 是唯一一家奮起反擊並在關鍵法律問題上取得勝利的公司,這給美國證券交易委員會通過執法摧毀美國加密貨幣的計劃造成了重大阻礙。” 「SEC 現在已經放棄了對我們案件的上訴。諷刺的是,Ripple 是他們提起的第一起重大案件,而現在將是他們放棄的最後一起案件。” XRP 於 2012 年創建,是首批非比特幣加密貨幣之一。它由 Ripple 公司創始人創立,並成為該平台的本土貨幣。與比特幣一樣,XRP 可以由散戶投資者購買和出售。XRP 在周三宣布這一消息後,該股上漲了約 11%。 Ripple 斥資 1.5 億美元與政府展開激烈的法律對峙,對手是前美國證券交易委員會主席 Gary Gensler,而後者對加密貨幣的態度被廣泛視為敵對的。  2023 年 7 月,一名聯邦法官裁定 XRP  “從表面上看不一定是一種證券”, 這削弱了 SEC 案件的基礎。 https://kopyai.com/zh-tw/markets/view/type.stock.us/0/44 Picture Source: pixabay

1X 將於 2025 年在數百個家庭中測試人形機器人

  根據該公司執行長 Bernt Børnich 介紹,挪威機器人新創公司 1X 計劃在 2025 年底前在「幾百到幾千個」家庭中開始對其人形機器人 Neo Gamma 進行早期測試。 「Neo Gamma 今年將進入家庭,」Børnich 在 Nvidia GTC 2025 的一次採訪中告訴 TechCrunch。 最近幾個月,家用人形機器人的炒作似乎達到了新的高度。 Figure 是 1X 的競爭對手,總部位於灣區,在社群媒體上活躍。數週後,彭博社報道稱,Figure 正在洽談以令人瞠目結舌的 400 億美元估值籌集 15 億美元資金。據報道,1X 投資者 OpenAI 也正在探索打造自己的人形機器人。 但將重金屬機器人放入人們的家中則會增加這個新興產業的風險。這與自動駕駛汽車新創公司將其機器人計程車投入道路並無不同。它可以迅速地轉向南。 然而,Børnich 非常坦誠地承認 Neo Gamma 距離商業規模化和自主化還有很長的路要走。 雖然 Neo Gamma 使用人工智慧來行走和保持平衡,但該機器人目前還無法完全實現自主移動。為了實現家庭測試,Børnich 表示 1X 正在透過依靠遠端操作員(遠端位置的人類可以即時查看 Neo Gamma 的攝影機和感測器並控制它的肢體)來「引導整個過程」。 這些家庭測試將允許 1X 收集有關 Neo Gamma 在家中如何運作的數據。早期採用者將協助創建一個大型、有價值的資料集,1X 可以使用該資料集訓練內部 AI 模型並升級 Neo Gamma 的功能。 https://kopyai.com/zh-tw/latest/view/type.news/0/23 Picture Source: 1x.tech

OpenAI 的新語音 AI 模型 gpt-4o-transcribe 可讓您在幾秒鐘內將語音新增至現有文字應用

OpenAI 的語音 AI 模型之前曾給演員斯嘉麗約翰遜帶來麻煩,但這並沒有阻止該公司繼續推進其在這一類別的產品。 今天,ChatGPT 製造商推出了三種新的專有語音模型:gpt-4o-transcribe、gpt-4o-mini-transcribe 和 gpt-4o-mini-tts。這些模型最初將透過 ChatGPT 製造商的應用程式介面 (API) 提供,供第三方軟體開發人員建立自己的應用程式。它們也將在自訂演示網站 OpenAI.fm上提供,個人用戶可以訪問該網站進行有限的測試和娛樂。 此外,可以透過文字提示從幾個預設中自訂 GPT-4O-MINI-TTS 模型聲音,以改變其口音、音調、聲調和其他聲音特質——包括傳達用戶要求的任何情緒,這在很大程度上解決了 OpenAI 故意模仿任何特定用戶聲音的擔憂(該公司之前否認約翰遜的情況,但無論如何還是取消了表面上模仿的聲音選項)。現在,用戶可以決定他們希望 AI 語音回覆時的聲音效果。 在與 VentureBeat 透過視訊通話進行的演示中,OpenAI 技術人員 Jeff Harris 展示瞭如何僅使用演示網站上的文本,用戶可以讓相同的聲音聽起來像咯咯笑的瘋狂科學家或禪宗、平靜的瑜伽老師。 https://kopyai.com/zh-tw/latest/view/type.news/0/22 Picture Source: pixabay

Google 推出可在單一 GPU 或 TPU 上運行的功能最強大的模型 Gemma 3

Gemma 系列開放式模型是我們致力於讓有用的 AI 技術普及的基礎。上個月,我們慶祝了 Gemma 的一歲生日,這個里程碑標誌著它的採用率達到了驚人的水平——下載量超過 1 億次——並且它還擁有一個充滿活力的社區,創建了超過 60,000 個 Gemma 變體。這個Gemmaverse繼續激勵著我們。 今天,我們推出了 Gemma 3,這是一系列輕量級、最先進的開放模型,採用與 Gemini 2.0 模型相同的研究和技術構建。這些是我們迄今為止最先進、最便攜、最負責任地開發的開放模型。它們旨在直接在手機、筆記型電腦和工作站等設備上快速運行,幫助開發人員在人們需要的任何地方創建人工智慧應用程式。 Gemma 3 有多種尺寸(1B、4B、12B 和 27B),可讓您根據特定硬體和效能需求選擇最佳型號。 開發人員可以使用 Gemma 3 的新功能 採用世界上最好的單加速器模型構建: Gemma 3 以其尺寸提供了最先進的性能,在 LMArena 排行榜上的初步人類偏好評估中超越了 Llama3-405B、DeepSeek-V3 和 o3-mini。這可以幫助您創建可適應單一 GPU 或 TPU 主機的引人入勝的使用者體驗。 使用 140 種語言走向全球:建立使用客戶語言的應用程式。 Gemma 3 為超過 35 種語言提供開箱即用的支持,並為超過 140 種語言提供預訓練支持。 打造具備高階文字與視覺推理能力的AI:輕鬆建構分析圖片、文字、短影片等應用,開啟互動智慧新可能1。 使用擴展的上下文窗口處理複雜任務: Gemma 3 提供 128k 令牌上下文窗口,讓您的應用程式處理和理解大量資訊。 使用函數呼叫建立 AI 驅動的工作流程: Gemma 3 支援函數呼叫和結構化輸出,以協助您自動執行任務並建立代理體驗。 透過量化模型更快實現高效能: Gemma 3 引入了官方量化版本,減少了模型大小和運算要求,同時保持了高精度。 嚴格的安全協議,負責任地建造 Gemma 3 我們相信開放模型需要仔細的風險評估,我們的方法是在創新與安全之間取得平衡——根據模型能力調整測試強度。 Gemma 3 的開發包括廣泛的資料治理、透過微調和強大的基準評估與我們的安全政策保持一致。雖然對功能更強大的模型進行全面測試通常可以為我們對功能較弱的模型的評估提供參考,但 Gemma 3 增強的 S...

阿里巴巴發表旗艦人工智慧超級助理應用程式 Quark

阿里巴巴發布了新版Quark應用程序,這是一個基於阿里巴巴Qwen高級推理模型的綜合人工智慧助理。 Quark 是阿里巴巴通用用戶業務中第一個充分利用其專有基礎模型的產品,這是阿里巴巴人工智慧策略將人工智慧融入其業務的重要里程碑。 透過 Qwen 的推理能力,改良後的 Quark 可在簡單的使用者介面中提供 AI 聊天機器人、深度思考、深度研究和任務執行等進階功能。它旨在處理從學術研究到文件起草、圖像生成、演示、醫療診斷、旅行計劃和解決問題等任務。 它允許用戶直接在搜尋引擎內提出複雜的、多部分的問題,並提供有關某個主題的更深入的資訊。與其他主流的AI聊天機器人相比,它擅長提供來自多個在線來源的實時、精確和全面的信息,並在響應中嵌入參考鏈接,以便於驗證和進一步探索。 升級後的Quark重新構想了傳統的搜尋體驗,將其轉變為一體化的AI超級助手,旨在滿足中國超過2億用戶的工作生活需求。 「Quark 的這個升級版本只是一個開始。 「隨著我們的模型能力不斷進化,我們將 Quark 視為通往無限可能的大門,用戶可以使用 AI 探索一切,」Quark 執行長、阿里巴巴集團副總裁吳嘉表示。 阿里巴巴集團在最近的財報中表示,未來三年公司將加大對AI戰略三大核心領域的投入,分別為AI和雲端運算基礎設施、基礎模型和AI原生應用的開發、以及現有業務的AI融合。阿里巴巴集團執行長吳忌寒在公司最近的財報電話會議上表示:“我們相信大型人工智慧模型的整合對提高搜尋、生產力、內容創作和工作效率具有巨大潛力。” Quark 於 2016 年作為阿里巴巴集團孵化的網路瀏覽器推出,現已成為領先的人工智慧資訊服務平台。目前,百度擁有市場上最大的AI搜尋用戶群,在中國擁有超過2億用戶。 透過將 Quark 轉變為直覺的 AI 超級助手,阿里巴巴正在利用其基礎模型進一步增強最終用戶體驗,這是其不斷努力將創新轉化為實用的日常應用的一部分。升級後的 Quark 將從今天啟動的試點開始逐步向所有用戶開放,以確保最佳的用戶體驗。 https://kopyai.com/zh-tw/latest/view/type.news/0/20 Picture Source: Alibaba Group

川普簽署行政命令建立美國戰略比特幣儲備

唐納德·特朗普總統週四簽署了一項行政命令,創建戰略比特幣 Reserve,標誌著美國數位資產政策的重大轉變。 白宮加密貨幣和人工智慧沙皇、矽谷風險投資家戴維·薩克斯(David Sacks)在 X 的一篇文章中寫道,該儲備金的資金將完全來自刑事和民事沒收案件中查獲的比特幣,確保納稅人不承擔任何財務負擔。 據估計,美國政府控制著約 20 萬比特幣,儘管從未進行過全面審計。川普的命令要求對聯邦數位資產持有量進行全面核算,並禁止從儲備中出售比特幣,將其定位為永久的價值儲存手段。 此外,該命令還建立了由財政部管理的美國數位資產儲備庫,用於存放其他被沒收的加密貨幣。 上週末,川普在 Truth Social 上發文稱,除了比特幣,以太幣,瑞波幣,Solana 的 SOL 代幣和 Cardano 的 ADA 幣將成為戰略加密儲備的一部分。 比特幣億萬富翁泰勒·文克萊沃斯寫道:“我對 XRP、SOL 或 ADA 沒有任何意見,但我不認為它們適合作為戰略儲備。” “目前世界上只有一種數位資產符合這個標準,那就是比特幣。” SOL、以太幣和比特幣週四尾盤均下跌約 5%,ADA 則暴跌近 12%。 在宣布這一消息之前,Castle Island Venture 的 Nic Carter 告訴 CNBC,美國承諾只儲備比特幣將「批准比特幣成為一種重要的全球資產,與黃金處於同等地位」。 卡特表示:「美國顯然是世界上最重要的國家,因此他們的批准對比特幣來說確實意義重大。」他指出,除了比特幣之外,包括任何其他數位貨幣都會讓它看起來像另一個投機基金。 https://kopyai.com/zh-tw/markets/view/type.stock.us/0/39 Picture Source: pixabay

Mistral OCR - 世界上最好的文件理解 API

縱觀歷史,資訊抽象和檢索的進步推動了人類的進步。從象形文字到紙莎草紙,從印刷機到數位化,每一次飛躍都使人類知識更易於獲取和操作,從而推動進一步的創新。 今天,我們正處於下一次大飛躍的邊緣——釋放所有數位化訊息的集體智慧。世界上大約 90%的組織資料都以文件形式存儲,為了發揮這一潛力,我們引入了Mistral OCR。 Mistral OCR 是一種光學字元辨識 API,它為文件理解樹立了新的標準。與其他模型不同,Mistral OCR 以前所未有的準確性和認知能力理解文件的每個元素——媒體、文字、表格、方程式。它以圖像和 PDF 作為輸入,並以有序交錯的文字和圖像中提取內容。 因此,Mistral OCR 是與以多模式文件(如幻燈片或複雜的 PDF)作為輸入的 RAG 系統結合使用的理想模型。 我們已將 Mistral OCR 作為 Le Chat 上數百萬用戶的文檔理解預設模型,並以 1000 頁 / $ 的價格發布 API mistral-ocr-latest(透過批量推理,每美元的頁數大約增加一倍)。該 API 現已在我們的開發套件 la Plateforme上提供,並將很快在我們的雲端和推理合作夥伴以及本地提供。 亮點 對複雜文件的最新理解 原生多語言和多模式 頂級基準 同級中速度最快 文件即刻、結構化輸出 對於處理高度敏感或機密資訊的組織,可選擇自行託管 對複雜文件的最新理解 Mistral OCR 擅長理解複雜的文件元素,包括交錯圖像、數學表達式、表格和高級佈局(如 LaTeX 格式)。該模型能夠更深入地理解包含圖表、圖形、方程式和數字的豐富文檔,例如科學論文。 同級中速度最快 Mistral OCR 比同類產品中的大多數型號更輕,但效能卻比同類產品快得多,在單一節點上每分鐘可處理多達 2000 頁。快速處理文件的能力確保即使在高吞吐量環境中也能持續學習和改進。 文件即刻、結構化輸出 Mistral OCR 還引入了使用文件作為提示的功能,從而能夠提供更強大、更精確的指令。此功能允許使用者從文件中提取特定資訊並將其格式化為結構化輸出,例如 JSON。使用者可以將提取的輸出連結到下游函數呼叫和建置代理程式中。請參閱此範例 筆記本。 https://kopyai.com/zh-tw/latest/view/type.news/0/19 Picture Sou...

阿里巴巴正式推出新的推理模型 QwQ-32B

擴展強化學習 (RL) 有可能提高模型效能,超越傳統的預訓練和後訓練方法。最近的研究表明,RL 可以顯著提高模型的推理能力。例如,DeepSeek R1 透過整合冷啟動資料和多階段訓練實現了最先進的效能,實現了深度思考和複雜推理。 我們的研究探討了強化學習(RL)的可擴展性及其對增強大型語言模型智慧的影響。我們很高興推出 QwQ-32B,這是一個具有 320 億個參數的模型,其性能可與 DeepSeek-R1 相媲美,後者擁有 6710 億個參數(其中 370 億個已激活)。這項顯著成果強調了 RL 在應用於基於廣泛的世界知識進行預訓練的穩健基礎模型時的有效性。此外,我們還將與代理相關的功能整合到推理模型中,使其能夠在利用工具的同時進行批判性思考,並根據環境回饋調整其推理。這些進步不僅展示了 RL 的變革潛力,而且為追求通用人工智慧的進一步創新鋪平了道路。 QwQ-32B在 Apache 2.0 許可下在Hugging Face和ModelScope中是開放重量級的,可透過Qwen Chat存取。 表現 QwQ-32B 透過一系列基準進行評估,旨在評估其數學推理、編碼能力和一般解決問題的能力。以下結果重點展示了 QwQ-32B 與其他領先模型(包括 DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini 和原始 DeepSeek-R1)相比的表現。 強化學習 我們從冷啟動檢查點開始,並實施了由基於結果的獎勵驅動的強化學習 (RL) 擴展方法。在初始階段,我們專門針對數學和編碼任務擴展 RL。我們沒有依賴傳統的獎勵模型,而是利用數學問題的準確性驗證器來確保最終解決方案的正確性,並使用程式碼執行伺服器來評估產生的程式碼是否成功通過預先定義的測試案例。隨著訓練的進展,兩個領域的表現都不斷提高。在第一階段之後,我們添加了另一個 RL 階段以實現通用能力。它利用通用獎勵模型和一些基於規則的驗證器的獎勵進行訓練。我們發現,這一階段的 RL 訓練只需少量步驟,就能提高其他一般能力的表現,例如遵循指令、與人類偏好保持一致以及代理性能,而不會導致數學和編碼性能明顯下降。 未來工作 這標誌著 Qwen 在擴展強化學習(RL)以增強推理能力方面邁出了第一步。透過這趟旅程,我們不僅見證了擴展 RL 的巨大...