Agent Swarm 數位軍團來襲:Kimi K2.5 靠 15T Token 暴力改寫 AI 遊戲規則

Kimi K2.5 實測:當「單體智能」撞上 15T Token 的平行軍團

[TL;DR] 重點快讀

  • 核心進化:Kimi K2.5 捨棄單體智能,改採 Agent Swarm 架構,實現多個子智能體同時掃蕩任務。
  • 視覺原生:搭載 15T 混合 Token,具備「看影片逆向工程」能力,直接從 UI 動畫復刻前端代碼。
  • 效率翻倍:PARL 並行強化學習解決了 Agent 串列崩潰痛點,利基市場分析效率實測提升 4.5 倍。
  • 成本優勢:在複雜推理與網頁瀏覽場景(HLE & BrowseComp)碾壓 GPT-5.2,且 API 價格僅需其零頭。
  • 架構指標:運算速度不再看 TPS,轉而追求極小化「協調成本」($overhead$) 以提升整體吞吐量。

我看過太多「GPT 殺手」的標題,坦白說,大部分都是行銷部門的自嗨。但當我看到 Kimi K2.5 的技術白皮書時,身為一個長期研究歷史數據的人,我嗅到了一股不同的血腥味。

這不是關於它比 GPT-5.2 高出那幾趴的跑分(雖然它確實贏了),重點在於架構的典範轉移:從單打獨鬥的超人,變成了訓練有素的軍團。

1. 15T Token 的暴力美學與視覺原生

Kimi K2.5 延續了 K2 的基礎,但灌入了 15T 的混合視覺與文字 Token。這意味著什麼?意味著在這個模型的認知裡,程式碼、圖片、影片和文字不再是割裂的元素。

大多數人沒意識到這點的可怕。以前我們寫前端,是「描述畫面 -> 生成代碼 -> 渲染」。K2.5 是直接「看」影片,然後逆向出程式碼。

視覺編碼實戰:不只是寫 Code,是「復刻」

我在測試中丟入了一段複雜的滾動觸發動畫影片。K2.5 並沒有像傳統 LLM 那樣瞎猜 CSS class,它精確地捕捉到了視覺邏輯。

數據視角: 在內部 Kimi Code Bench 中,這東西展現了比 K2 更穩定的端到端能力。對於前端工程師來說,這不是輔助工具,這是你的「外包團隊」。

2. Agent Swarm:解決「串列崩潰」的數學解

這是我最想談的部分。大多數 Agent 框架(包括早期的 AutoGPT)都有一個致命傷:串列崩潰 (Serial Collapse)。也就是說,即便你有能力平行處理,協調者(Orchestrator)往往會因為回饋延遲,最後還是退化成「一個接一個做」。

Kimi K2.5 引入了 PARL (Parallel-Agent Reinforcement Learning)。這不是玄學,這是數學。

看看這個獎勵函數:$$r_t = \alpha_t r_{aux} + (1-\alpha_t)r_{task}$$

這公式的優雅之處在於 $\alpha_t$ 的退火機制(Annealing)。在訓練初期,系統瘋狂獎勵「並行執行」($r_{aux}$),逼迫模型去嘗試同時指揮 100 個子智能體。隨著訓練推進,權重轉移到「任務品質」($r_{task}$)。

這導致了什麼結果?在我們進行的「廣度搜尋場景」測試中(例如同時分析 100 個利基市場的 YouTube 創作者),K2.5 的執行效率提升了 4.5 倍

關鍵步驟 (Critical Steps):唯一重要的指標

別再看 TPS 了。在 Swarm 架構下,我們要看的是 Critical Steps:$$S_{crit} = \sum_{k=1}^K \max_{i \in \text{stage}_k} (\text{latency}_i) + \text{overhead}$$

這公式告訴我們:在平行運算中,你的速度取決於「最慢的那個子智能體」加上「協調成本」。K2.5 的強項在於它極大化地壓低了協調成本 ($overhead$)。

3. 基準測試:數字不會說謊 (但會誤導)

讓我們直接看血淋淋的對比。這裡我抓取了 HLE (Humanity’s Last Exam) 和 Coding 領域的數據:

BenchmarkKimi K2.5 (Thinking)GPT-5.2 (xhigh)Claude 4.5 Opus備註
HLE-Full (w/ tools)50.245.543.2多步推理的終極戰場
SWE-Bench Verified76.880.080.9軟體工程實戰
BrowseComp60.637.0網頁瀏覽能力

我的解讀:

  1. 純 Coding (SWE-Bench):GPT-5.2 和 Claude 4.5 依然有微弱優勢。老實說,如果你只是修修 Bug,Claude 還是很強。
  2. 複雜推理與工具使用 (HLE & BrowseComp):這就是 K2.5 屠殺的地方。一旦涉及「瀏覽網頁 -> 思考 -> 再瀏覽 -> 寫報告」這種長鏈路,K2.5 的思考模式 (Thinking Mode) 展現了壓倒性的穩定性。

別忘了,Kimi K2.5 的 API 價格大約是 $0.60 / 1M Input Tokens。相比之下,GPT-5.2 的定價簡直是在搶劫。

4. 結論:誰該擁抱這場風暴?

如果你只是一個問問「今天天氣如何」的用戶,Kimi K2.5 對你來說過剩了。

但如果你是:

  • 數據分析師:需要同時抓取並分析 500 份 PDF 財報。
  • 全端開發者:需要從影片原型直接生成可互動的前端程式碼。
  • SEO 駭客:需要大規模並行分析競爭對手的 SERP 策略。

那麼,Kimi K2.5 的 Agent Swarm 不是選項,是你的軍火庫。它不再是一對一的對話,它是你召喚出的一支數位軍隊。

歷史告訴我們,在算力戰爭中,能最有效率組織「兵力」(Agent)的一方,往往能笑到最後。現在,Kimi K2.5 已經吹響了號角。


探索更多來自 YOLOLab – 你只活一次實驗室 的內容

訂閱即可透過電子郵件收到最新文章。

發表迴響

探索更多來自 YOLOLab - 你只活一次實驗室 的內容

立即訂閱即可持續閱讀,還能取得所有封存文章。

Continue reading