少年仔,當全世界還在為 H100、Blackwell 瘋狂搶貨時,黃仁勳已經在 2025 年 12 月悄悄出了張王牌——跟 Groq 簽了個非獨佔授權協議。到了 2026 年 GTC 大會,他正式端出整合 Groq 技術的推論解決方案:搭載 Groq 3 LPU 的 Rubin 平台。
根據輝達官方數據,相較於前一代 Blackwell NVL72 系統,Rubin NVL72 搭配 256 基 Groq 3 LPU 的推論吞吐量提升達 35 倍,每兆瓦運算能力的效益大幅躍進。這數字聽起來很唬人對吧?但老陳我看的是另一件事——這次投片出來,會不會真的亮?
SRAM 架構:頻寬暴力輾壓 HBM4,但容量是硬傷
Groq LPU 採用內建 500MB 的 SRAM 架構,記憶體頻寬高達 150 TB/s,是 Rubin GPU 所使用 HBM4(22 TB/s)的約 7 倍。這是什麼概念?就像你開法拉利去買菜——過去用 GPU 做推論,成本高昂且資源利用率不佳。現在 LPU 的出現,終於讓推論任務有了更經濟的專屬選擇。
但為什麼選 SRAM?別跟我談什麼技術理想,這是成本與產能的務實考量。HBM 雖然容量大,但造價極高且高度依賴先進封裝產能。台積電的 CoWoS 產能已被訂單塞爆至 2027 年。Groq LPU 採用的 SRAM 架構相對簡單,製程需求較低。根據業界消息,LPU 可能採用三星 4nm 製程生產,而 Rubin GPU 本身仍由台積電 3nm 製程負責。
這種產品線分工策略,讓輝達能靈活調度不同代工廠的產能,避免將所有產品集中於單一供應鏈。這招我懂——不把雞蛋放在同一個籃子裡,萬一哪個環節出 Bug,至少不會全系統崩潰。
值得注意的是,雖然 SRAM 容量較小(500MB),但其超高頻寬特性在處理低延遲推論場景時具備顯著優勢,特別適合需要快速 Token 生成的應用。根據官方測試,在 Llama 2 70B 模型上,Groq LPU 可達到 241 至 750 tokens/秒的生成速度,視具體配置而定。
產品定位很清楚:GPU 訓練、LPU 推論,各司其職
輝達在發表中明確了產品定位:訓練任務仍以 GPU 為主,推論任務則可選擇整合 LPU 的方案。這套分工策略展現了輝達對市場需求的精準掌握。畢竟,隨著 AI 進入「代理型 AI(Agentic AI)」時代,AI 系統需要自主思考、頻繁交互並生成海量 Token,推論需求已經超越訓練,成為新的算力消耗重點。
根據輝達的產品規劃,Rubin 平台將同時提供純 GPU 配置與 GPU+LPU 混合配置,客戶可依據工作負載特性選擇最適合的方案。這種彈性化的產品組合,讓數據中心能針對不同 AI 任務優化成本與效能。
老陳我的看法是:這不是什麼偉大的願景,這是務實的系統設計。就像你不會用 Xeon 去跑遊戲,也不會用遊戲卡去跑資料庫。專業的事交給專業的硬體,良率才穩得住。
代工廠選擇:三星能不能扛住?這是最大的 Bug
雖然 LPU 預計 2026 年下半年出貨,但 PTT 與 Dcard 科技板出現不少討論:「如果真的交給三星代工,良率能否穩定?會不會重演過熱降頻的問題?」這種對非台積電代工的疑慮,確實是市場觀望的因素之一。
講真的,這是個值得放顆綠色乖乖的環節。雖然 LPU 的架構設計相對 GPU 簡單,不需要複雜的 HBM 封裝,理論上製程難度會較低。但實際封裝出來會不會亮?良率穩不穩?這些都要等產品正式上市後才知道。
不過,輝達既然選擇與 Groq 合作並推動量產,顯然對製程可行性有一定評估。老陳我的經驗是——黃仁勳這種等級的玩家,不會拿自己的招牌開玩笑。他敢投片,就代表 Debug 階段應該有過了。
授權合作而非收購:新創與巨頭的新玩法
值得玩味的是,Groq 原本是主打高效能推論晶片的 AI 新創公司,最終在 2025 年 12 月選擇與輝達達成非獨佔授權協議,而非被收購。這意味著 Groq 仍保有獨立營運能力,同時授權技術給輝達整合進其產品線。
這種合作模式展現了 AI 晶片產業的新趨勢:新創公司不一定要「打敗」巨頭,而是可以選擇技術授權、生態系整合等多元化路徑。輝達成功將 Groq 技術納入 Rubin 平台,進一步鞏固其在 AI 基礎設施領域的領導地位。
老陳我的解讀是:這不是誰吃掉誰的問題,這是系統整合的邏輯。Groq 有好的推論架構,輝達有完整的生態系與市場通路,兩者整合起來,良率會比各自單打獨鬥高得多。
當市場還在討論「台積電會不會失寵」時,輝達已經透過產品線分工與供應鏈多元化,悄悄改寫了 AI 推論的遊戲規則。這場技術革命,才剛剛開始。至於最後會不會成功?讓我們靜待 2026 年下半年的投片結果。記得到時候數據中心裡多放幾包綠色乖乖,系統穩定比什麼都重要。