黃仁勳這招很行：GPU訓練、LPU推論，200億美元買來的算力分工學

少年仔，別再執著於「搶GPU」這件事了。當你還在排隊等輝達GPU的時候，黃仁勳已經在GTC 2026大會上把下一個十年的產線規劃都講清楚了。他說：「如果工作負載以高吞吐量為主，100%用Vera Rubin；如果有大量低延遲需求,則可搭配Groq 3 LPU」。這不是什麼願景大話,是實實在在的產品配置邏輯——AI產業正在從「訓練」走向「推論」,算力該怎麼分配,黃仁勳已經幫你Debug好了。

200億美元技術授權：不是收購,是精準布局

2025年底,輝達砸了約200億美元拿到Groq的非獨家技術授權。這家過去主打「LPU挑戰GPU推論效能」的新創公司,現在成了輝達生態系的技術夥伴。你可能會問:「這不就是把競爭對手買下來嗎?」錯了,這是產能與技術的精準配置。

黃仁勳看的很清楚——推論市場即將爆發。ChatGPT、Claude這些生成式AI進入「代理型AI」時代後,系統需要自主思考、頻繁交互,對即時生成Token的需求激增。傳統GPU擅長平行處理龐大數據(訓練),但在低延遲、高吞吐的序列生成(推論)上,LPU架構提供了更具成本效益的選擇。這就像是工廠產線,有些工序要大機台(GPU),有些工序用小機台(LPU)反而良率更高、成本更低。

SRAM架構優勢：捨HBM攻SRAM的良率哲學

Groq 3 LPU的設計邏輯我大概抓到了——內建500MB的SRAM,完全不用昂貴的高頻寬記憶體(HBM),卻能達到150 TB/s的片上記憶體頻寬。這數字是HBM4單顆22 TB/s頻寬的7倍。

你知道這意味著什麼嗎?就像是把整個記憶體製程封裝在晶片內部,減少外部IO的延遲與成本。單一Groq 3 LPX機架系統搭載256顆LPU,專為低延遲推論場景設計。這種「捨HBM、攻SRAM」的設計哲學,不只是技術路線選擇,更是對AI推論成本結構的創新嘗試。根據輝達公布數據,在特定推論任務中,搭配LPU後系統效能可提升達35倍。這不是PPT上的數字,是實際投片出來的良率表現。

三星代工背後：產能分流的務實選擇

最讓市場吵的是,輝達把Groq 3 LPU交給三星代工,一堆人就開始講「台積電失寵」。拜託,這件事的邏輯根本不是這樣。供應鏈內部的人都知道,台積電先進製程與CoWoS產能已經滿載到2027年,你要黃仁勳等到後年才出貨嗎?

LPU的結構相對簡單(無需HBM複雜封裝),輝達為了確保2026年下半年出貨時程,把這批訂單交給三星代工是很合理的產能分流策略。這不是技術轉移,是系統穩定性的考量——當你處理的是全球AI算力需求,單一晶圓廠根本扛不住,多元供應鏈是必然趨勢。

精準分工：訓練用GPU,推論用LPU

黃仁勳在大會上的策略說明很清楚:輝達把「訓練(GPU)」與「推論(LPU)」場景做出明確區隔,根據工作負載特性提供最佳算力配置建議。這就是我一直在講的——不要追求100%的效能,要追求系統穩定且成本可控。

對AI公司來說,未來的數據中心配置不會是單一GPU陣列,而是根據實際需求靈活混搭——GPU負責高價值模型訓練與複雜運算,LPU專攻低延遲、高吞吐的即時推論。這種彈性配置模式,讓企業能更有效控制總體擁有成本(TCO),同時滿足不同AI應用場景的效能需求。當然,機房裡記得放包綠色乖乖,系統穩定才是王道。

這場AI算力重分配的賽局中,輝達透過技術授權整合與產品線分工,再次鞏固了其在AI基礎設施領域的領導地位。少年仔,這才叫真正的Debug思維——把問題拆解、分工處理、確保良率,投片出來會亮才是真的。