三張圖看英偉達GTC:算力越便宜,花得越多
每一代都讓上一代顯得可悲
從 2022 年的 H100 到 2026 年下半年即將量產的 Vera Rubin,英偉達 AI GPU 的 FP8 密集推理算力在四年間翻了 8 倍。據 NVIDIA 官方規格,H100 單卡 2.0 PetaFLOPS,B200 達到 4.0 PF,Vera Rubin 直接跳到 16 PF。
但不是每一代的跳躍都來自同一個地方。據 wccftech 報道,H200 的計算核心和 H100 完全一樣,FP8 算力沒有變化,它的升級全部來自內存帶寬(從 3.35 TB/s 提升到 4.8 TB/s),帶來約 45% 的推理吞吐提升。
真正的架構換代發生在 B200 和 Vera Rubin。Vera Rubin 採用臺積電 3nm 製程,搭載 336B 晶體管的雙 chiplet 設計,FP4 精度下推理算力達到 50 PF。據 Tom’s Hardware 報道,第一臺 Vera Rubin 系統已經在微軟 Azure 上運行。
Jevons 悖論:算力越便宜,花得越多
2023 年 3 月 GPT-4 剛上線時,API 調用成本是每百萬 Token 約 36 美元。據 OpenAI 官方定價歷史,到 2024 年中 GPT-4o 推出時降到約 7 美元,2025 年末實際可用價格已經低於 2 美元。兩年間降幅超過 94%。
按照常理,推理成本跌了這麼多,企業應該花得更少了。但現實完全相反。據各公司財報及 Platformonomics 追蹤數據,Amazon、Alphabet、Meta、Microsoft 四家雲廠商的年度資本開支合計從 2023 年的 1540 億美元漲到 2025 年的 4160 億美元,增幅 170%。其中 Google 單獨從 320 億漲到 915 億(約 2.9 倍),Microsoft 的增幅更大。
這個現象在經濟學裡有個名字,叫 Jevons 悖論。1865 年,英國經濟學家 William Jevons 發現,瓦特改良蒸汽機讓煤炭使用效率大幅提高,但英國的煤炭消耗量不降反升。原因很簡單,效率提升讓蒸汽機變得更划算,於是更多行業開始使用蒸汽機,總需求膨脹到遠超效率節省的部分。
今天 AI 推理的情況一模一樣。API 價格跌到原來的 6%,企業沒有因此省下預算,而是開始把 AI 塞進之前成本上不划算的場景。客服、代碼審查、內容生成、搜索重排序、廣告出價,每一個新場景都在消耗更多的推理算力。需求的膨脹速度遠遠超過成本下降的速度。DeepSeek R1 在 2025 年初把輸入價格壓到每百萬 Token 0.55 美元,進一步加速了這個循環。圖上那兩條反向運動的線,就是同一件事的兩面。
三年 11 倍,且沒有看到天花板
如果 Jevons 悖論有一個最直接的受益者,那就是賣鏟子的人。
據 NVIDIA 財報,數據中心業務年收入從 FY2022(截至 2022 年 1 月)的 106 億美元,漲到 FY2025(截至 2025 年 1 月)的 1152 億美元。三個財年,10.9 倍。這條增速曲線在科技史上幾乎沒有先例。作為對比,iPhone 在 2007 年上市後,蘋果用了大約 6 年時間才實現了類似量級的收入規模增幅。
然後黃仁勳在 GTC 2026 上說:「到 2027 年,我看到的可見訂單至少有 1 萬億美元。事實上,我們的產能會不夠。我確信計算需求會遠超這個數字。」
去年 GTC 他給出的預測是通過 2026 年可見訂單約 5000 億美元。一年之後,數字翻倍,時間窗口只延長了一年。分析師對 FY2026-FY2027 的營收預測區間分別在 1600-2200 億和 2500-4000 億美元之間。而黃仁勳自己說的是,這個數字不是天花板,「計算需求會遠超這個數字」。GTC 結束當天,NVIDIA 股價上漲 4.3%。市場顯然選擇了相信他。
每一代 GPU 都讓上一代顯得可悲,每一輪降價都讓下一輪資本開支顯得理所當然。英偉達正站在這個悖論最甜蜜的位置上。
