目次
https://blogs.nvidia.co.jp/blog/nvidia-unveils-rubin-cpx-a-new-class-of-gpu-designed-for-massive-context-inference/より引用
従来比7.5倍の性能向上がもたらす経済効果
2025年9月10日、米NVIDIAは新GPU「Rubin CPX」を発表した。従来の「GB300 NVL72」システムに比べて7.5倍のAI性能を誇り、同等の処理をより少ないリソース・短い時間で実行可能にする。AI推論の需要が急拡大する中で、経済性の観点からも大きな注目を集めている。
「Rubin CPX」 従来のPC構造を覆す新アーキテクチャについて
従来のCPU+GPU型PC、GB300 NVL72と比べ、Rubin CPXはどのように異なるのだろうか?「Rubin CPX」は、単なる性能強化ではなく、PCやデータセンターの基本構造そのものを変える存在として注目された。
従来のPCとの違い
一般的なPCやワークステーションは、CPUとGPUが物理的に分かれた「二層構造」を採用。CPUは、アプリやOSの制御を担う中心的存在で、GPU(dGPU)は、PCI Express経由で接続され、映像処理やAI演算を担当。メモリは、CPU用DDRとGPU用GDDRが分かれており、データ転送のたびにオーバーヘッドが発生。汎用性が高い一方、大規模なAI推論や長大なデータ処理ではPCIe帯域不足やメモリ分離による効率低下が課題となっていた。
従来機GB300 NVL72との違い
専用の従来機GB300 NVL72では、72基のBlackwell GPUと36基のGrace CPUを組み合わせた構成で、AIトレーニングから推論まで幅広い用途に対応。各GPUは288GBのHBM3eを搭載し、合計約20TB以上のGPUメモリを提供。全体のメモリ帯域は約576TB/s。NVLinkによるGPU間通信は130TB/sを実現。この構成は、AI学習タスクでは圧倒的な性能を誇ったものの、1Mトークン規模の長大コンテキスト推論においては帯域と効率に制約があった。
Rubin CPX:新たに2種類のGPUを採用した新構成
そこで、今回登場したのが、Rubin CPXを中核とする「Vera Rubin」プラットフォームだ。まず、144基のRubin CPX GPU、144基のRubin GPU、36基のVera CPUを統合したものとなった。各GPUに128GBのGDDR7を搭載し、大容量とコスト効率を両立した。
巨大な統合メモリでは、単一ラックで100TBのメモリを搭載し、CPUとGPUが同じメモリ空間を利用。GPU間通信やCPU-GPU間通信の遅延を大幅に低減。ラック単位の拡張性が大幅に向上。NVLinkが非搭載であるのも特徴的だ。また、Rubin CPX は、従来の AI 向け GPU(例:H100/H200)が HBM3e を使っていたのに対して、安価なGDDR7 を採用した新アーキテクチャとなっている点が注目ポイントだ。今回、なぜGDDR7を採用したのにも関わらず、性能が大幅向上したのか?それは、AIの思考プロセスに原因がある。
AIの思考プロセスとメモリ消費

AIは、人間の「考える」プロセスに似た仕組みで動いている。その中核が、コンテキスト処理と生成処理という二つの段階だ。そして、この二段構えがAIのメモリ消費の特徴を決定づけている。
コンテキスト処理:大量の記憶を一度に読み込む段階
まずは、入力された文章や会話履歴をすべて理解し、内部表現へ変換する処理である。これを「コンテキスト処理」と呼ぶ。過去のやり取りや文書をトークンに分解し、それぞれの意味や関連性をAttention機構で展開、トークン数が増えれば増えるほど、Key-Valueキャッシュと呼ばれる作業メモリが膨張。例えば100万トークン級の入力を扱う場合、数十GBから数百GB単位のメモリが消費されることもある。つまりAIにとって、コンテキスト処理こそが最もメモリを食う瞬間となる。
生成処理:理解をもとに言葉を紡ぐ段階
次が「生成処理」。コンテキスト処理で得られた内部状態を参照しながら、AIがトークンを1つずつ出力。直前までの会話や文脈を参照し、最も適切な次の単語を確率的に選択。新しく膨大なメモリを要求するわけではなく、既に構築したキャッシュを使い回すため、消費量は比較的安定している。出力時間は「生成するトークン数」に比例し、長文になるほど時間がかかるが、メモリ使用量はピーク時ほど増えない。従来は二つの処理を一つのGPUで実施していた。今回は、それをやめ、それぞれのGPUで「分離された推論」で対応することにしたのだ。
「分離された推論」アーキテクチャとは何か?
今回のRubin CPXの特徴が、先ほど分離された推論(Disaggregated Inference)の導入だ。コンテキスト処理フェーズでは、入力文書や動画といった大規模データを解析。Rubin CPXが担当し、高帯域メモリを活かして効率的に処理。生成フェーズでは、生成モデルによる逐次的なトークン生成をRubin GPUが担当。レイテンシの低減と高スループットを両立。
フェーズを分けて最適化することで、ハードウェア効率を最大化している。
https://developer.nvidia.com/blog/nvidia-rubin-cpx-accelerates-inference-performance-and-efficiency-for-1m-token-context-workloads/より引用
HBM4メモリとGDDRメモリの違い
2025年現在、ゲーミングPC向けにはGDDR6/6Xが主流だが、AIやHPC(高性能計算)向けにはHBM(High Bandwidth Memory)が採用されている。そして、次世代のHBM4が登場目前となり、両者の違いが改めて注目されていた。その中でのGDDR7採用だ。
GDDR:大容量とコスト効率
GDDRメモリは、GPU基板上に複数のDRAMチップを横方向に並べて接続する方式で、帯域幅は1TB/s前後(GDDR6Xの場合)容量は24GB〜48GB以上の大容量に対応可能。コスト効率に優れ、ゲーミングGPUやワークステーション用として幅広く普及その一方で、基板面積を多く占有し、消費電力が増加しやすいという課題を抱える。
HBM4:AI/HPC向けの超高帯域メモリ
HBMは、DRAMダイを垂直に積層し、GPUにシリコンインターポーザで直結する方式。最新世代のHBM4では、以下の特長が見込まれている。帯域幅は1.5〜2.0TB/s以上で、容量は1スタックあたり24GB前後、複数スタックで最大192GB級まで搭載可能、帯域あたりの消費電力効率はGDDRを大きく上回る。ただし、製造コストは高く、採用は主にAI加速器やスーパーコンピュータなど高付加価値市場に限定されていた。
最新のGDDR6Xと次世代HBM4を比べると、まず帯域幅に大きな差がある。GDDR6Xはおよそ1TB/s規模にとどまるのに対し、HBM4は1.5〜2.0TB/s以上と、従来比で1.5倍から2倍の帯域を実現する見通しだ。容量面では一見GDDRが優勢で、24GB〜48GB以上を容易に搭載できる。しかしHBM4は1スタックあたり24GBを持ち、複数スタック構成によって96GBから192GB級までスケール可能であり、AIやHPC用途ではむしろ優位性が発揮される。消費電力効率の観点では、GDDRは帯域あたりの電力効率が中程度にとどまるのに対し、HBM4はより少ない電力で高い帯域を確保できる点が大きな特徴だ。

さらにコストを比較すると、GDDRは低〜中価格帯で供給可能なためゲーミングGPUや汎用PC向けに適している。一方HBM4は製造コストが高く、価格的に採用はAI加速器やスーパーコンピュータといった限られた領域に絞られるだろう。結果として、GDDRは大容量かつ低コストで幅広い市場を支える存在であり、HBM4は超高帯域・高効率を武器にAIやHPC分野をけん引する特化型メモリという立ち位置に整理できる。
従来モデルとの比較:経済性の飛躍
Rubin CPXを搭載した「Vera Rubin NVL144 CPX」プラットフォームは、単一ラックで100TBのメモリと1.7PB/秒の帯域幅を提供。処理性能は8エクサフロップスに達する。これを従来のGB300 NVL72と比較すると、性能効率は、同じ演算タスクを実行するのに必要なGPU数やラック数を大幅削減 し、 設備投資コスト(CapEx)の圧縮し、電力効率は、演算性能あたりの消費電力が低下。 運用コスト(OpEx)の削減となる。時間効率は、学習済みモデルを長大コンテキストで直接利用可能 となり、ファインチューニング不要へ。 開発人件費・期間の縮小となる。結果として、従来数十億円規模のシステム投資を必要とした長大コンテキストAIの運用コストを、数分の一に抑えられる可能性がある。
推論コストへのインパクト
AIサービス事業者にとって、最大の関心事は「推論1トークンあたりのコスト」である。Rubin CPXでは、高帯域メモリと最適化アーキテクチャにより、大規模入力を分割せず一括処理可能となる。また、ファインチューニング不要で数百万〜1億トークンを扱えるため、追加計算資源や開発工数が不要になる。この2点から、トークン単価の数分の一化が期待される。これにより、クラウドベースの大規模言語モデル提供においても、従来赤字運営となりがちだった長文推論を商用水準で提供できる見通しだ。
データセンターのTCO削減効果と今後
Rubin CPXの導入は、クラウド事業者や研究機関にとって総所有コスト(TCO)削減の切り札となる。まずは、ラック数削減 により、 設置面積・冷却コストを圧縮。電力効率向上 により、 サステナビリティに貢献、ワークロード集約 となり インフラ投資回収期間を短縮される。アナリストの試算では、従来のシステムで必要だった数百ラック規模の構成を1/5〜1/7程度に圧縮できるケースも想定され、投資回収の観点からも極めて有利となる。
また、2026年末には、X86Socも導入予定のため、既存のX86プラットフォームに対しても同様のプロセスが適用できるようなアプローチを行っている。
以上のことから、Rubin CPXは単なる「性能強化GPU」ではなく、AI推論のコスト構造を根底から変える製品であることは間違いない。従来は技術的には可能でも「コストが見合わない」ため断念されてきた長大コンテキスト処理や生成ビデオといった分野に、商業的な道を開く可能性が高い。NVIDIAが強調する「7.5倍の性能向上」は、単なる数字ではなく、設備投資・運用コスト・開発コストのすべてを圧縮する実利としてIT業界全体に波及するだろう。


