DeepSeek、新スパースアテンション技術でAI推論コストを最大60%削減

価格競争：DeepSeek、AIの低価格化に大胆な賭け

DeepSeekは再びAIコストを最大75%削減し、競合他社に戦略の見直しを迫り、高度なテクノロジーへの広範なアクセスを可能にする可能性を切り開いた。

北京 — AIを構築することには、常に苦しいトレードオフが伴ってきた。すなわち、より高い性能はより多くの費用を意味する。しかし、中国のDeepSeekが新たに発表したモデルは、その常識を再び打ち破り、その波紋は業界全体を再構築する可能性を秘めている。

中国の国慶節直前（同社の絶え間ないリリースサイクルを注視しているエンジニアたちの間では、もはやお決まりのジョークとなっているタイミングだ）に、DeepSeekは最新モデル「V3.2-Exp」を発表した。過去のアップグレードとは異なり、このモデルは前モデルを上回る性能を謳っているわけではない。むしろ、同程度の性能をはるかに低いコストで提供するという、異なる賭けに出ている。

その節約は劇的だ。小説一冊分に相当する128,000トークンのコンテキストの場合、システムは現在、入力（キャッシュミス）を100万トークンあたりわずか0.28ドルで処理する（以前は0.56ドル）。キャッシュヒットの場合は100万トークンあたり0.07ドルから0.028ドルへと、驚くべき60%の値下げとなった。通常はるかに高価な出力生成も大幅に下落し、100万トークンあたり2.20ドルからわずか1.68ドルにまで減少した。同社のAPIもこの現実を反映しており、入力コストは半減、出力コストは4分の1に削減された。

あるエンジニアは「これは価格破壊レベルだ」と冗談交じりに語った。他のエンジニアたちは、この動きが競合他社を追い詰め、経済的に太刀打ちできない弱いラボを淘汰する可能性を予測している。

その背後にある巧妙な仕掛け

DeepSeekの新しいシステムの核心には、見かけによらずシンプルなアイデアがある。巨大なドキュメントのすべての単語が、他のすべての単語に注意を払う必要はないというものだ。

期末論文を書く学生を想像してみてほしい。一文を書くたびに教科書全体を読み直さなければならないとしたら、そのプロセスは永遠に終わらないだろう。従来のLLMはまさにそのように動作する。短いテキストには十分効率的だが、今日のアプリケーションが要求する膨大なドキュメントには途方もなくコストがかかるのだ。

DeepSeekの解決策は、「DeepSeek Sparse Attention」と呼ばれる巧妙なショートカットを導入している。「ライトニングインデクサー」が以前のすべてのトークンを素早くスキャンし、その重要度をスコアリングする。そして、モデルはコンテキスト全体を処理する代わりに、最も関連性の高い上位2,048トークンにのみ完全なアテンションを適用する。

その素晴らしさは、このインデクサーがいかに軽量であるかにある。重い指数関数ではなくReLUのようなシンプルな数学的演算を使用し、低精度FP8演算で実行される。その結果、すべてのトークンが処理されるものの、最も有用なものにのみ重い処理が予約される。

「それは、本を最初から最後まで全部読む代わりに、どの章が重要かを図書館員に尋ねるようなものです」と、このアーキテクチャを研究したある研究者は説明する。「図書館員は完璧ではありませんが、膨大な時間を節約するには十分な働きをします」。

この変更により、計算のコストがかかる部分が急カーブではなく直線的に増加するようになる。これにより、これまで費用がかかりすぎると考えられていたタスク、例えばコードベース全体や法律文書、科学論文の分析などが、財政的に現実的なものとなる。

重要なものを見抜くモデルのトレーニング

DeepSeekはこのインデクサーをただ公開したわけではない。彼らは、何が重要かをモデルに教え込んだのだ。

まず、彼らは既存のモデルを固定し、フルアテンションで実行して「ゴールドスタンダード」となる重要度スコアを生成した。インデクサーはそのスコアを模倣することで学習し、実質的に高負荷システムから知恵を借りた。基本的な部分を習得した後になって初めて、DeepSeekはスパースアテンションのセットアップをアクティブ化し、すべてを一緒にトレーニングした。

ある技術スレッドで、あるエンジニアは「このようなものをゼロから簡単に構築することはできない」と書いた。「密なモデルを使ってスパースモデルに『教え込む』方法は驚くほど効果的であり、他の企業もこの戦略を模倣するだろう」。

その性能は同等か？

DeepSeekは、新しいシステムがその性能を維持していると主張している。推論、コーディング、マルチエージェントタスクにおけるベンチマークテストでは、わずかな勝敗の入れ替わりはあるものの、ほぼ同等の結果が示されている。

それでも、懐疑的な見方も残る。ある詳細なレビューアーは、コスト削減を称賛しつつも、顕著なトレードオフを指摘している。多段階推論でのわずかな性能低下、数学的計算の信頼性の低さ、そして難しい問題に対してショートカットに頼って諦める傾向があるというものだ。

そのレビューアーは、「25%の価格で90%の性能」と書いている。「コストが重要ならば、これは素晴らしい取引だ」。

これはより大きな問いを提起する。モデルが多くの分野で人間レベルの性能に近づいている今、次のフロンティアは純粋な性能なのか、それとも効率性なのか？DeepSeekは明らかに後者に賭けている。

公開された議論

この発表はエンジニアたちの間で白熱した議論を巻き起こした。すべてのトークンに対して軽量なスコアリングを行うことさえ、依然としてオーバーヘッドであると主張する者もいる。DeepSeekがなぜ、正確さと効率性を融合させるために、スパースアテンションとフルアテンションをレイヤー間で組み合わせなかったのかと疑問を呈する者もいる。

また、このアプローチが現代のAIインフラ、つまりバッチ処理、GPUの特性、ページドアテンションとどのように連携するのかという実用的な問題もある。DeepSeekは、プロトタイピングコードと高性能CUDAカーネルをオープンソース化することで、その道を平坦にしようと試みた。そしてコミュニティはすでに、ファーウェイのAscend NPUやその他の国産チップ向けにそれを適合させている。この即座のマルチベンダーサポートは、偶然というよりも戦略のように見え、特に中国が外国製AIハードウェアからの独立を目指す中でその傾向は強い。

今のところ、DeepSeekは2025年10月15日まで両方のバージョンを稼働させており、開発者が自らA/Bテストを行う機会を提供している。

より広い視点

この発表は、孤立した状況で行われているわけではない。西側諸国の輸出規制が最高級AIチップへのアクセスを阻害している中で、中国企業は手持ちのリソースからより多くの性能を引き出す必要がある。DeepSeekのモデルは、巧妙なアルゴリズムがハードウェアの劣位を部分的に相殺できることを証明している。

ビジネスにとって、この変化は非常に大きい。広範な会話を記憶する必要があるAIアシスタント、リポジトリ全体を読み込む必要があるコードヘルパー、長大なレポートを分析するドキュメントアナライザーなど、これらすべてが突然、大規模に手頃な価格で利用可能になる。

「エージェントの時代には、さらなるスピードが必要だ」と、ある開発者が状況を要約してコメントした。低コスト化は新たな可能性を解き放つが、同時にテクノロジーがまだどれほどの進化を遂げなければならないかをも示している。

オブザーバーたちはDeepSeekを、堅実で控えめでありながら、真に革新的だと評している。派手さはないものの、常にブレークスルーを提供している。彼らが休暇直前に主要なリリースを行う習慣は、エンジニアたちの間で「リリースごとに休暇を終わらせる」というお決まりのジョークにまでなっている。

今後の展望

32,000から128,000トークンという長いコンテキストを扱う開発者にとって、メッセージは明確だ。今すぐV3.2-Expをテストすべきだ。いくつか荒削りな部分があったとしても、その潜在的な節約効果は無視できないほど大きい。

業界にとって、DeepSeekのこの実験は転換点となるかもしれない。もしスパースアテンションが競争力のあるものと証明されれば、他のラボは難しい選択を迫られるだろう。この手法を受け入れるか、あるいは価格を大幅に引き下げるかだ。いずれにせよ、推論コストは固定されているという前提は打ち破られた。

そして、より広い世界にとって、より賢いモデルと同じくらい、より安価な推論が重要になるかもしれない。中小企業や個人開発者がついに大規模な構築を手頃な価格で行えるようになれば、イノベーションのペースは予想外の方向に加速する可能性がある。

投資助言ではありません