Anthropic、新モデル「Claude Sonnet 4.5」を発表:高速化・賢さ向上も、コーディング競争では依然2位
新しいLLMは、長期的で複雑なタスクやコーディングサポートで顕著な進歩を見せたものの、最も困難な問題ではGPT-5 Codexに及ばない。
サンフランシスコ — Anthropicは月曜日、最新のAIモデルClaude Sonnet 4.5を発表し、大胆な主張を展開した。同社はこれを「世界最高のコーディングモデル」と称した。しかし、詳しく見てみると、異なる実態が浮かび上がる。確かに、このモデルは以前のバージョンよりも高速で、堅牢性が向上している。だが、独立したテストの結果では、プロの開発者にとって最も重要な主要分野において、OpenAIのGPT-5 Codexにはまだ及ばないことが示されている。
この発表はSonnet 4のリリースからわずか4ヶ月後であり、AI企業がいかに急速に互いを凌駕しようと競争しているかを物語っている。AnthropicとOpenAIは現在、ほぼ四半期ごとに主要なアップデートを発表している。オブザーバーたちは、AnthropicがしばしばOpenAIの発表に合わせるように自社の発表を行うことに気づいている。例えば、AnthropicのOpus 4.1は、8月にGPT-5がリリースされる直前に発表された。
速度だけでなく、耐久性を重視
Anthropicは耐久性に大きく賭けている。同社のテストによると、Sonnet 4.5は複雑なコーディングプロジェクトを30時間以上連続して集中力を保ちながら処理できるという。これは、長時間セッション中にタスクから逸脱しがちだった古いモデルからの大きな飛躍だ。
その数字がそれを裏付けている。実世界のソフトウェアエンジニアリング性能を測定するベンチマークであるSWE-bench Verifiedでは、Sonnet 4.5はこれまでのAnthropicモデルの中で最高スコアを記録した。AIが完全なコンピューターシステムをどれだけうまく扱えるかをテストするOSWorldでは、6月の42.2%から現在61.4%に上昇した。
実際に、これはモデルが単にコードを書くだけでなく、より多くのことができるようになったことを意味する。AnthropicのChrome拡張機能を使用することで、ウェブブラウザの操作、スプレッドシートへの入力、さらには長いオンラインフォームの完了も可能だ。開発者には、Gitなしで進捗を保存できるClaude Codeのチェックポイント機能、より洗練されたターミナル、そしてVisual Studio Codeの組み込み統合といった新しいツールも提供される。
現実の評価
我々のCTOL.digitalエンジニアリングチームのエンジニアたちは、プルリクエストのレビュー、デバッグ、複数ファイルプロジェクトの処理といった日常業務におけるその速度と信頼性を高く評価した。特にチェックポイント機能は非常に好評だった。
しかし、より困難な課題に取り組ませた途端、蜜月は終わった。複雑なフロントエンド作業で、このモデルはつまずいたのだ。場合によっては、プロジェクトの既存構造や認証設定を無視し、開発者が望まない形でアプリケーションを破壊する可能性もあった。
我々のエンジニアリングチームの一員は、「日常のコーディング作業には非常に優れています」と説明した。「しかし、深い論理パズルや厄介な本番環境のバグに直面したときは、依然としてGPT-5 Codexが第一選択肢です。」
その結論は何か?多くのチームメンバーが、日常的なタスクにはSonnet 4.5を、難しい作業にはGPT-5を使用するという、2つのモデルを併用するシステムを運用していることに気づいている。このアプローチは、Anthropicが差を縮めるまで、コストと生産性のバランスを取ることができるだろう。
エージェントの未来を築く
モデル自体を超えて、Anthropicはより大きなもののための基盤を着実に築いている。同社は、Claude Codeの背後にあるものと同じツールキットであるClaude Agent SDKを発表したばかりだ。これにより、開発者は、長期間実行されるジョブを処理し、権限を管理し、複数のサブエージェント間で連携する自律型エージェントを構築できる。
Anthropicはまた、プレミアムユーザー向けに5日間の「Imagine with Claude」デモを実施している。このデモでは、Sonnet 4.5が、ライブかつ台本なしで、ゼロから実際に動作するソフトウェアを構築する。これは実験として位置づけられているものの、同社がコーディングアシスタントの枠を超え、本格的なAI共同作業者へと移行しようとする野心を示唆している。
価格は据え置きで、入力トークン100万あたり3ドル、出力トークン100万あたり15ドルとなっている。競合他社が料金を大幅に引き下げている中、Claudeはプレミアム層にしっかりと留まっている。
安全性が依然として最優先事項
Anthropicはアラインメントを忘れていない。Sonnet 4.5はこれまでで最も安全なモデルとされており、お世辞、欺瞞、その他の危険な行動の兆候が少ない。また、以前よりもプロンプトインジェクション攻撃に対する耐性が高く、エージェントが実システム内で実行される場合には極めて重要となる。
このモデルはAI安全レベル3の保護機能を搭載しており、兵器開発に関連する危険な入力を検知するフィルターが含まれている。これらのフィルターは時として無害な内容もブロックしてしまうことがあるが、Anthropicは誤検知が以前のバージョンから10分の1に減少したと述べている。
あらゆる方面からの圧力
このリリース後、Anthropicの存続は以前ほど不安定に見えないが、脅威は依然として存在する。最高のコーディングLLMとしての王座はすでに失われており、最も困難な問題は現在、GPT-5 High/Proでしか解決できない。この時点では、Anthropicは価格と日常的な使用事例においてのみ競争できる。しかし、もしGemini 3がコーディング性能でSonnet 4.5を上回り、かつ安価であるならば(パレートフロンティアを維持するならば)、Anthropicは深刻な窮地に陥る可能性がある。なぜなら、これまでの同社モデルの最大の強みは日常的なコーディングタスクにあったからだ。
投資家は注目すべき
投資家にとって、メッセージは明確だ。大規模言語モデルの市場は急速に成熟している。現在、性能向上は漸進的であり、真の差別化要因はまもなく、統合、エコシステムのロックイン、あるいは業界特化型ファインチューニングから生まれる可能性があり、純粋な性能ではないだろう。
一方、開発者たちは特定のベンダー一つに固執する可能性は低い。より賢明な動きは、仕事に応じてモデルを組み合わせることだ。これはモデル開発者の利益を圧迫するかもしれないが、その上にオーケストレーションツールを構築する企業には機会を生み出すだろう。
ファンデーションモデルのみを販売する企業にとって、リスクは最も高い。機能が収束し、顧客が容易に切り替えるようになるにつれて、運用コストが下がるはるか以前に、価格決定力が失われる可能性がある。豊富な資金力とクラウドバンドルを持つハイパースケーラーが、この傾向を加速させるかもしれない。
免責事項: 本記事は現在の状況および市場パターンを反映しています。過去の実績は将来のパフォーマンスを保証するものではありません。読者は投資判断を行う前に独立した財務アドバイスを求めるべきです。
