OpenAIのGPT-4.1が登場、しかしGemini 2.5 Proが大きな影を落とす

OpenAIの新しいモデルファミリー、しかし覇権争いは変わらず

OpenAIが本日、GPT-4.1と、そのMiniおよびNano版を発表しました。これは、巨大な汎用AIから、モジュール式で開発者優先のインフラへと方向転換したことを示しています。大々的な発表はなく、これらのモデルはAPIを通じてのみアクセス可能で、ChatGPTのインターフェースは利用できません。

100万トークンのコンテキストウィンドウ、改善されたコードの差分、そして構造を重視した出力を備えたGPT-4.1は、見せかけよりも精度を重視しています。これは、コストを意識し、遅延を考慮し、企業のワークフローに直接組み込めるように設計された、エンジニア向けのツール群です。

しかし、この発表は素晴らしいものですが、強力なライバル、GoogleのGemini 2.5 Proによって、その輝きは薄れています。

モデル比較：GPT-4.1 vs. Gemini 2.5 Pro

OpenAIが改良を重ねているにもかかわらず、GPT-4.1は、すでにGemini 2.5 Proが優勢な分野に参入します。Gemini 2.5 Proは、2025年4月現在、コード生成、高度な推論、マルチモーダル理解において、現時点で最高のモデルとして広く認識されています。

性能ベンチマーク:

SWE-Bench: GPT-4.1は54.6%という立派な成績を収め、GPT-4oの33%から向上しました。しかし、Gemini 2.5 Proはエージェントツールを使用して**63.8%**を獲得し、依然としてリードを保っています。
難易度の高い推論ベンチマークであるGPQAでは、GPT-4.1はGeminiの最先端の性能に遅れをとっています。
Qodoによる独立評価のコードレビュータスクでは、GPT-4.1はAnthropicのClaude 3.7 Sonnetをわずかに上回りました（54.9%対45.1%）。しかし、GeminiのSTEM分野および現実世界の問題解決における幅広い性能には及ばない結果となりました。

コンテキストウィンドウの同等性:

どちらのモデルも、100万トークンのコンテキストウィンドウをサポートしています。しかし、このような極端な条件下での性能は重要です。

GPT-4.1では、精度が低下します（例：MRCRは80%から50%に低下、Graphwalksは19%に低下）。
Geminiの性能も完璧ではありませんが、特にデータセットやドキュメントの分析タスクにおいて、より緩やかな性能低下が報告されています。

価格に関する現実:

OpenAIはここで決定的な勝利を収めたいと考えていましたが、Geminiが優位性を打ち消しています:

指標	GPT-4.1	Gemini 2.5 Pro
入力	2.00ドル	1.25ドル
出力	8.00ドル	10.00ドル

実際には、これはGeminiが小規模な入力コストでOpenAIを下回り、高コンテキスト長ではわずかに上回ることを意味します。多くのワークフロー、特に推論やSTEM分野のアプリケーションでは、Geminiの品質対コスト比が依然として高いです。

「GPT-4.1の価格設定は画期的に見えましたが、Geminiと比較するとそうではありませんでした」と、あるドキュメントAI企業の創業者は述べています。「APIの価格がほぼ同じで、トップエンドの推論が優れているため、Geminiがデフォルトの選択肢のように感じます。」

開発者向け戦略：華麗さではなく、精度

OpenAIは、ベンチマークでトップではないことを認識しています。GPT-4.1は、ランキングにこだわる人を驚かせるために構築されていません。代わりに、構造化された生成、信頼性の高いフォーマット、および差分ベースのコーディングに重点を置いています。これらは、プロの開発者にとって非常に重要な機能です。

「4.1は驚くほどではありませんが、時間を節約できます」と、ある技術責任者は要約しています。「ソフトウェアを出荷する場合は、デモよりもその方が価値があります。」

早期アクセスユーザーの間では：

Blue Jは、複雑な税務分析タスクで**53%**の改善が見られました。
Carlyleは、長い金融テキストからのデータ抽出で**50%**の改善が見られました。
Hexは、SQLの成功率が2倍になったと報告しました。
Thomson Reutersは、ドキュメント解析の精度が**17%**向上したことを確認しました。

これらの現実世界の改善には注意点があります。それらは厳選されたエンタープライズ統合に由来し、多くの場合、OpenAIと共同で開発されています。より広範な結果は異なる場合があります。

それでも、クリーンなコード、少ないハルシネーション、そして持続する記憶を求める開発者にとって、GPT-4.1はよりスムーズな体験を提供します。

MiniとNano：価格削減が実際に重要な場所

フラッグシップモデルのGPT-4.1がベンチマークの戦いに苦戦する一方で、MiniとNano版は異なるストーリーを語っています。

GPT-4.1 Mini: GPT-4oよりも83%安価で、2倍高速で、ほとんどの日常的な開発作業に十分な性能を備えています。
GPT-4.1 Nano: 100万入力トークンあたり0.10ドルで、オートコンプリート、タグ付け、および分類タスクの大規模処理に最適化されています。

これは、OpenAIの価格設定が真に輝く場所です。1時間あたり数百万のマイクロタスクを実行する企業にとって、MiniおよびNano版は、プロバイダーを切り替えることなく、推論コストを大幅に削減できます。

「分類スタックの70%をNanoに移行しました。この価格では、他に匹敵するものはありません」と、あるML Opsディレクターは述べています。

長いコンテキスト：決して使い切れないほどの力

100万トークンのコンテキストウィンドウは技術的には素晴らしいですが、運用上の制約があります。

はい、コードベース全体をドロップできます。はい、モデルは「干し草の中の針」テストに合格します。しかし、大規模では：

推論速度が大幅に低下します（1行を見つけるのに1分以上かかる）。
精度は40万トークンを超えると急激に低下します。
MRCRおよびGraphwalksベンチマークは、ロジックが破綻し始める場所を強調しています。

「まるでUSB 2.0インターフェースを備えた12TB SSDを持っているようなものです」と、あるAI研究者は述べています。「帯域幅が足りません。まだ。」

対照的に、Geminiは、特にドキュメント理解および科学的推論において、より安定した長期コンテキスト動作を管理しているようです。

位置づけの変動：OpenAIが4.1で得るものとリスク

GPT-4.1により、OpenAIは開発者エコシステムとの深い統合を再確認します。その強みは次のとおりです。

フロントエンドに焦点を当てたコーディング（安定したReact、HTML）。
コードの再生成ではなく、差分対応のパッチ適用。
特にScaleのMultiChallengeベンチマークにおける命令の精度。

しかし、現実的な逆風にも直面しています。

ChatGPTへの直接アクセスがないため、広範なフィードバックループが制限されます。
名前の混乱。GPT-4.5 Previewは、2025年7月14日に廃止される予定です。
科学研究などの主要な分野における明確なリードがない。GeminiとClaudeは、より優れたエンドツーエンドのタスク完了を示しています。

戦略的な進歩、市場の破壊ではない

GPT-4.1は、OpenAIのモデルスタックの強力で開発者重視の進化です。安定性、遅延、および構造化された推論において、意味のある改善をもたらします。しかし、そのローンチは異なるAI環境で行われます。Gemini 2.5 Proによる価格の同等性および優れたベンチマークにより、決定的なストーリーを否定されています。

すでにOpenAIのAPIユニバースに組み込まれているパワーユーザーおよびエンジニアリングチームにとって、4.1は歓迎されるアップグレードです。新規採用者にとって、計算はそれほど明白ではありません。

「エコシステムとフォーマットを重視するなら、GPT-4.1は安全な賭けです」と、AI開発者ツールを構築している開発者は述べています。「しかし、生の推論を重視するなら？ Geminiが勝つでしょう。今は。」

AIの軍拡競争が、コンテキストを認識したエージェント、マルチモーダルオーケストレーション、および長文の自律性へと進むにつれて、OpenAIの次のモデルは、微調整以上のものを必要とする可能性があります。それは、理論的な転換が必要かもしれません。

それまでは、GPT-4.1は見出しではなく、生産パイプラインでその居場所を見つけるでしょう。

OpenAIのGPT-4.1が登場、しかしGemini 2.5 Proが大きな影を落とす