ByteDanceと清華大学の研究者、大規模なLLM強化学習を進めるためにDAPOをオープンソース化

著者
Lang Wang
10 分読み

DAPO:大規模言語モデルのためのオープンソース強化学習

オープンソースの強化学習でLLMの推論能力の壁を打ち破る

より賢い大規模言語モデル(LLM)を構築する競争において、業界は主に強化学習を利用して推論能力を高めてきました。しかし、永続的な課題は透明性の欠如でした。LLMの最先端の強化学習技術は、OpenAIやDeepSeekのような主要なAI企業の独自のシステムに閉じ込められたままです。この秘密主義はイノベーションを阻害するだけでなく、研究者や企業がこれらの進歩を複製したり、それを基に構築したりすることを困難にしています。

新しい研究、**DAPO(Decoupled Clip and Dynamic Sampling Policy Optimization、分離されたクリップと動的サンプリングポリシー最適化)**は、LLM推論のためのスケーラブルな強化学習フレームワークを完全にオープンソース化することで、これを変えることを目指しています。ByteDance Seed、清華大学のAI産業研究研究所、香港大学によって開発されたDAPOは、透明性の高い高性能な強化学習システムを提供し、アルゴリズムだけでなく、トレーニングコードと厳選されたデータセットも公開しています。目標は、LLM推論の強化学習を民主化し、AI研究と産業応用の進歩を加速させることです。

DAPOの主要なイノベーション

DAPOの中心にあるのは、LLMの推論を改善する新しい強化学習アプローチです。このシステムの有効性は、AIME 2024の数学問題データセットでのパフォーマンスを通じて実証されており、Qwen2.5-32Bベースモデルを使用して50ポイントを獲得しています。これは、より少ないトレーニングステップで以前のベンチマークを上回っています。

1. 強化学習システム全体のオープンソース化

ほとんどの独自のモデルとは異なり、DAPOは以下のものを含む、完全にオープンな強化学習トレーニングパイプラインを提供します。

  • DAPOアルゴリズム – GRPO(Generalized Reinforcement Policy Optimization、汎用強化学習ポリシー最適化)に基づく洗練された強化学習手法。
  • トレーニングコード(verlフレームワーク) – LLMをトレーニングするための実用的でスケーラブルな強化学習コード。
  • 厳選されたデータセット – 数学的推論と強化学習トレーニングのために特別に処理されたデータセット。

2. アルゴリズムのイノベーション:4つの主要な技術

DAPOは、LLMの強化学習トレーニングの効率と安定性を向上させる4つの主要な技術的改善を統合しています。

  • Clip-Higher(クリップ上限の引き上げ):従来の強化学習モデルは、極端な値の変動を避けるためにクリッピング技術を使用していますが、これはしばしばエントロピー崩壊を引き起こし、モデルを過度に決定論的にします。DAPOは、下限と上限のクリッピング閾値を分離し、より多様なトークン生成とより良い探索を促します。
  • Dynamic Sampling(動的サンプリング):多くの強化学習トレーニングプロセスは、冗長なプロンプトで計算リソースを浪費します。DAPOは効果のないプロンプト(勾配がゼロのサンプルを生成するもの)をフィルタリングし、各トレーニングバッチが有意義であることを保証し、収束を加速します。
  • Token-Level Policy Gradient Loss(トークンレベルのポリシー勾配損失):DAPOは、応答全体を単一のサンプルとして扱う代わりに、トークンレベルで勾配を割り当て、より長い推論チェーンがより大きな重みを持つようにします。これは、複雑な多段階の問題解決に特に役立ちます。
  • Overlong Reward Shaping(過剰な長さに対する報酬形成):従来のモデルは、長い応答を厳しく罰します。DAPOはこのアプローチを洗練させ、ペナルティを動的にスケーリングして、貴重な情報の突然の損失を防ぎ、より安定したトレーニングにつなげます。

DAPOが既存のモデルを上回る理由

1. 複雑な推論タスクでの高い精度

経験的な結果は、DAPOがAIME 2024で50ポイントを獲得し、DeepSeek-R1-Zero-Qwen-32Bの47点のスコアを上回ることを示しています。以前のモデルとは異なり、DAPOは半分のトレーニングステップでこのパフォーマンスを達成し、有効性と効率の両方を示しています。

2. 強化されたトレーニング効率と安定性

エントロピー崩壊、報酬ノイズ、非効率的なサンプリングという一般的な強化学習の問題に対処することで、DAPOはトレーニングを合理化し、高性能LLMの開発に必要な計算コストを削減します。

3. 完全な再現性とオープンソースの透明性

LLM研究における重要な問題は、検証可能でオープンソースの強化学習手法の欠如です。DAPOは、完全なエンドツーエンドの強化学習トレーニングフレームワークを提供する数少ないシステムの1つであり、学術研究者やAIスタートアップが作業を複製および拡張することを容易にします。

産業とビジネスへの影響

1. AI研究開発の加速

最先端の強化学習トレーニングシステムが利用可能になることで、数学的推論、LLMベースの個別指導、その他の高度な問題解決アプリケーションの研究が劇的に加速される可能性があります。オープンソースのアクセシビリティは参入障壁を低減し、AI開発へのより広範な参加を促進します。

2. LLMビジネスアプリケーションの拡大

自動化されたカスタマーサポートからコーディングアシスタントや財務モデリングまで、AI駆動の推論タスクに焦点を当てている企業は、DAPOの進歩から恩恵を受けることができます。DAPOの技術を統合することで、企業は業界固有の課題に合わせて調整されたより有能で費用対効果の高いAIモデルをトレーニングできます。

3. AIトレーニングコストの削減

効率の向上とトレーニングステップの削減により、DAPOは小規模な企業やスタートアップが大規模な計算費用をかけずに高性能LLMをトレーニングすることを可能にします。これにより、高度な推論AIの商業化が、巨大テクノロジー企業を超えて拡大する可能性があります。

課題と考慮事項

DAPOは画期的な貢献をしていますが、特定の要因に注意する必要があります。

  • ベンチマークの範囲:モデルの有効性は、数学ベースのデータセットであるAIME 2024で検証されています。より広範な適用性を確認するには、他の複雑な推論ベンチマーク(MATH、GSM8Kなど)での追加の評価が必要です。
  • 計算要件:効率が向上したにもかかわらず、強化学習を使用したLLMのトレーニングには、依然としてかなりのGPUリソースが必要です。DAPOは障壁を下げますが、小規模な組織は依然としてインフラストラクチャの課題に直面する可能性があります。
  • 実装の複雑さ:DAPOの高度な技術、特にトークンレベルのポリシー勾配損失と過剰な長さに対する報酬形成は、強化学習の原則に関する深い理解を必要とするため、強化学習に慣れていないチームにとっては導入の課題となる可能性があります。

オープンソースAIのゲームチェンジャー

DAPOは、LLM推論のためのスケーラブルで透明性の高い強化学習における重要な飛躍を表しています。研究チームは、完全で高性能な強化学習システムをオープンソース化することで、学術的な知識を進歩させるだけでなく、企業やスタートアップが独自の洗練されたAIモデルを開発できるように支援しています。

LLMの推論能力を高めようとしている投資家や企業にとって、DAPOはまれな機会を提供します。高度なAIモデルの開発コストと複雑さの両方を削減する、完全にアクセス可能な最先端の強化学習フレームワークです。AIの導入が業界全体で加速するにつれて、DAPOのようなオープンソースのイノベーションは、AI駆動の問題解決の未来を形作る上で重要な役割を果たすでしょう。

あなたも好きかもしれません

この記事は、 ニュース投稿のルールおよびガイドラインに基づき、ユーザーによって投稿されました。カバー写真は説明目的でコンピューターにより生成されたアートであり、事実を示すものではありません。この記事が著作権を侵害していると思われる場合は、 どうぞご遠慮なく弊社まで電子メールでご報告ください。皆様のご協力とご理解に感謝申し上げます。これにより、法令を遵守し、尊重あるコミュニティを維持することが可能となります。

ニュースレターに登録する

最新のエンタープライズビジネスとテクノロジー情報をお届けします。さらに、新しいサービスや提供物をいち早く独占的にチェックできます。

当社のウェブサイトでは、特定の機能を有効にし、より関連性の高い情報を提供し、お客様のウェブサイト上の体験を最適化するために、Cookieを使用しています。詳細については、 プライバシーポリシー および 利用規約 で確認できます。必須情報は 法的通知