現在パブリックプレビュー中の Serverless RL は、開発者が LLM をポストトレーニングして新しい振る舞いを学習させ、マルチターンのエージェントタスクを実行する際の信頼性、速度、コストを向上させるのに役立ちます。W&B はトレーニング用の インフラストラクチャー(CoreWeave 上)をプロビジョニングしつつ、環境 のセットアップには完全な柔軟性を提供します。Serverless RL を使用すると、数十台の GPU に弾力的にオートスケールする管理されたトレーニング クラスター に即座に アクセス できます。RL の ワークフロー を推論フェーズとトレーニングフェーズに分割し、ジョブ間でそれらを多重化することで、Serverless RL は GPU の利用率を高め、トレーニング 時間とコストを削減します。 Serverless RL は、以下のようなタスクに最適です:Documentation Index
Fetch the complete documentation index at: https://wb-21fd5541-weave-caching.mintlify.app/llms.txt
Use this file to discover all available pages before exploring further.
- ボイスエージェント
- 高度なリサーチアシスタント
- オンプレミス モデル
- コンテンツマーケティングの 分析 エージェント
なぜ Serverless RL なのか?
強化学習 (RL) は、自身で所有または直接レンタルしている GPU を含む、多くの種類のトレーニング設定で使用できる強力なトレーニング手法のセットです。Serverless RL は、RL ポストトレーニングにおいて以下の利点を提供します:- トレーニングコストの削減: 共有 インフラストラクチャー を多くの ユーザー 間で多重化し、各ジョブのセットアップ プロセス をスキップし、アクティブにトレーニングしていないときは GPU コストを 0 までスケールダウンすることで、Serverless RL はトレーニングコストを大幅に削減します。
- トレーニング時間の短縮: 推論リクエストを多くの GPU に分散させ、必要なときに即座にトレーニング インフラストラクチャー をプロビジョニングすることで、Serverless RL はトレーニングジョブをスピードアップし、より迅速な反復を可能にします。
- 自動デプロイメント: Serverless RL はトレーニングするすべての チェックポイント を自動的に デプロイ するため、ホスティング インフラストラクチャー を手動でセットアップする必要がありません。トレーニングされた モデル は、ローカル、ステージング、または プロダクション 環境 ですぐに アクセス してテストできます。
Serverless RL が W&B サービスをどのように使用するか
Serverless RL は、以下の W&B コンポーネントを組み合わせて動作します:- Inference: モデル の実行
- Models: LoRA アダプターのトレーニング中のパフォーマンス メトリクス の追跡
- Artifacts: LoRA アダプターの保存と バージョン 管理
- Weave (任意): トレーニングループの各ステップで モデル がどのように応答するかを可視化(オブザーバビリティ)