サーバーレス RL - Weights & Biases Documentation

現在パブリックプレビュー中の Serverless RL は、開発者が LLM をポストトレーニングして新しい振る舞いを学習させ、マルチターンのエージェントタスクを実行する際の信頼性、速度、コストを向上させるのに役立ちます。W&B はトレーニング用のインフラストラクチャー（CoreWeave 上）をプロビジョニングしつつ、環境のセットアップには完全な柔軟性を提供します。Serverless RL を使用すると、数十台の GPU に弾力的にオートスケールする管理されたトレーニングクラスターに即座にアクセスできます。RL のワークフローを推論フェーズとトレーニングフェーズに分割し、ジョブ間でそれらを多重化することで、Serverless RL は GPU の利用率を高め、トレーニング時間とコストを削減します。 Serverless RL は、以下のようなタスクに最適です：

ボイスエージェント
高度なリサーチアシスタント
オンプレミスモデル
コンテンツマーケティングの分析エージェント

Serverless RL は Low-Rank Adapters (LoRAs) をトレーニングして、エージェントの特定のタスクにモデルを特化させます。これにより、実務経験を通じて元のモデルの機能を拡張します。トレーニングした LoRA は Artifacts として W&B アカウントに自動的に保存され、ローカルやサードパーティにバックアップとして保存することも可能です。Serverless RL を通じてトレーニングされた Models は、W&B Inference 上でも自動的にホストされます。使い始めるには、ART クイックスタートまたは Colabノートブックをご覧ください。

なぜ Serverless RL なのか？

強化学習 (RL) は、自身で所有または直接レンタルしている GPU を含む、多くの種類のトレーニング設定で使用できる強力なトレーニング手法のセットです。Serverless RL は、RL ポストトレーニングにおいて以下の利点を提供します：

トレーニングコストの削減: 共有インフラストラクチャーを多くのユーザー間で多重化し、各ジョブのセットアッププロセスをスキップし、アクティブにトレーニングしていないときは GPU コストを 0 までスケールダウンすることで、Serverless RL はトレーニングコストを大幅に削減します。
トレーニング時間の短縮: 推論リクエストを多くの GPU に分散させ、必要なときに即座にトレーニングインフラストラクチャーをプロビジョニングすることで、Serverless RL はトレーニングジョブをスピードアップし、より迅速な反復を可能にします。
自動デプロイメント: Serverless RL はトレーニングするすべてのチェックポイントを自動的にデプロイするため、ホスティングインフラストラクチャーを手動でセットアップする必要がありません。トレーニングされたモデルは、ローカル、ステージング、またはプロダクション環境ですぐにアクセスしてテストできます。

Serverless RL が W&B サービスをどのように使用するか

Serverless RL は、以下の W&B コンポーネントを組み合わせて動作します：

Inference: モデルの実行
Models: LoRA アダプターのトレーニング中のパフォーマンスメトリクスの追跡
Artifacts: LoRA アダプターの保存とバージョン管理
Weave (任意): トレーニングループの各ステップでモデルがどのように応答するかを可視化（オブザーバビリティ）

Serverless RL はパブリックプレビュー中です。プレビュー期間中、課金対象となるのは推論の使用と Artifacts のストレージのみです。W&B はプレビュー期間中のアダプターのトレーニングに対しては課金しません。

Serverless RL

API Reference

Documentation Index

​なぜ Serverless RL なのか？

​Serverless RL が W&B サービスをどのように使用するか

なぜ Serverless RL なのか？

Serverless RL が W&B サービスをどのように使用するか