Delta Learning: 選好調整の新手法

Delta Learning は、Preference tuning(選好調整)における新しいアプローチである。本手法は、SFT(Supervised Fine-Tuning)モデルと Base モデルの「差分」を活用することで、高品質な contrastive data を生成し、DPO(Direct Preference Optimization)の効果を最大化する。

基本原理

Delta Learning の核心は、モデル間の能力差を明示的に捉えることにある。

+------------------------------------------------------------------+
|                      Delta Learning Concept                      |
+------------------------------------------------------------------+
|                                                                  |
|  Base Model    -->  Limited reasoning capability                |
|  SFT Model     -->  Enhanced reasoning capability                |
|  Delta         -->  The "learned" reasoning ability              |
|                                                                  |
|  Goal: Amplify the delta through preference optimization        |
+------------------------------------------------------------------+

モデル間の差分

SFT モデルは、Base モデルに対して以下の能力を獲得している。

  • より構造化された推論プロセス
  • 段階的な問題解決アプローチ
  • タスク固有の知識の適用

Delta Learning は、この「獲得された能力」を優先応答(Preferred response)の生成に活用する。

Dolci Think DPO での適用

Dolci Think では、Delta Learning を用いて推論能力の向上を図る(Section 4.3)。

合成データの生成

+------------------------------------------------------------------+
|                  Dolci Think Data Generation                     |
+------------------------------------------------------------------+
|                                                                  |
|  Step 1: Sample question from training set                      |
|  Step 2: Generate response using SFT model (Preferred)          |
|  Step 3: Generate response using Base model (Dispreferred)      |
|  Step 4: Apply quality filtering                                |
|                                                                  |
+------------------------------------------------------------------+

Preferred vs Dispreferred の作成

Preferred 応答:

  • Dolci Think SFT モデルで生成
  • 段階的推論プロセスを含む
  • 最終的な正答に到達

Dispreferred 応答:

  • OLMo2 7B Base モデルで生成
  • 推論の深さが不足
  • 誤った結論または不完全な推論

品質フィルタリング

生成されたペアに対して、以下の基準でフィルタリングを実施する。

  • Preferred 応答が正答を含む
  • Dispreferred 応答が誤答または不完全
  • 両応答間に明確な品質差が存在

この結果、約 1M の高品質な preference pair が作成された。

Dolci Instruct DPO での適用

Dolci Instruct では、Delta Learning を multi-turn 対話の最適化に使用する(Section 5.3)。

Multi-turn Preference Data

+------------------------------------------------------------------+
|                Dolci Instruct Data Generation                    |
+------------------------------------------------------------------+
|                                                                  |
|  Source: Approximately 500K multi-turn prompts                   |
|                                                                  |
|  Preferred:                                                      |
|    - Generated by Dolci Instruct SFT                             |
|    - Concise, well-structured responses                          |
|                                                                  |
|  Dispreferred:                                                   |
|    - Generated by OLMo2 7B Base                                  |
|    - Verbose or poorly structured responses                      |
|                                                                  |
+------------------------------------------------------------------+

応答長の最適化

Delta Learning により、以下の改善が実現される。

  • 簡潔さの維持: 不要な冗長性を排除
  • 情報密度の向上: 重要な情報を効率的に伝達
  • 構造の改善: 論理的な流れを持つ応答

実装の詳細

約 500K の multi-turn プロンプトから preference pair を生成し、応答品質の向上を図る。

効果と利点

Delta Learning による Preference tuning は、複数の利点をもたらす。

SFT を超える性能

DPO による追加の最適化により、SFT 単独では到達できない性能レベルを実現する。

+------------------------------------------------------------------+
|                    Performance Progression                       |
+------------------------------------------------------------------+
|                                                                  |
|  Base Model  -->  SFT Model  -->  DPO Model (with Delta)        |
|                                                                  |
|  Limited     -->  Enhanced   -->  Optimized reasoning            |
|  reasoning        reasoning       and preference alignment       |
|                                                                  |
+------------------------------------------------------------------+

RL への準備(Priming for RL)

Delta Learning による DPO は、将来の Reinforcement Learning の基盤となる。

  • 報酬モデルとの整合性: 人間の選好との alignment を改善
  • 探索の効率化: より良い初期方策を提供
  • 安定性の向上: RL 訓練の収束を促進

推論能力の向上

Dolci Think での適用により、以下の改善が確認された。

  • 複雑な問題に対する段階的アプローチの強化
  • 推論の深さと正確性の向上
  • 推論フロンティアの拡大
Note他の Preference Tuning 手法との比較

従来の DPO:

  • 人間によるラベル付けデータを使用
  • データ収集のコストが高い
  • スケールに限界がある

RLHF (Reinforcement Learning from Human Feedback):

  • 報酬モデルの訓練が必要
  • 複雑な実装と調整が必要
  • 計算コストが高い

Delta Learning の利点:

  • スケーラビリティ: 合成データにより大規模な訓練が可能
  • コスト効率: 人間のアノテーションが不要
  • 品質保証: モデル間の能力差により、明確な contrastive signal を生成
  • 柔軟性: 異なるタスクやドメインに容易に適用可能

Delta Learning は、SFT で獲得した能力を最大限に活用し、効率的かつ効果的な preference tuning を実現する。

まとめ

Delta Learning は、OLMo2 3B の preference tuning において中心的な役割を果たす。

主要なポイント:

  • SFT モデルと Base モデルの差分を活用
  • 高品質な contrastive data を自動生成
  • 推論能力と応答品質の両面で性能向上
  • スケーラブルで cost-effective な手法

この手法により、Dolci Think と Dolci Instruct は、それぞれの領域で最先端の性能を達成している。