Overview
FP8の各種設定を適用した際の学習器やモデルの挙動を確認する。
Details
3.8Bモデルに対し、以下の各種設定で1k stepsの学習を行う。
- ベースライン(各種指標の比較対象)
- 基本の設定
- バラエティ
- 学習開始地点
- 0 step
- 2k steps
- 20k steps
- 200k steps
- 精度
- FP8スケーリング
- アルゴリズム
- most-recent (window=1)
- max (window=2, 4, 8, ...)
- マージン (0, 1, 2, 4, ...)
- インターバル (1, 2, 4, ...)
Resources
- 計算機
- クラスタ: Sakura (Ishikari)
- ノード種別: gpu-small (H100x8)
- ノード台数: 8
- コード
- 入力データ:
- 学習済みチェックポイント:
sakura:/home/shared/experiments/0021_v3-3.8b
- LLM-jp v3.1 コーパス:
sakura:/data/llm-jp-corpus/v3.{0,1}.0
- 出力データ:
- 保存先:
sakura:/data/experiments/0031_fp8-behavior
- データ内訳:
- {name}: xxx TB (バッファ容量を含む)
- W&B ログ:
- 開始日: 2024-08-31
- 終了予定日: 2024-09-15 (バッファ期間を含む)
Overview
FP8の各種設定を適用した際の学習器やモデルの挙動を確認する。
Details
3.8Bモデルに対し、以下の各種設定で1k stepsの学習を行う。
Resources
sakura:/home/shared/experiments/0021_v3-3.8bsakura:/data/llm-jp-corpus/v3.{0,1}.0sakura:/data/experiments/0031_fp8-behavior