pass weight_decay into optimizer

91e2573a · Shijie Wu · Matthias Reso · c38bf5bd · 91e2573a
Commit 91e2573a authored 1 year ago by Shijie Wu Committed by Matthias Reso 1 year ago
--- a/src/llama_recipes/finetuning.py
+++ b/src/llama_recipes/finetuning.py
@@ -226,12 +226,13 @@ def main(**kwargs):
            momentum_dtype=torch.bfloat16,
            variance_dtype=torch.bfloat16,
            use_kahan_summation=False,
+            weight_decay=train_config.weight_decay,
        )
    else:
        optimizer = optim.AdamW(
            model.parameters(),
            lr=train_config.lr,
-            weight_decay=0.0,
+            weight_decay=train_config.weight_decay,
        )
    scheduler = StepLR(optimizer, step_size=1, gamma=train_config.gamma)