adding cuda:0 for non-fsdp situations

707af7ea · Hamid Shojanazeri · 1e0f8a1f · 707af7ea
Commit 707af7ea authored 1 year ago by Hamid Shojanazeri
--- a/utils/train_utils.py
+++ b/utils/train_utils.py
@@ -84,7 +84,7 @@ def train(model, train_dataloader,eval_dataloader, tokenizer, optimizer, lr_sche
                    if train_config.enable_fsdp:
                        batch[key] = batch[key].to(local_rank)
                    else:
-                        batch[key] = batch[key].to('cuda')       
+                        batch[key] = batch[key].to('cuda:0')       
                outputs = model(**batch)
                loss = outputs.loss
                loss = loss / gradient_accumulation_steps