From 6c38cbeb6e85718b47c042f402a6acdf01a4394b Mon Sep 17 00:00:00 2001
From: Matthias Reso <13337103+mreso@users.noreply.github.com>
Date: Wed, 30 Aug 2023 22:57:13 +0000
Subject: [PATCH] Update dataset folder

---
 docs/multi_gpu.md                     | 2 +-
 docs/single_gpu.md                    | 2 +-
 src/llama_recipes/configs/datasets.py | 6 +++---
 3 files changed, 5 insertions(+), 5 deletions(-)

diff --git a/docs/multi_gpu.md b/docs/multi_gpu.md
index 81e3766b..baca383d 100644
--- a/docs/multi_gpu.md
+++ b/docs/multi_gpu.md
@@ -86,7 +86,7 @@ Currently 4 datasets are supported that can be found in [Datasets config file](.
 * `alpaca_dataset` : to get this open source data please download the `aplaca.json` to `dataset` folder.
 
 ```bash
-wget -P datasets https://raw.githubusercontent.com/tatsu-lab/stanford_alpaca/main/alpaca_data.json
+wget -P src/llama_recipes/datasets https://raw.githubusercontent.com/tatsu-lab/stanford_alpaca/main/alpaca_data.json
 ```
 
 * `samsum_dataset`
diff --git a/docs/single_gpu.md b/docs/single_gpu.md
index 89b4749e..bcd2a317 100644
--- a/docs/single_gpu.md
+++ b/docs/single_gpu.md
@@ -41,7 +41,7 @@ Currently 4 datasets are supported that can be found in [Datasets config file](.
 * `alpaca_dataset` : to get this open source data please download the `aplaca.json` to `ft_dataset` folder.
 
 ```bash
-wget -P datasets https://raw.githubusercontent.com/tatsu-lab/stanford_alpaca/main/alpaca_data.json
+wget -P src/llama_recipes/datasets https://raw.githubusercontent.com/tatsu-lab/stanford_alpaca/main/alpaca_data.json
 ```
 
 * `samsum_dataset`
diff --git a/src/llama_recipes/configs/datasets.py b/src/llama_recipes/configs/datasets.py
index 6cb3cf59..70823b5e 100644
--- a/src/llama_recipes/configs/datasets.py
+++ b/src/llama_recipes/configs/datasets.py
@@ -15,8 +15,8 @@ class samsum_dataset:
 @dataclass
 class grammar_dataset:
     dataset: str = "grammar_dataset"
-    train_split: str = "ft_datasets/grammar_dataset/gtrain_10k.csv" 
-    test_split: str = "ft_datasets/grammar_dataset/grammar_validation.csv"
+    train_split: str = "src/llama_recipes/datasets/grammar_dataset/gtrain_10k.csv" 
+    test_split: str = "src/llama_recipes/datasets/grammar_dataset/grammar_validation.csv"
     input_length: int = 2048
 
     
@@ -25,4 +25,4 @@ class alpaca_dataset:
     dataset: str = "alpaca_dataset"
     train_split: str = "train"
     test_split: str = "val"
-    data_path: str = "ft_datasets/alpaca_data.json"
\ No newline at end of file
+    data_path: str = "src/llama_recipes/datasets/alpaca_data.json"
\ No newline at end of file
-- 
GitLab