Add in-memory loading for non-default filesystems in PDFReader (#12659)

* Add in-memory loading for non-default filesystems in PDFReader * bump version

Add in-memory loading for non-default filesystems in PDFReader (#12659)
69427f9f · Javier Torres · GitHub · 447805b7 · 69427f9f
Unverified Commit 69427f9f authored 1 year ago by Javier Torres Committed by GitHub 1 year ago
--- a/llama-index-integrations/readers/llama-index-readers-file/llama_index/readers/file/docs/base.py
+++ b/llama-index-integrations/readers/llama-index-readers-file/llama_index/readers/file/docs/base.py
@@ -10,9 +10,10 @@ from pathlib import Path
 from typing import Any, Dict, List, Optional
 from fsspec import AbstractFileSystem
 import logging
+import io
 from llama_index.core.readers.base import BaseReader
-from llama_index.core.readers.file.base import get_default_fs
+from llama_index.core.readers.file.base import get_default_fs, is_default_fs
 from llama_index.core.schema import Document
 logger = logging.getLogger(__name__)
@@ -45,8 +46,12 @@ class PDFReader(BaseReader):
            )
        fs = fs or get_default_fs()
        with fs.open(file, "rb") as fp:
+            # Load the file in memory if the filesystem is not the default one to avoid
+            # issues with pypdf
+            stream = fp if is_default_fs(fs) else io.BytesIO(fp.read())
            # Create a PDF object
-            pdf = pypdf.PdfReader(fp)
+            pdf = pypdf.PdfReader(stream)
            # Get the number of pages in the PDF document
            num_pages = len(pdf.pages)