community[minor]: Implement lazy_load() for ArxivLoader (#18664)

Integration tests: `tests/integration_tests/utilities/test_arxiv.py` and `tests/integration_tests/document_loaders/test_arxiv.py`
2025-09-26 22:05:29 +00:00 · 2024-03-06 15:16:49 +01:00
parent 2d96803ddd
commit 1100f8de7a
2 changed files with 22 additions and 10 deletions
--- a/libs/community/langchain_community/document_loaders/arxiv.py
+++ b/libs/community/langchain_community/document_loaders/arxiv.py
@@ -1,4 +1,4 @@
-from typing import Any, List, Optional
+from typing import Any, Iterator, List, Optional
 from langchain_core.documents import Document
@@ -23,8 +23,8 @@ class ArxivLoader(BaseLoader):
            doc_content_chars_max=doc_content_chars_max, **kwargs
        )
-    def load(self) -> List[Document]:
+    def lazy_load(self) -> Iterator[Document]:
-        return self.client.load(self.query)
+        yield from self.client.lazy_load(self.query)
    def get_summaries_as_docs(self) -> List[Document]:
        return self.client.get_summaries_as_docs(self.query)
--- a/libs/community/langchain_community/utilities/arxiv.py
+++ b/libs/community/langchain_community/utilities/arxiv.py
@@ -2,7 +2,7 @@
 import logging
 import os
 import re
-from typing import Any, Dict, List, Optional
+from typing import Any, Dict, Iterator, List, Optional
 from langchain_core.documents import Document
 from langchain_core.pydantic_v1 import BaseModel, root_validator
@@ -177,7 +177,22 @@ class ArxivAPIWrapper(BaseModel):
        Args:
            query: a plaintext search query
-        """  # noqa: E501
+        """
        return list(self.lazy_load(query))
    def lazy_load(self, query: str) -> Iterator[Document]:
        """
        Run Arxiv search and get the article texts plus the article meta information.
        See https://lukasschwab.me/arxiv.py/index.html#Search
        Returns: documents with the document.page_content in text format
        Performs an arxiv search, downloads the top k results as PDFs, loads
        them as Documents, and returns them.
        Args:
            query: a plaintext search query
        """
        try:
            import fitz
        except ImportError:
@@ -200,9 +215,8 @@ class ArxivAPIWrapper(BaseModel):
                ).results()
        except self.arxiv_exceptions as ex:
            logger.debug("Error on arxiv: %s", ex)
-            return []
+            return
        docs: List[Document] = []
        for result in results:
            try:
                doc_file_name: str = result.download_pdf()
@@ -231,9 +245,7 @@ class ArxivAPIWrapper(BaseModel):
                "Summary": result.summary,
                **extra_metadata,
            }
-            doc = Document(
+            yield Document(
                page_content=text[: self.doc_content_chars_max], metadata=metadata
            )
            docs.append(doc)
            os.remove(doc_file_name)
        return docs