Update key convention strategy in metadata.

2025-08-16 16:11:02 +00:00 · 2025-02-26 09:59:16 +01:00 · 2025-02-26 09:59:16 +01:00 · f30ac5ddeb
commit f30ac5ddeb
parent cdd366f66d
1 changed files with 9 additions and 53 deletions
--- a/libs/community/langchain_community/document_loaders/parsers/pdf.py
+++ b/libs/community/langchain_community/document_loaders/parsers/pdf.py
@ -1375,48 +1375,6 @@ class PyPDFium2Parser(BaseBlobParser):
        return _FORMAT_IMAGE_STR.format(image_text=_JOIN_IMAGES.join(str_images))
 # The legacy PDFPlumberParser use key with upper case.
 # This is not aligned with the new convention, which requires the key to be in
 # lower case.
 class _PDFPlumberParserMetadata(dict):
    _warning_keys: set[str] = set()
    def __init__(self, d: dict[str, Any]):
        super().__init__({k.lower(): v for k, v in d.items()})
        self._pdf_metadata_keys = set(d.keys())
    def _lower(self, k: object) -> object:
        assert isinstance(k, str)
        if k in self._pdf_metadata_keys:
            lk = k.lower()
            if lk != k:
                if k not in _PDFPlumberParserMetadata._warning_keys:
                    _PDFPlumberParserMetadata._warning_keys.add(str(k))
                    logger.warning(
                        'The key "%s" with uppercase is deprecated. '
                        "Update your code and vectorstore.",
                        k,
                    )
            return lk
        else:
            return k
    def __contains__(self, k: object) -> bool:
        return super().__contains__(self._lower(k))
    def __delitem__(self, k: object) -> None:
        super().__delitem__(self._lower(k))
    def __getitem__(self, k: object) -> Any:
        return super().__getitem__(self._lower(k))
    def get(self, k: object, default: Any = None) -> Any:
        return super().get(self._lower(str(k)), default)
    def __setitem__(self, k: object, v: Any) -> None:
        super().__setitem__(self._lower(str(k)), v)
 class PDFPlumberParser(BaseBlobParser):
    """Parse a blob from a PDF using `pdfplumber` library.
@ -1564,7 +1522,7 @@ class PDFPlumberParser(BaseBlobParser):
            from pdfplumber.utils import geometry  # import WordExctractor, TextMap
            contents = []
-            doc_metadata = _purge_metadata(
+            doc_metadata = doc.metadata | _purge_metadata(
                (
                    doc.metadata
                    | {
@ -1574,6 +1532,7 @@ class PDFPlumberParser(BaseBlobParser):
                    }
                )
            )
            for page in doc.pages:
                tables_bbox: list[tuple[float, float, float, float]] = (
                    self._extract_tables_bbox_from_page(page)
@ -1618,12 +1577,10 @@ class PDFPlumberParser(BaseBlobParser):
                    yield Document(
                        page_content=all_text,
                        metadata=_validate_metadata(
                            _PDFPlumberParserMetadata(
                            doc_metadata
                            | {
                                "page": page.page_number - 1,
                            }
                            )
                        ),
                    )
                else:
@ -1638,9 +1595,7 @@ class PDFPlumberParser(BaseBlobParser):
            if self.mode == "single":
                yield Document(
                    page_content=self.pages_delimiter.join(contents),
-                    metadata=_validate_metadata(
+                    metadata=_validate_metadata(doc_metadata),
                        _PDFPlumberParserMetadata(doc_metadata)
                    ),
                )
    def _process_page_content(self, page: pdfplumber.page.Page) -> str:
@ -2073,7 +2028,8 @@ class AmazonTextractPDFParser(BaseBlobParser):
        for idx, page in enumerate(document.pages):
            yield Document(
                page_content=page.get_text(config=self.linearization_config),
-                metadata={"source": blob.source, "page": idx + 1},  # type: ignore[attr-defined]
+                metadata={"source": blob.source, "page": idx + 1},
                # type: ignore[attr-defined]
            )