[wip] trying to fix page numbers

2025-09-02 15:55:02 +00:00 · 2024-09-05 18:03:43 +02:00
parent cc6091961b
commit f592ae712c
1 changed files with 4 additions and 3 deletions
--- a/private_gpt/components/ingest/ingest_helper.py
+++ b/private_gpt/components/ingest/ingest_helper.py
@@ -139,10 +139,11 @@ class IngestionHelper:
                    text = pytesseract.image_to_string(image, lang="rus")
                    doc = StringIterableReader().load_data(
                        [text],
-                    )[0]
-                    doc.metadata["page_label"] = i
+                    )
+                    # )[0]
+                    # doc.metadata["page_label"] = str(i + 1)

-                    documents.extend(doc)
+                    documents.extend([doc])
            except Exception as e:
                logger.error(f"Error extracting images from PDF: {e}")
                raise ValueError(f"No text extracted from PDF={file_name}")