[dev] add support for all image pages inside pdf

2025-09-06 09:41:31 +00:00 · 2024-09-05 17:48:15 +02:00
parent 00b64b9a4a
commit cc6091961b
6 changed files with 1792 additions and 18 deletions
--- a/experiments/llama_index.ipynb
+++ b/experiments/llama_index.ipynb
@@ -2,15 +2,246 @@
 "cells": [
  {
   "cell_type": "code",
   "execution_count": null,
   "id": "initial_id",
   "metadata": {
-    "collapsed": true
+    "collapsed": true,
    "ExecuteTime": {
     "end_time": "2024-09-05T14:03:18.404518Z",
     "start_time": "2024-09-05T14:03:18.401535Z"
    }
   },
   "source": "# Read PDF",
   "outputs": [],
   "execution_count": 33
  },
  {
   "metadata": {
    "ExecuteTime": {
     "end_time": "2024-09-05T14:39:16.282184Z",
     "start_time": "2024-09-05T14:39:16.279186Z"
    }
   },
   "cell_type": "code",
   "source": [
-    ""
+    "import pdf2image\n",
-   ]
+    "import pytesseract\n",
    "from pytesseract import Output, TesseractError"
   ],
   "id": "ad1ffea2dcb7dcaf",
   "outputs": [],
   "execution_count": 74
  },
  {
   "metadata": {
    "ExecuteTime": {
     "end_time": "2024-09-05T14:39:16.648563Z",
     "start_time": "2024-09-05T14:39:16.646494Z"
    }
   },
   "cell_type": "code",
   "source": "file = \"../local_data/input_raw/test/26223.pdf\"",
   "id": "f38556f4ef09d669",
   "outputs": [],
   "execution_count": 75
  },
  {
   "metadata": {
    "ExecuteTime": {
     "end_time": "2024-09-05T14:39:23.492339Z",
     "start_time": "2024-09-05T14:39:18.280277Z"
    }
   },
   "cell_type": "code",
   "source": "images = pdf2image.convert_from_path(file)",
   "id": "67286a6f741debb0",
   "outputs": [],
   "execution_count": 76
  },
  {
   "metadata": {
    "ExecuteTime": {
     "end_time": "2024-09-05T14:39:38.005863Z",
     "start_time": "2024-09-05T14:39:36.119195Z"
    }
   },
   "cell_type": "code",
   "source": [
    "pil_im = images[5] # assuming that we're interested in the first page only\n",
    "\n",
    "ocr_dict = pytesseract.image_to_string(pil_im, lang=\"rus\")"
   ],
   "id": "ec339f7da13fc37f",
   "outputs": [],
   "execution_count": 79
  },
  {
   "metadata": {
    "ExecuteTime": {
     "end_time": "2024-09-05T14:39:49.348914Z",
     "start_time": "2024-09-05T14:39:49.344588Z"
    }
   },
   "cell_type": "code",
   "source": "print(ocr_dict)",
   "id": "df86f1ed6f5f1b6e",
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "096 отдельный батальон материального обеспечения\n",
      "\n",
      "1099 мотострелковый полк\n",
      "\n",
      "| береговая ракетно-артиллерийская бригада\n",
      "\n",
      "военная автомобильная инспекция\n",
      "\n",
      "гвардейская отдельная десантно-штурмовая бригада\n",
      "гвардейская отдельная инженерная бригада\n",
      "отдельная вертолетная эскадрилья\n",
      "отдельная танковая бригада\n",
      "отдельный медицинский батальон\n",
      "отдельный танковый полк\n",
      "\n",
      "полк радиационной, химической и биологической защиты\n",
      "\n",
      "смешанный авиационный полк\n",
      "средняя общеобразовательная школа\n",
      "\n",
      "центральный узел контроля безопасности связи\n",
      "\n",
      "11 экипаж большой подводной лодки\n",
      "\n",
      "110 военная автомобильная инспекция\n",
      "\n",
      "110 военное представительство Министерства обороны Российской Федерации\n",
      "\n",
      "110 отдельная мотострелковая бригада\n",
      "110 отдельный стрелковый полк\n",
      "\n",
      "1101 отдел государственного технического надзора\n",
      "\n",
      "1102 мотострелковый полк\n",
      "1104 мотострелковый полк\n",
      "\n",
      "144\n",
      "\n",
      "1105 мотострелковый полк\n",
      "\n",
      "109 отдельный оптико-электронный узел\n",
      "\n",
      "11 военная автомобильная инспекция\n",
      "\n",
      "П главный государственный центр судеоно-медицинских и криминалистических экспертиз Министерства\n",
      "\n",
      "|| отдельный стрелковый полк\n",
      "\n",
      "11 центральная база резерва танков\n",
      "\n",
      "110 объединенное управление эксплуатации специальных объектов\n",
      "\n",
      "117 зенитный ракетный полк\n",
      "\n",
      "152|1118 военное представительство Министерства обороны Российской Федерации\n",
      "153|1118 отдельный радиолокационный узел\n",
      "\n",
      "154|112 авиационный полигон\n",
      "\n",
      "155112 гвардейская ракетная бригада\n",
      "\n",
      "156| 112 отдельный вертолетный полк\n",
      "\n",
      "157|112 отдельный стрелковый полк\n",
      "\n",
      "158|1122 отдельный батальон материального обеспечения\n",
      "159|1124 отдельный батальон материального обеспечения\n",
      "160|1127 ремонтный завод ракетно-артиллерийского вооружения\n",
      "161|113 военная автомобильная инспекция\n",
      "\n",
      "162|1139 отдельный батальон материального обеспечения\n",
      "163|1139 отдельный измерительный пункт\n",
      "\n",
      "164| 114 бригада\n",
      "\n",
      "165| 114 военная автомобильная инспекция\n",
      "\n",
      "166|114 гвардейская отдельная мотострелковая бригада\n",
      "\n",
      "114 гвардейский мотострелковый полк\n",
      "\n",
      "168\n",
      "\n",
      "114 отделение территориальное\n",
      "\n",
      "169\n",
      "\n",
      "40 гвардейский артиллерийский полк\n",
      "\n",
      "170\n",
      "\n",
      "41 гвардейский артиллерийский полк\n",
      "\n",
      "171\n",
      "\n",
      "1142 военное представительство Министерства обороны Российской Федерации\n",
      "\n",
      "172\n",
      "\n",
      "1143 отдельный зенитный ракетный дивизион\n",
      "\n",
      "173\n",
      "\n",
      "115 военная автомобильная инспекция\n",
      "\n",
      "174\n",
      "\n",
      "5 государственный специальный химический арсенал\n",
      "\n",
      "175\n",
      "\n",
      "150 радиоэлектронный центр\n",
      "\n",
      "176\n",
      "\n",
      "177\n",
      "178\n",
      "\n",
      "1152 мотострелковый полк\n",
      "1153 мотострелковый полк\n",
      "54 мотострелковый полк\n",
      "\n",
      "179\n",
      "\n",
      "1155 центр\n",
      "\n",
      "180\n",
      "\n",
      "157 пожарная команда\n",
      "\n",
      "ТТТ.\n",
      "\n",
      "181\n",
      "\n",
      "1158 пожарная команда.\n",
      "\n",
      "182\n",
      "\n",
      "1159 военное представительство Министерства обороны Российской Федерации\n",
      "\n",
      "\n"
     ]
    }
   ],
   "execution_count": 81
  },
  {
   "metadata": {},
   "cell_type": "code",
   "outputs": [],
   "execution_count": null,
   "source": "",
   "id": "7e909e7dc99c7f4a"
  }
 ],
 "metadata": {
--- a/poetry.lock
+++ b/poetry.lock
--- a/private_gpt/components/ingest/ingest_component.py
+++ b/private_gpt/components/ingest/ingest_component.py
@@ -136,7 +136,10 @@ class SimpleIngestComponent(BaseIngestComponentWithIndex):
        return saved_documents
    def _save_docs(self, documents: list[Document]) -> list[Document]:
-        logger.debug("Transforming count=%s documents into nodes", len(documents))
+        logger.debug(
            "Transforming count=%s documents into nodes",
            len(documents) if isinstance(documents, list) else 1,
        )
        with self._index_thread_lock:
            for document in documents:
                self._index.insert(document, show_progress=True)
--- a/private_gpt/components/ingest/ingest_helper.py
+++ b/private_gpt/components/ingest/ingest_helper.py
@@ -1,6 +1,8 @@
 import logging
 from pathlib import Path
 import tqdm
 import tempfile
 from llama_index.core.readers import StringIterableReader
 from llama_index.core.readers.base import BaseReader
 from llama_index.core.readers.json import JSONReader
@@ -44,8 +46,8 @@ def _try_loading_included_file_formats() -> dict[str, type[BaseReader]]:
    default_file_reader_cls: dict[str, type[BaseReader]] = {
        ".hwp": HWPReader,
-        # ".pdf": simple_pdf_extractor if simple_pdf_extractor else PDFReader,
+        # ".pdf": PDFReader,
-        ".pdf": PDFReader,
+        ".pdf": SmartPDFLoader if LLMSHERPA_API_URL else PDFReader,
        ".docx": SmartPDFLoader if LLMSHERPA_API_URL else DocxReader,
        ".pptx": PptxReader,
        ".ppt": PptxReader,
@@ -70,7 +72,7 @@ def _try_loading_included_file_formats() -> dict[str, type[BaseReader]]:
 FILE_READER_CLS = _try_loading_included_file_formats()
 FILE_READER_CLS.update(
    {
-        ".json": JSONReader(),
+        ".json": JSONReader,
    }
 )
@@ -88,7 +90,7 @@ class IngestionHelper:
    ) -> list[Document]:
        documents = IngestionHelper._load_file_to_documents(file_name, file_data)
        for document in documents:
-            document.metadata["file_name"] = file_name
+            document.metadata["file_name"] = file_data.as_posix()
        IngestionHelper._exclude_metadata(documents)
        return documents
@@ -108,16 +110,44 @@ class IngestionHelper:
                return string_reader.load_data([file_data.read_text()])
            except Exception as e:
                logger.error(f"Error reading file as plain text: {e}")
                raise ValueError(
                    f"No reader found for extension={extension}, file_name={file_name}"
                )
        logger.debug(
            f"Specific reader found for extension=%s, {reader_cls=}", extension
        )
        if reader_cls.__name__ == "SmartPDFLoader":
-            return reader_cls(llmsherpa_api_url=LLMSHERPA_API_URL).load_data(
+            documents = reader_cls(llmsherpa_api_url=LLMSHERPA_API_URL).load_data(
                file_data.as_posix()
            )
        else:
-            return reader_cls().load_data(file_data)
+            documents = reader_cls().load_data(file_data)
        if len(documents) == 0 and extension == ".pdf":
            logger.debug(
                "No text extracted from PDF, trying to extract images from PDF"
            )
            try:
                import pdf2image
                import pytesseract
                images = pdf2image.convert_from_path(file_data)
                documents = []
                for i, image in tqdm.tqdm(enumerate(images)):
                    text = pytesseract.image_to_string(image, lang="rus")
                    doc = StringIterableReader().load_data(
                        [text],
                    )[0]
                    doc.metadata["page_label"] = i
                    documents.extend(doc)
            except Exception as e:
                logger.error(f"Error extracting images from PDF: {e}")
                raise ValueError(f"No text extracted from PDF={file_name}")
        return documents
    @staticmethod
    def _exclude_metadata(documents: list[Document]) -> None:
@@ -127,4 +157,10 @@ class IngestionHelper:
            # We don't want the Embeddings search to receive this metadata
            document.excluded_embed_metadata_keys = ["doc_id"]
            # We don't want the LLM to receive these metadata in the context
-            document.excluded_llm_metadata_keys = ["file_name", "doc_id", "page_label"]
+            # ToDo currently remove file_name
            document.excluded_llm_metadata_keys = [
                # "file_name",
                "doc_id",
                "page_label",
            ]
            document.excluded_llm_metadata_keys = ["doc_id", "page_label"]
--- a/pyproject.toml
+++ b/pyproject.toml
@@ -70,6 +70,10 @@ einops = {version = "^0.8.0", optional = true}
 llama-index-readers-smart-pdf-loader = "^0.1.4"
 python-pptx = "^1.0.2"
 pillow = "^10.4.0"
 jupyter = "^1.1.1"
 pypdf2 = "^3.0.1"
 pytesseract = "^0.3.13"
 pdf2image = "^1.17.0"
 [tool.poetry.extras]
 ui = ["gradio", "ffmpy"]
--- a/scripts/ingest_folder.py
+++ b/scripts/ingest_folder.py
@@ -1,4 +1,4 @@
-#!/usr/bin/env python3
+#!/usr/bin/env pythfon3
 import argparse
 import logging