Fix Docling PP-OCRv6 error + add DB init scripts

- Force TesseractCliOcrOptions for image formats (JPG/PNG/TIFF/BMP) to prevent RapidOCR/PP-OCRv6 fallback on docling 2.107 - Add db/init.sql and db/init_docling.sql for database initialization Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
2026-06-25 07:48:04 +00:00 · 2026-06-25 07:48:04 +00:00 · 94cbabe6d7
parent 11de2d2175
commit 94cbabe6d7
3 changed files with 37 additions and 6 deletions
--- a/db/init.sql
+++ b/db/init.sql
@ -0,0 +1,8 @@
 -- markitdown database tables
 CREATE TABLE IF NOT EXISTS conversions (
    id SERIAL PRIMARY KEY,
    filename VARCHAR(255) NOT NULL,
    file_type VARCHAR(50),
    markdown TEXT,
    created_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP
 );
--- a/db/init_docling.sql
+++ b/db/init_docling.sql
@ -0,0 +1,10 @@
 -- docling database tables
 CREATE TABLE IF NOT EXISTS conversions (
    id SERIAL PRIMARY KEY,
    filename VARCHAR(255) NOT NULL,
    file_type VARCHAR(50),
    output_format VARCHAR(20) DEFAULT 'markdown',
    content TEXT,
    page_count INTEGER,
    created_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP
 );
--- a/docling-service/app/services/DoclingService.py
+++ b/docling-service/app/services/DoclingService.py
@ -7,7 +7,7 @@ from fastapi import UploadFile, HTTPException
 from sqlalchemy.ext.asyncio import AsyncSession
 from sqlalchemy import select
 from docling.document_converter import DocumentConverter, PdfFormatOption
-from docling.datamodel.pipeline_options import PdfPipelineOptions
+from docling.datamodel.pipeline_options import PdfPipelineOptions, TesseractCliOcrOptions
 from docling.datamodel.base_models import InputFormat
 from app.models.ConvertModel import Conversion
@ -21,15 +21,28 @@ CLEANUP_MODEL   = os.getenv("CLEANUP_MODEL", "")
 def _build_converter() -> DocumentConverter:
    try:
-        from docling.models.stages.ocr.tesseract_ocr_cli_model import TesseractCliOcrOptions
+        ocr_opts = TesseractCliOcrOptions()
-        pdf_opts = PdfPipelineOptions(do_ocr=True, ocr_options=TesseractCliOcrOptions())
+        pdf_opts = PdfPipelineOptions(do_ocr=True, ocr_options=ocr_opts)
        logger.info("Docling: OCR enabled via Tesseract CLI")
    except Exception as e:
        logger.warning("Docling: Tesseract unavailable (%s) — OCR disabled", e)
        ocr_opts = None
        pdf_opts = PdfPipelineOptions(do_ocr=False)
-    return DocumentConverter(
+
-        format_options={InputFormat.PDF: PdfFormatOption(pipeline_options=pdf_opts)}
+    fmt_options = {InputFormat.PDF: PdfFormatOption(pipeline_options=pdf_opts)}
-    )
+
    # Force Tesseract for image formats too (prevents RapidOCR/PP-OCRv6 fallback)
    if ocr_opts is not None:
        try:
            from docling.document_converter import ImageFormatOption
            from docling.datamodel.pipeline_options import ImagePipelineOptions
            img_opts = ImagePipelineOptions(do_ocr=True, ocr_options=ocr_opts)
            for fmt in (InputFormat.IMAGE, InputFormat.PNG, InputFormat.JPEG, InputFormat.TIFF, InputFormat.BMP):
                fmt_options[fmt] = ImageFormatOption(pipeline_options=img_opts)
        except Exception:
            pass  # older docling without ImageFormatOption — PDF-only override is sufficient
    return DocumentConverter(format_options=fmt_options)
 converter = _build_converter()