Durchsuchbare Dokumentation aufrufen | Zurück zur Dokumentationsübersicht

Navigation: Dokumentationen agorum core > agorum core Module und Plugins > ALBERT | AI Agents > ALBERT| AI KI-Tools-Dokumentationen


paddle_ocr_layout_parsing

Anzeigename: PaddleOCR layout parsing for PDFs and images

Technischer Name: agorum_ai_agents_library_basic_paddle_ocr_layout_parsing

Hinweise

  • Diese Dokumentation bezieht sich auf die aktuellste Version des Plugins ALBERT | AI Agents. Aktualisieren Sie das hier beschriebene Plugin, um die Dokumentation verwenden zu können.
  • Wie Sie die KI-Tools in Ihren KI-Voreinstellungen verwenden, erfahren Sie hier: ALBERT | AI Agents KI-Tools einrichten

Hinweis: Für die Verwendung des Tools paddle_ocr_layout_parsing benötigen Sie einen erreichbaren PaddleOCR-VL-Server. Dieser wird selbst betrieben (Self-Hosted). Es handelt sich nicht um einen externen Cloud-Dienst. 

Was macht das Tool?

Dieses Tool führt OCR (Optical Character Recognition) und Layout-Parsing auf einem in agorum core gespeicherten Dokument (PDF oder Bild) durch. Die Datei wird base64-codiert an einen PaddleOCR-VL /layout-parsing-Endpunkt gesendet. Das Ergebnis ist das zusammengeführte HTML der Erkennung aller Seiten.

PaddleOCR-VL erkennt strukturierte Elemente wie Tabellen, Formeln und Layoutblöcke und gibt diese als HTML zurück (z. B. <table>, <tr>, <td>, <sub>, <sup>). Dieses HTML wird unverändert durchgereicht.

PDFs mit mehr als 10 Seiten werden automatisch in Batches aufgeteilt (Chunking) und seitenweise verarbeitet. Das Ergebnis aller Chunks wird zu einem einzigen HTML-Dokument zusammengeführt.

Empfohlener Einsatzzweck

Das Tool eignet sich für:

  • Texterkennung aus gescannten Dokumenten, Bildern oder PDFs
  • Layout-Analyse mit Erkennung von Tabellen, Überschriften, Absätzen und Formeln
  • Automatisierte Dokumentenverarbeitung in Workflows und KI-Prozessen
  • Datenextraktion aus strukturierten Dokumenten (Rechnungen, Formulare, Berichte)

Verwenden Sie PaddleOCR insbesondere dann, wenn Sie einen eigenen OCR-Server betreiben möchten und die Daten Ihr Netzwerk nicht verlassen sollen (Self-Hosted / On-Premises).

Funktionsbeschreibung

Parameter

Parameter Beschreibung
id
(Pflicht)
agorum core Objekt (PDF oder Bild), das per PaddleOCR verarbeitet werden soll. Angabe als ID, UUID oder Pfad.

Unterstützte Bildformate: JPG, JPEG, PNG, GIF, BMP, TIF, TIFF, WebP, AVIF.
url
(Pflicht, vorgegeben)
URL des PaddleOCR-VL-Servers. Entweder eine Basis-URL (z. B. https://llm-api.bunker.onprem.ai/paddleocr-vl), wobei automatisch der Standard-Endpunkt /layout-parsing angehängt wird, oder eine vollständige Endpunkt-URL (z. B. https://llm-api.bunker.onprem.ai/paddleocr-vl/layout-parsing).
additionalParameters
(Optional)
JSON-Objekt als String mit zusätzlichen PaddleOCR-VL-Parametern, die als JSON-Body-Felder an den Server weitergeleitet werden.

Beispiel: {"formatBlockContent": true, "temperature": 0, "topP": 0.9, "layoutThreshold": 0.5}

Mögliche Parameter (abhängig vom Server):
  • formatBlockContent – Formatierung der Blockinhalte
  • useDocUnwarping – Dokumenten-Entzerrung
  • useLayoutDetection – Layout-Erkennung
  • useChartRecognition – Diagramm-Erkennung
  • layoutThreshold – Schwellenwert für Layout-Erkennung
  • temperature, topP – Modell-Parameter
Hinweis: Nicht jeder PaddleOCR-VL-Server unterstützt alle Parameter. Testen Sie im Zweifelsfall zunächst ohne zusätzliche Parameter.
path
(Optional, vorgegeben)
Optionale Überschreibung des Endpunkt-Pfads. Wenn gesetzt, hat dieser Wert immer Vorrang vor dem in url eingebetteten Pfad.

Standard: /layout-parsing
apiKey
(Optional, vorgegeben)
Optionaler API-Schlüssel. Wenn angegeben, wird er als Authorization: Bearer <apiKey> Header an den PaddleOCR-VL-Server gesendet.

Der Wert wird verschlüsselt gespeichert.
authScheme
(Optional, vorgegeben)
Authentifizierungsschema für den Authorization-Header.

Erlaubte Werte:
  • Bearer (Standard, RFC 6750)
  • token (für PaddleOCR-doc-Style-Server)
maxPagesPerChunk
(Optional, vorgegeben)
Maximale Anzahl von PDF-Seiten pro Chunk-Anfrage. Standard: 10 (entspricht dem Server-Default-Limit von PaddleOCR-VL).

Wird nur für PDF-Eingaben verwendet. Bilder werden immer als einzelne Anfrage gesendet.

Erlaubter Bereich: 1–100.
aiContextToolPrompt
(Optional)
Optionaler Prompt, der in den Kontext-Prompt des Chats eingefügt wird, wenn dieses Tool geladen ist.

 

Die mit (vorgegeben) gekennzeichneten Parameter werden typischerweise vom Administrator in dieser Konfiguration vorbelegt. 

PaddleOCR Tool-Konfiguration

Rückgabe

Das Tool gibt ein JSON-Objekt mit folgenden Feldern zurück:

Feld Beschreibung
uuid UUID des verarbeiteten agorum core Objekts.
name Name des verarbeiteten Objekts.
objectLink Markdown-Link zum Objekt in agorum core.
html Das zusammengeführte HTML aller erkannten Seiten. Enthält strukturierte Elemente wie Tabellen (<table>), Formeln (<sub>, <sup>) und Layoutblöcke.
chunks Anzahl der HTTP-Anfragen, die an den Server gesendet wurden (bei Chunking > 1).
pageCount Anzahl der erkannten Seiten.

Automatisches PDF-Chunking

PDFs mit mehr als maxPagesPerChunk Seiten (Standard: 10) werden automatisch in Batches aufgeteilt:

  1. Das PDF wird in Teilabschnitte zerlegt, vergleichbar zum Verfahren des Workflow-Knotens agorum_object_pdf_split.
  2. Jeder Chunk wird einzeln an den Server gesendet.
  3. Die HTML-Ergebnisse aller Chunks werden zu einem einzigen Ergebnis zusammengeführt.

Bilder werden niemals gechunkt. Sie werden immer als einzelne Anfrage gesendet.

Tipps und Tricks

Tipps:

  • Für beste Ergebnisse sollten die Dokumente eine möglichst gute Scanqualität aufweisen.
  • Testen Sie zunächst ohne additionalParameters. Nicht jeder Server unterstützt alle Optionen, manche führen zu HTTP-500-Fehlern.
  • Bei großen PDFs (mehr als 10 Seiten) erfolgt das Chunking automatisch. Sie können die Chunk-Größe über maxPagesPerChunk anpassen.
  • Da PaddleOCR-VL selbst gehostet wird, verlassen Ihre Dokumente nicht das eigene Netzwerk – ideal für datenschutzsensible Anwendungsfälle.
  • Das Tool gibt HTML zurück (nicht Markdown wie Mistral OCR). Berücksichtigen Sie dies bei der Weiterverarbeitung.