paddle_ocr_layout_parsing

Anzeigename: PaddleOCR layout parsing for PDFs and images

Technischer Name: agorum_ai_agents_library_basic_paddle_ocr_layout_parsing

Hinweise:

Diese Dokumentation bezieht sich auf die aktuellste Version des Plugins ALBERT | AI Agents. Aktualisieren Sie das hier beschriebene Plugin, um die Dokumentation verwenden zu können.
Wie Sie die KI-Tools in Ihren KI-Voreinstellungen verwenden, erfahren Sie hier: ALBERT | AI Agents KI-Tools einrichten

Hinweis: Für die Verwendung des Tools paddle_ocr_layout_parsing benötigen Sie einen erreichbaren PaddleOCR-VL-Server. Dieser wird selbst betrieben (Self-Hosted). Es handelt sich nicht um einen externen Cloud-Dienst.

Was macht das Tool?

Dieses Tool führt OCR (Optical Character Recognition) und Layout-Parsing auf einem in agorum core gespeicherten Dokument (PDF oder Bild) durch. Die Datei wird base64-codiert an einen PaddleOCR-VL /layout-parsing-Endpunkt gesendet. Das Ergebnis ist das zusammengeführte HTML der Erkennung aller Seiten.

PaddleOCR-VL erkennt strukturierte Elemente wie Tabellen, Formeln und Layoutblöcke und gibt diese als HTML zurück (z. B. <table>, <tr>, <td>, <sub>, <sup>). Dieses HTML wird unverändert durchgereicht.

PDFs mit mehr als 10 Seiten werden automatisch in Batches aufgeteilt (Chunking) und seitenweise verarbeitet. Das Ergebnis aller Chunks wird zu einem einzigen HTML-Dokument zusammengeführt.

Empfohlener Einsatzzweck

Das Tool eignet sich für:

Texterkennung aus gescannten Dokumenten, Bildern oder PDFs
Layout-Analyse mit Erkennung von Tabellen, Überschriften, Absätzen und Formeln
Automatisierte Dokumentenverarbeitung in Workflows und KI-Prozessen
Datenextraktion aus strukturierten Dokumenten (Rechnungen, Formulare, Berichte)

Verwenden Sie PaddleOCR insbesondere dann, wenn Sie einen eigenen OCR-Server betreiben möchten und die Daten Ihr Netzwerk nicht verlassen sollen (Self-Hosted / On-Premises).

Funktionsbeschreibung

Parameter

Parameter	Beschreibung
id (Pflicht)	agorum core Objekt (PDF oder Bild), das per PaddleOCR verarbeitet werden soll. Angabe als ID, UUID oder Pfad. Unterstützte Bildformate: JPG, JPEG, PNG, GIF, BMP, TIF, TIFF, WebP, AVIF.
url (Pflicht, vorgegeben)	URL des PaddleOCR-VL-Servers. Entweder eine Basis-URL (z. B. `https://llm-api.bunker.onprem.ai/paddleocr-vl`), wobei automatisch der Standard-Endpunkt `/layout-parsing` angehängt wird, oder eine vollständige Endpunkt-URL (z. B. `https://llm-api.bunker.onprem.ai/paddleocr-vl/layout-parsing`).
additionalParameters (Optional)	JSON-Objekt als String mit zusätzlichen PaddleOCR-VL-Parametern, die als JSON-Body-Felder an den Server weitergeleitet werden. Beispiel: `{"formatBlockContent": true, "temperature": 0, "topP": 0.9, "layoutThreshold": 0.5}` Mögliche Parameter (abhängig vom Server): `formatBlockContent` – Formatierung der Blockinhalte `useDocUnwarping` – Dokumenten-Entzerrung `useLayoutDetection` – Layout-Erkennung `useChartRecognition` – Diagramm-Erkennung `layoutThreshold` – Schwellenwert für Layout-Erkennung `temperature`, `topP` – Modell-Parameter Hinweis: Nicht jeder PaddleOCR-VL-Server unterstützt alle Parameter. Testen Sie im Zweifelsfall zunächst ohne zusätzliche Parameter.
path (Optional, vorgegeben)	Optionale Überschreibung des Endpunkt-Pfads. Wenn gesetzt, hat dieser Wert immer Vorrang vor dem in `url` eingebetteten Pfad. Standard: `/layout-parsing`
apiKey (Optional, vorgegeben)	Optionaler API-Schlüssel. Wenn angegeben, wird er als `Authorization: Bearer <apiKey>` Header an den PaddleOCR-VL-Server gesendet. Der Wert wird verschlüsselt gespeichert.
authScheme (Optional, vorgegeben)	Authentifizierungsschema für den Authorization-Header. Erlaubte Werte: `Bearer` (Standard, RFC 6750) `token` (für PaddleOCR-doc-Style-Server)
maxPagesPerChunk (Optional, vorgegeben)	Maximale Anzahl von PDF-Seiten pro Chunk-Anfrage. Standard: `10` (entspricht dem Server-Default-Limit von PaddleOCR-VL). Wird nur für PDF-Eingaben verwendet. Bilder werden immer als einzelne Anfrage gesendet. Erlaubter Bereich: 1–100.
aiContextToolPrompt (Optional)	Optionaler Prompt, der in den Kontext-Prompt des Chats eingefügt wird, wenn dieses Tool geladen ist.

Die mit (vorgegeben) gekennzeichneten Parameter werden typischerweise vom Administrator in dieser Konfiguration vorbelegt.

PaddleOCR Tool-Konfiguration

Rückgabe

Das Tool gibt ein JSON-Objekt mit folgenden Feldern zurück:

Feld	Beschreibung
uuid	UUID des verarbeiteten agorum core Objekts.
name	Name des verarbeiteten Objekts.
objectLink	Markdown-Link zum Objekt in agorum core.
html	Das zusammengeführte HTML aller erkannten Seiten. Enthält strukturierte Elemente wie Tabellen (`<table>`), Formeln (`<sub>`, `<sup>`) und Layoutblöcke.
chunks	Anzahl der HTTP-Anfragen, die an den Server gesendet wurden (bei Chunking > 1).
pageCount	Anzahl der erkannten Seiten.

Automatisches PDF-Chunking

PDFs mit mehr als maxPagesPerChunk Seiten (Standard: 10) werden automatisch in Batches aufgeteilt:

Das PDF wird in Teilabschnitte zerlegt, vergleichbar zum Verfahren des Workflow-Knotens agorum_object_pdf_split.
Jeder Chunk wird einzeln an den Server gesendet.
Die HTML-Ergebnisse aller Chunks werden zu einem einzigen Ergebnis zusammengeführt.

Bilder werden niemals gechunkt. Sie werden immer als einzelne Anfrage gesendet.

Tipps und Tricks

Tipps:

Für beste Ergebnisse sollten die Dokumente eine möglichst gute Scanqualität aufweisen.
Testen Sie zunächst ohne additionalParameters. Nicht jeder Server unterstützt alle Optionen, manche führen zu HTTP-500-Fehlern.
Bei großen PDFs (mehr als 10 Seiten) erfolgt das Chunking automatisch. Sie können die Chunk-Größe über maxPagesPerChunk anpassen.
Da PaddleOCR-VL selbst gehostet wird, verlassen Ihre Dokumente nicht das eigene Netzwerk – ideal für datenschutzsensible Anwendungsfälle.
Das Tool gibt HTML zurück (nicht Markdown wie Mistral OCR). Berücksichtigen Sie dies bei der Weiterverarbeitung.