PaddleOCR einrichten

Hinweis: Diese Dokumentation bezieht sich auf die aktuellste Version des Plugins ALBERT | AI Agents. Aktualisieren Sie das hier beschriebene Plugin, um die Dokumentation verwenden zu können.

ALBERT | AI Agents bietet mit dem KI-Tool paddle_ocr_layout_parsing die Möglichkeit, Dokumente (PDFs und Bilder) per OCR und Layout-Parsing zu analysieren. Die Verarbeitung erfolgt über einen selbst betriebenen PaddleOCR-VL-Server. Ihre Dokumente verlassen dabei nicht Ihr Netzwerk.

Tipp: Da PaddleOCR-VL selbst gehostet wird, verlassen Ihre Dokumente nicht das eigene Netzwerk. Dies macht das Tool ideal für datenschutzsensible Anwendungsfälle, bei denen keine externen Cloud-Dienste verwendet werden dürfen.

Diese Anleitung beschreibt, wie Sie das PaddleOCR-Tool in ALBERT | AI Agents einrichten.

Voraussetzungen

Das Plugin ALBERT | AI Agents ist installiert und lizenziert.
Ein PaddleOCR-VL-Server ist verfügbar und über das Netzwerk von agorum core aus erreichbar.

Tipp: PaddleOCR-VL kann als Docker-Container oder als eigenständiger Dienst betrieben werden. Informationen zur Installation und Konfiguration des Servers finden Sie in der offiziellen PaddleOCR-Dokumentation.
Optional: Ein API-Key, falls Ihr PaddleOCR-VL-Server eine Authentifizierung erfordert.

PaddleOCR-Tool konfigurieren

Gehen Sie wie folgt vor, um das PaddleOCR-Tool in ALBERT | AI Agents einzurichten:

Öffnen Sie in der Kopfleiste Ξ > Administration > Konfiguration > KI-Tools.

Ergebnis: Das Fenster KI-Tools öffnet sich mit einer Liste aller verfügbaren Tools.
Suchen Sie das Tool agorum_ai_agents_library_basic_paddle_ocr_layout_parsing in der Liste und klicken Sie auf Bearbeiten.

Ergebnis: Das Fenster Tool einrichten öffnet sich.

Konfigurieren Sie die Verbindungseinstellungen:

Einstellung	Beschreibung
url	Die URL des PaddleOCR-VL-Servers. Geben Sie entweder eine Basis-URL an (z. B. `https://llm-api.bunker.onprem.ai/paddleocr-vl`), in diesem Fall wird automatisch der Standard-Endpunkt `/layout-parsing` angehängt, oder eine vollständige Endpunkt-URL (z. B. `https://llm-api.bunker.onprem.ai/paddleocr-vl/layout-parsing`). Hinweis: Falls eine vollständige URL gesetzt wird, wird diese genommen, ohne das Anhängen des Pfades.
apiKey	Optionaler API-Schlüssel. Wenn angegeben, wird er als `Authorization: Bearer <apiKey>`-Header an den Server gesendet. Lassen Sie das Feld leer, wenn Ihr Server keine Authentifizierung erfordert. Der Wert wird verschlüsselt gespeichert.
path	Optionale Überschreibung des Endpunkt-Pfads. Wenn gesetzt, hat dieser Wert immer Vorrang vor dem in der URL eingebetteten Pfad. Standard: `/layout-parsing`. In den meisten Fällen kann dieses Feld leer bleiben.
authScheme	Authentifizierungsschema für den Authorization-Header. `Bearer` (Standard, RFC 6750) – für die meisten Server `token` – für PaddleOCR-doc-Style-Server In den meisten Fällen kann dieses Feld leer bleiben (Standard: Bearer).
maxPagesPerChunk	Maximale Anzahl von PDF-Seiten pro Chunk-Anfrage. Standard: `10`. Dieser Wert sollte dem Server-Limit entsprechen. Der PaddleOCR-VL-Server verarbeitet standardmäßig maximal 10 Seiten pro Anfrage. PDFs mit mehr Seiten werden automatisch in entsprechende Batches aufgeteilt.
aiContextToolPrompt	Optionaler Prompt, der automatisch in den Kontext-Prompt des Chats eingefügt wird, wenn dieses Tool geladen ist. Kann verwendet werden, um der KI zusätzliche Anweisungen zur Verwendung des Tools zu geben.

Klicken Sie auf Speichern.

Ergebnis: Die Tool-Konfiguration ist gespeichert.

Für weitere Informationen siehe paddle_ocr_layout_parsing.

Tool in KI-Voreinstellung aktivieren

Damit das PaddleOCR-Tool im Chat verfügbar ist, müssen Sie es in einer KI-Voreinstellung (Preset) aktivieren, indem Sie es hinzufügen:

Öffnen Sie Ξ > Administration > Konfiguration > KI-Voreinstellungen.
Wählen Sie die gewünschte KI-Voreinstellung aus oder erstellen Sie eine neue.
Fügen Sie das Tool agorum_ai_agents_library_basic_paddle_ocr_layout_parsing zur Tools-Liste hinzu.
Klicken Sie auf Speichern.

Für weitere Informationen siehe ALBERT | AI Agents KI-Tools einrichten

Verbindung testen

Um die Verbindung zum PaddleOCR-VL-Server zu testen:

Öffnen Sie einen ALBERT-Chat mit der KI-Voreinstellung, in der das PaddleOCR-Tool aktiviert ist.
Laden Sie ein Testdokument (PDF oder Bild) in agorum core hoch.
Bitten Sie die KI, das Dokument zu analysieren, z. B.: „Analysiere den Inhalt dieses Dokuments per OCR“ und übergeben Sie das Dokument als Kontext.
Bei erfolgreicher Verbindung erhalten Sie das erkannte HTML zurück.

Fehlerbehebung

Problem	Lösung
Verbindungsfehler / Timeout	Überprüfen Sie, ob der PaddleOCR-VL-Server läuft und von agorum core aus erreichbar ist. Testen Sie die URL z. B. mit `curl`.
HTTP 401 / 403	Überprüfen Sie den API-Key und das authScheme in der Tool-Konfiguration.
HTTP 500 bei bestimmten Parametern	Nicht jeder PaddleOCR-VL-Server unterstützt alle `additionalParameters`. Entfernen Sie zusätzliche Parameter und testen Sie erneut ohne Extras.
Leeres Ergebnis / kein HTML	Stellen Sie sicher, dass das Dokument lesbar ist und eine ausreichende Scanqualität aufweist. Prüfen Sie, ob der richtige `fileType` erkannt wurde (PDF vs. Bild).