Durchsuchbare Dokumentation aufrufen | Zurück zur Dokumentationsübersicht

Navigation: Dokumentationen agorum core > agorum core Module und Plugins > ALBERT | AI Agents


PaddleOCR einrichten

Hinweis: Diese Dokumentation bezieht sich auf die aktuellste Version des Plugins ALBERT | AI Agents. Aktualisieren Sie das hier beschriebene Plugin, um die Dokumentation verwenden zu können.

ALBERT | AI Agents bietet mit dem KI-Tool paddle_ocr_layout_parsing die Möglichkeit, Dokumente (PDFs und Bilder) per OCR und Layout-Parsing zu analysieren. Die Verarbeitung erfolgt über einen selbst betriebenen PaddleOCR-VL-Server. Ihre Dokumente verlassen dabei nicht Ihr Netzwerk.

Tipp: Da PaddleOCR-VL selbst gehostet wird, verlassen Ihre Dokumente nicht das eigene Netzwerk. Dies macht das Tool ideal für datenschutzsensible Anwendungsfälle, bei denen keine externen Cloud-Dienste verwendet werden dürfen.

Diese Anleitung beschreibt, wie Sie das PaddleOCR-Tool in ALBERT | AI Agents einrichten.

Voraussetzungen

PaddleOCR-Tool konfigurieren

Gehen Sie wie folgt vor, um das PaddleOCR-Tool in ALBERT | AI Agents einzurichten:

  1. Öffnen Sie in der Kopfleiste Ξ > Administration > Konfiguration > KI-Tools.

    Ergebnis: Das Fenster KI-Tools öffnet sich mit einer Liste aller verfügbaren Tools.
     
  2. Suchen Sie das Tool agorum_ai_agents_library_basic_paddle_ocr_layout_parsing in der Liste und klicken Sie auf Bearbeiten.

    Ergebnis: Das Fenster Tool einrichten öffnet sich.
     
  3. Konfigurieren Sie die Verbindungseinstellungen:
     
    Einstellung Beschreibung
    url Die URL des PaddleOCR-VL-Servers. Geben Sie entweder eine Basis-URL an (z. B. https://llm-api.bunker.onprem.ai/paddleocr-vl), in diesem Fall wird automatisch der Standard-Endpunkt /layout-parsing angehängt, oder eine vollständige Endpunkt-URL (z. B. https://llm-api.bunker.onprem.ai/paddleocr-vl/layout-parsing).

    Hinweis: Falls eine vollständige URL gesetzt wird, wird diese genommen, ohne das Anhängen des Pfades.
    apiKey Optionaler API-Schlüssel. Wenn angegeben, wird er als Authorization: Bearer <apiKey>-Header an den Server gesendet. Lassen Sie das Feld leer, wenn Ihr Server keine Authentifizierung erfordert.

    Der Wert wird verschlüsselt gespeichert.
    path Optionale Überschreibung des Endpunkt-Pfads. Wenn gesetzt, hat dieser Wert immer Vorrang vor dem in der URL eingebetteten Pfad.

    Standard: /layout-parsing. In den meisten Fällen kann dieses Feld leer bleiben.
    authScheme Authentifizierungsschema für den Authorization-Header.
    • Bearer (Standard, RFC 6750) – für die meisten Server
    • token – für PaddleOCR-doc-Style-Server
    In den meisten Fällen kann dieses Feld leer bleiben (Standard: Bearer).
    maxPagesPerChunk Maximale Anzahl von PDF-Seiten pro Chunk-Anfrage. Standard: 10.

    Dieser Wert sollte dem Server-Limit entsprechen. Der PaddleOCR-VL-Server verarbeitet standardmäßig maximal 10 Seiten pro Anfrage. PDFs mit mehr Seiten werden automatisch in entsprechende Batches aufgeteilt.
    aiContextToolPrompt Optionaler Prompt, der automatisch in den Kontext-Prompt des Chats eingefügt wird, wenn dieses Tool geladen ist. Kann verwendet werden, um der KI zusätzliche Anweisungen zur Verwendung des Tools zu geben.
  4. Klicken Sie auf Speichern.

    Ergebnis: Die Tool-Konfiguration ist gespeichert.

 

Für weitere Informationen siehe paddle_ocr_layout_parsing.

Tool in KI-Voreinstellung aktivieren

Damit das PaddleOCR-Tool im Chat verfügbar ist, müssen Sie es in einer KI-Voreinstellung (Preset) aktivieren, indem Sie es hinzufügen:

  1. Öffnen Sie Ξ > Administration > Konfiguration > KI-Voreinstellungen.
  2. Wählen Sie die gewünschte KI-Voreinstellung aus oder erstellen Sie eine neue.
  3. Fügen Sie das Tool agorum_ai_agents_library_basic_paddle_ocr_layout_parsing zur Tools-Liste hinzu.
  4. Klicken Sie auf Speichern.

Für weitere Informationen siehe ALBERT | AI Agents KI-Tools einrichten

Verbindung testen

Um die Verbindung zum PaddleOCR-VL-Server zu testen:

  1. Öffnen Sie einen ALBERT-Chat mit der KI-Voreinstellung, in der das PaddleOCR-Tool aktiviert ist.
  2. Laden Sie ein Testdokument (PDF oder Bild) in agorum core hoch.
  3. Bitten Sie die KI, das Dokument zu analysieren, z. B.: „Analysiere den Inhalt dieses Dokuments per OCR“ und übergeben Sie das Dokument als Kontext.
  4. Bei erfolgreicher Verbindung erhalten Sie das erkannte HTML zurück.

Fehlerbehebung

Problem Lösung
Verbindungsfehler / Timeout Überprüfen Sie, ob der PaddleOCR-VL-Server läuft und von agorum core aus erreichbar ist. Testen Sie die URL z. B. mit curl.
HTTP 401 / 403 Überprüfen Sie den API-Key und das authScheme in der Tool-Konfiguration.
HTTP 500 bei bestimmten Parametern Nicht jeder PaddleOCR-VL-Server unterstützt alle additionalParameters. Entfernen Sie zusätzliche Parameter und testen Sie erneut ohne Extras.
Leeres Ergebnis / kein HTML Stellen Sie sicher, dass das Dokument lesbar ist und eine ausreichende Scanqualität aufweist. Prüfen Sie, ob der richtige fileType erkannt wurde (PDF vs. Bild).