Durchsuchbare Dokumentation aufrufen | Zurück zur Dokumentationsübersicht
Navigation: Dokumentationen agorum core > agorum core Module und Plugins > ALBERT | AI Agents
Hinweis: Diese Dokumentation bezieht sich auf die aktuellste Version des Plugins ALBERT | AI Agents. Aktualisieren Sie das hier beschriebene Plugin, um die Dokumentation verwenden zu können.
ALBERT | AI Agents bietet mit dem KI-Tool paddle_ocr_layout_parsing die Möglichkeit, Dokumente (PDFs und Bilder) per OCR und Layout-Parsing zu analysieren. Die Verarbeitung erfolgt über einen selbst betriebenen PaddleOCR-VL-Server. Ihre Dokumente verlassen dabei nicht Ihr Netzwerk.
Tipp: Da PaddleOCR-VL selbst gehostet wird, verlassen Ihre Dokumente nicht das eigene Netzwerk. Dies macht das Tool ideal für datenschutzsensible Anwendungsfälle, bei denen keine externen Cloud-Dienste verwendet werden dürfen.
Diese Anleitung beschreibt, wie Sie das PaddleOCR-Tool in ALBERT | AI Agents einrichten.
Tipp: PaddleOCR-VL kann als Docker-Container oder als eigenständiger Dienst betrieben werden. Informationen zur Installation und Konfiguration des Servers finden Sie in der offiziellen PaddleOCR-Dokumentation.
Gehen Sie wie folgt vor, um das PaddleOCR-Tool in ALBERT | AI Agents einzurichten:
| Einstellung | Beschreibung |
|---|---|
| url | Die URL des PaddleOCR-VL-Servers. Geben Sie entweder eine Basis-URL an (z. B. https://llm-api.bunker.onprem.ai/paddleocr-vl), in diesem Fall wird automatisch der Standard-Endpunkt /layout-parsing angehängt, oder eine vollständige Endpunkt-URL (z. B. https://llm-api.bunker.onprem.ai/paddleocr-vl/layout-parsing).Hinweis: Falls eine vollständige URL gesetzt wird, wird diese genommen, ohne das Anhängen des Pfades. |
| apiKey | Optionaler API-Schlüssel. Wenn angegeben, wird er als Authorization: Bearer <apiKey>-Header an den Server gesendet. Lassen Sie das Feld leer, wenn Ihr Server keine Authentifizierung erfordert.Der Wert wird verschlüsselt gespeichert. |
| path | Optionale Überschreibung des Endpunkt-Pfads. Wenn gesetzt, hat dieser Wert immer Vorrang vor dem in der URL eingebetteten Pfad. Standard: /layout-parsing. In den meisten Fällen kann dieses Feld leer bleiben. |
| authScheme | Authentifizierungsschema für den Authorization-Header.
|
| maxPagesPerChunk | Maximale Anzahl von PDF-Seiten pro Chunk-Anfrage. Standard: 10.Dieser Wert sollte dem Server-Limit entsprechen. Der PaddleOCR-VL-Server verarbeitet standardmäßig maximal 10 Seiten pro Anfrage. PDFs mit mehr Seiten werden automatisch in entsprechende Batches aufgeteilt. |
| aiContextToolPrompt | Optionaler Prompt, der automatisch in den Kontext-Prompt des Chats eingefügt wird, wenn dieses Tool geladen ist. Kann verwendet werden, um der KI zusätzliche Anweisungen zur Verwendung des Tools zu geben. |
Für weitere Informationen siehe paddle_ocr_layout_parsing.
Damit das PaddleOCR-Tool im Chat verfügbar ist, müssen Sie es in einer KI-Voreinstellung (Preset) aktivieren, indem Sie es hinzufügen:
Für weitere Informationen siehe ALBERT | AI Agents KI-Tools einrichten
Um die Verbindung zum PaddleOCR-VL-Server zu testen:
| Problem | Lösung |
|---|---|
| Verbindungsfehler / Timeout | Überprüfen Sie, ob der PaddleOCR-VL-Server läuft und von agorum core aus erreichbar ist. Testen Sie die URL z. B. mit curl. |
| HTTP 401 / 403 | Überprüfen Sie den API-Key und das authScheme in der Tool-Konfiguration. |
| HTTP 500 bei bestimmten Parametern | Nicht jeder PaddleOCR-VL-Server unterstützt alle additionalParameters. Entfernen Sie zusätzliche Parameter und testen Sie erneut ohne Extras. |
| Leeres Ergebnis / kein HTML | Stellen Sie sicher, dass das Dokument lesbar ist und eine ausreichende Scanqualität aufweist. Prüfen Sie, ob der richtige fileType erkannt wurde (PDF vs. Bild). |