Durchsuchbare Dokumentation aufrufen | Zurück zur Dokumentationsübersicht

Navigation: Dokumentationen agorum core > agorum core Module und Plugins > ALBERT | AI Agents > ALBERT| AI KI-Tools-Dokumentationen


whisper_transcribe

Anzeigename: Transcribes an audio file via a Whisper server

Technischer Name: agorum_ai_agents_library_basic_whisper_transcribe

Hinweise

  • Diese Dokumentation bezieht sich auf die aktuellste Version des Plugins ALBERT | AI Agents. Aktualisieren Sie das hier beschriebene Plugin, um die Dokumentation verwenden zu können.
  • Wie Sie die KI-Tools in Ihren KI-Voreinstellungen verwenden, erfahren Sie hier: ALBERT | AI agents tools einrichten

Was macht das Tool?

Das Tool whisper_transcribe transkribiert eine Audiodatei, die in agorum core gespeichert ist, über einen OpenAI-kompatiblen Whisper-Server. Die Audiodatei wird anhand ihrer agorum core Objekt-ID referenziert und als multipart/form-data an den Whisper-Server gesendet.

Das Tool verwendet intern die Whisper-Bibliothek, die automatisches Chunking für große Dateien unterstützt: Dateien, die das Upload-Limit des Servers überschreiten, werden transparent in mehrere Teile zerlegt, einzeln transkribiert und das Ergebnis wird zu einem zusammenhängenden Text zusammengefügt. 

Empfohlener Einsatzzweck

Verwenden Sie whisper_transcribe, um:

Funktionsbeschreibung

Die folgende Tabelle beschreibt die Parameter des Tools. Parameter, die mit (nur Konfiguration) gekennzeichnet sind, werden in der Tool-Konfiguration durch den Administrator festgelegt und sind für die KI nicht sichtbar.

Parameter Beschreibung
id
(Pflicht)
agorum core Objekt (Audio-Datei, z. B. mp3), das transkribiert werden soll. Angabe als ID, UUID oder Pfad.
Unterstützte Formate: mp3, m4a, mp4, wav, webm, ogg, flac.
language
(Optional)
Sprachcode (z. B. de, en, fr). Gibt dem Whisper-Server einen Hinweis auf die erwartete Sprache der Audio-Datei. Lassen Sie den Wert leer oder lassen Sie den Parameter weg, um die automatische Spracherkennung des Servers zu nutzen.
Standard: – (automatische Erkennung)
model
(Optional)
Name des Whisper-Modells (z. B. large-v3). Optional, abhängig von der Konfiguration des Whisper-Servers. Lassen Sie den Wert leer, um das Standardmodell des Servers zu verwenden.
Standard: – (Standardmodell des Servers)
additionalParameters
(Optional)
Optionales JSON-Objekt als String mit zusätzlichen Whisper-Parametern, die als Multipart-Formularfelder an den Server weitergereicht werden.
Beispiel: {"prompt": "...", "temperature": "0", "response_format": "json"}

Schlüssel, die von der Whisper-Bibliothek reserviert sind (url, path, filename, mimeType, connectionTimeout, receiveTimeout, apiKey), werden ignoriert.
Standard: –
url
(Pflicht, nur Konfiguration)
URL des Whisper-Servers. Entweder eine Basis-URL (z. B. http://10.0.0.22:8010), in diesem Fall wird der Standard-Endpoint /v1/audio/transcriptions angehängt, oder eine vollständige Endpoint-URL (z. B. https://llm-api.example.com/cohere-transcribe/v1/audio/transcriptions).
path
(Optional, nur Konfiguration)
Optionaler Override des Endpoint-Pfads. Wenn gesetzt, hat dieser Wert immer Vorrang vor dem in url eingebetteten Pfad.
Standard: /v1/audio/transcriptions (wenn weder path noch ein nicht-trivialer Pfad in url angegeben ist)
apiKey
(Optional, nur Konfiguration)
Optionaler API-Schlüssel. Wenn gesetzt, wird er als Authorization: Bearer <apiKey>-Header an den Whisper-Server gesendet.
Der Wert wird verschlüsselt gespeichert.
Standard: – (keine Authentifizierung)
aiContextToolPrompt
(Optional, nur Konfiguration)
Ein Freitext-Prompt, der beim Laden des Tools automatisch in den System-Kontext des Chats eingefügt wird. Über diesen Parameter können Sie dem Tool feste Arbeitsanweisungen, Regeln oder zusätzlichen Kontext mitgeben, ohne dass die KI den Parameter selbst sieht oder setzen kann.
  • Der Wert wird nicht an die KI als Tool-Parameter übertragen.
  • Stattdessen wird der Text vor jedem KI-Aufruf gesammelt und dem System-Prompt vorangestellt.

Typische Anwendungsfälle: Feste Regeln für die Transkription vorgeben, zusätzlichen Kontext liefern oder das Verhalten der KI bei der Nutzung des Tools steuern.

Standard: – (kein Prompt)

 

Tool-Einstellungen von whisper_transcribe

Beispiel

Beispiel-Prompt:

Transkribiere die angehängte Datei

 

Antwort der KI:

Die Transkription der Datei "test.wav" (uuid: 50ba4730-5517-11f1-bad7-02420a0a0017) ergibt folgenden Text:

Test

 

Für weitere Informationen zur Anwendung siehe Audio- und Videodateien mit Whisper transkribieren.

Tipps und Tricks

Tipp: Große Audiodateien werden automatisch in Chunks aufgeteilt und transparent transkribiert. Sie müssen sich nicht um Dateigrößenlimits kümmern.

Tipp: Über den Parameter additionalParameters können Sie erweiterte Whisper-Optionen nutzen, z. B. {"temperature": "0"} für deterministischere Ergebnisse oder {"response_format": "verbose_json"} für detaillierte Zeitstempel.