whisper_transcribe

Anzeigename: Transcribes an audio file via a Whisper server

Technischer Name: agorum_ai_agents_library_basic_whisper_transcribe

Hinweise:

Diese Dokumentation bezieht sich auf die aktuellste Version des Plugins ALBERT | AI Agents. Aktualisieren Sie das hier beschriebene Plugin, um die Dokumentation verwenden zu können.
Wie Sie die KI-Tools in Ihren KI-Voreinstellungen verwenden, erfahren Sie hier: ALBERT | AI agents tools einrichten

Was macht das Tool?

Das Tool whisper_transcribe transkribiert eine Audiodatei, die in agorum core gespeichert ist, über einen OpenAI-kompatiblen Whisper-Server. Die Audiodatei wird anhand ihrer agorum core Objekt-ID referenziert und als multipart/form-data an den Whisper-Server gesendet.

Das Tool verwendet intern die Whisper-Bibliothek, die automatisches Chunking für große Dateien unterstützt: Dateien, die das Upload-Limit des Servers überschreiten, werden transparent in mehrere Teile zerlegt, einzeln transkribiert und das Ergebnis wird zu einem zusammenhängenden Text zusammengefügt.

Empfohlener Einsatzzweck

Verwenden Sie whisper_transcribe, um:

Audio-Aufnahmen (Meetings, Interviews, Podcasts, Sprachmemos) in Text umzuwandeln
Videodateien zu transkribieren (die Audio-Spur wird extrahiert und transkribiert)
Transkripte als Grundlage für Zusammenfassungen, Protokolle oder Suchindizes zu erstellen

Funktionsbeschreibung

Die folgende Tabelle beschreibt die Parameter des Tools. Parameter, die mit (nur Konfiguration) gekennzeichnet sind, werden in der Tool-Konfiguration durch den Administrator festgelegt und sind für die KI nicht sichtbar.

Parameter	Beschreibung
id (Pflicht)	agorum core Objekt (Audio-Datei, z. B. mp3), das transkribiert werden soll. Angabe als ID, UUID oder Pfad. Unterstützte Formate: `mp3`, `m4a`, `mp4`, `wav`, `webm`, `ogg`, `flac`.
language (Optional)	Sprachcode (z. B. `de`, `en`, `fr`). Gibt dem Whisper-Server einen Hinweis auf die erwartete Sprache der Audio-Datei. Lassen Sie den Wert leer oder lassen Sie den Parameter weg, um die automatische Spracherkennung des Servers zu nutzen. Standard: – (automatische Erkennung)
model (Optional)	Name des Whisper-Modells (z. B. `large-v3`). Optional, abhängig von der Konfiguration des Whisper-Servers. Lassen Sie den Wert leer, um das Standardmodell des Servers zu verwenden. Standard: – (Standardmodell des Servers)
additionalParameters (Optional)	Optionales JSON-Objekt als String mit zusätzlichen Whisper-Parametern, die als Multipart-Formularfelder an den Server weitergereicht werden. Beispiel: `{"prompt": "...", "temperature": "0", "response_format": "json"}` Schlüssel, die von der Whisper-Bibliothek reserviert sind (`url`, `path`, `filename`, `mimeType`, `connectionTimeout`, `receiveTimeout`, `apiKey`), werden ignoriert. Standard: –
url (Pflicht, nur Konfiguration)	URL des Whisper-Servers. Entweder eine Basis-URL (z. B. `http://10.0.0.22:8010`), in diesem Fall wird der Standard-Endpoint `/v1/audio/transcriptions` angehängt, oder eine vollständige Endpoint-URL (z. B. `https://llm-api.example.com/cohere-transcribe/v1/audio/transcriptions`).
path (Optional, nur Konfiguration)	Optionaler Override des Endpoint-Pfads. Wenn gesetzt, hat dieser Wert immer Vorrang vor dem in `url` eingebetteten Pfad. Standard: `/v1/audio/transcriptions` (wenn weder `path` noch ein nicht-trivialer Pfad in `url` angegeben ist)
apiKey (Optional, nur Konfiguration)	Optionaler API-Schlüssel. Wenn gesetzt, wird er als `Authorization: Bearer <apiKey>`-Header an den Whisper-Server gesendet. Der Wert wird verschlüsselt gespeichert. Standard: – (keine Authentifizierung)
aiContextToolPrompt (Optional, nur Konfiguration)	Ein Freitext-Prompt, der beim Laden des Tools automatisch in den System-Kontext des Chats eingefügt wird. Über diesen Parameter können Sie dem Tool feste Arbeitsanweisungen, Regeln oder zusätzlichen Kontext mitgeben, ohne dass die KI den Parameter selbst sieht oder setzen kann. Der Wert wird nicht an die KI als Tool-Parameter übertragen. Stattdessen wird der Text vor jedem KI-Aufruf gesammelt und dem System-Prompt vorangestellt. Typische Anwendungsfälle: Feste Regeln für die Transkription vorgeben, zusätzlichen Kontext liefern oder das Verhalten der KI bei der Nutzung des Tools steuern. Standard: – (kein Prompt)

Tool-Einstellungen von whisper_transcribe

Beispiel

Beispiel-Prompt:

Transkribiere die angehängte Datei

Antwort der KI:

Die Transkription der Datei "test.wav" (uuid: 50ba4730-5517-11f1-bad7-02420a0a0017) ergibt folgenden Text:

Test

Für weitere Informationen zur Anwendung siehe Audio- und Videodateien mit Whisper transkribieren.

Tipps und Tricks

Tipp: Große Audiodateien werden automatisch in Chunks aufgeteilt und transparent transkribiert. Sie müssen sich nicht um Dateigrößenlimits kümmern.

Tipp: Über den Parameter additionalParameters können Sie erweiterte Whisper-Optionen nutzen, z. B. {"temperature": "0"} für deterministischere Ergebnisse oder {"response_format": "verbose_json"} für detaillierte Zeitstempel.