Audio- und Videodateien mit Whisper transkribieren

Hinweis: Diese Dokumentation bezieht sich auf die aktuellsten Versionen der ALBERT | AI Plugins. Aktualisieren Sie die hier beschriebenen Plugins, um die Dokumentation verwenden zu können.

Mit dem KI-Tool whisper_transcribe können Sie Audio- und Videodateien, die in agorum core gespeichert sind, automatisch in Text umwandeln lassen. Die Transkription erfolgt über einen OpenAI-kompatiblen Whisper-Server. Das Tool wird von der KI im Chat automatisch verwendet, wenn Sie die KI bitten, eine Audio- oder Videodatei zu transkribieren.

Voraussetzungen

Das Plugin ALBERT | AI Agents ist installiert und lizenziert.
Ihr Administrator hat das KI-Tool whisper_transcribe in einer KI-Voreinstellung aktiviert und konfiguriert.
Sie verwenden eine KI-Voreinstellung, in der das Whisper-Tool verfügbar ist.

Eine Audio- oder Video-Datei transkribieren

Gehen Sie wie folgt vor, um eine Audio-Datei zu transkribieren:

Öffnen Sie ALBERTs Chat (siehe ALBERTs Chat öffnen).
Wählen Sie eine KI-Voreinstellung, in der das Whisper-Tool aktiviert ist.
Fügen Sie die Audio- oder Videodatei zum Chat hinzu. Sie haben dafür mehrere Möglichkeiten:
• Klicken Sie auf das Plus-Symbol und wählen Sie die Datei in agorum core aus.
• Klicken Sie auf das Symbol zum Hochladen und wählen Sie die Datei auf dem von Ihnen verwendeten Gerät aus.

Geben Sie im Chat-Eingabefeld eine Anweisung ein, z. B.:

Transkribiere die angehängte Audio-Datei auf Deutsch.

oder:

Bitte erstelle ein Transkript der angehängten Datei.

Senden Sie die Nachricht ab (Strg+Enter oder Pfeil-nach-oben-Symbol).

Ergebnis: Die KI erkennt die Audio- oder Video-Datei und verwendet automatisch das Whisper-Tool, um die Datei zu transkribieren. Der transkribierte Text wird in der Chat-Antwort angezeigt.

Hinweise für die Transkription:

Die Qualität der Transkription hängt maßgeblich von der Qualität des Audiomaterials ab. Klare Aufnahmen ohne starke Hintergrundgeräusche liefern die besten Ergebnisse.
Geben Sie die Sprache der Audio-Datei in Ihrer Anweisung an (z. B. „Transkribiere auf Deutsch“), wenn diese nicht durch Ihren Administator voreingestellt ist. Dadurch erhält der Whisper-Server einen Hinweis auf die erwartete Sprache und liefert in der Regel genauere Ergebnisse.
Sie können den transkribierten Text direkt im Chat weiterverarbeiten lassen, z. B.: „Transkribiere die angehängte Audio-Datei und fasse den Inhalt in 5 Stichpunkten zusammen.“

Audio- und Videoformate

Unterstützte Dateiformate

Das Whisper-Tool unterstützt die folgenden Audio- und Videoformate:

Format	Dateiendung	Beschreibung
MP3	`.mp3`	Weit verbreitetes Audio-Format. Unterstützt automatisches Chunking für große Dateien.
MP4/M4A	`.mp4`, `.m4a`	Video- und Audio-Container-Format (AAC-Audio).
WAV	`.wav`	Unkomprimiertes Audio-Format.
WebM	`.webm`	Web-optimiertes Audio-/Video-Format.
OGG	`.ogg`	Offenes Audio-Format (Vorbis/Opus).
FLAC	`.flac`	Verlustfreies Audio-Format.

Große Dateien

Die Whisper-Bibliothek unterstützt automatisches Chunking für große Dateien. Wenn eine Datei das Upload-Limit des Whisper-Servers überschreitet (z. B. 10 MB oder 25 MB), wird sie automatisch in mehrere Teile zerlegt, einzeln transkribiert und das Ergebnis zu einem zusammenhängenden Text zusammengefügt.

Dieser Vorgang ist für Sie als Benutzer vollständig transparent: Sie geben eine große Datei an und erhalten den vollständigen Transkriptionstext zurück.