Whisper-Spracherkennung im Chat verwenden

Hinweis: Diese Dokumentation bezieht sich auf die aktuellste Version des Plugins ALBERT | AI. Aktualisieren Sie das hier beschriebene Plugin, um die Dokumentation verwenden zu können.

Wenn Ihr Administrator die Whisper-Spracherkennung eingerichtet hat, steht Ihnen in ALBERTs Chat ein erweiterter Spracheingabe-Modus zur Verfügung. In diesem Modus wird Ihre Spracheingabe aufgenommen und anschließend von einem Whisper-Server transkribiert. Der transkribierte Text erscheint im Chat-Eingabefeld und kann vor dem Absenden noch bearbeitet werden.

Voraussetzungen

Ihr Administrator hat die Whisper-Spracherkennung eingerichtet und aktiviert.
Ihr Browser hat Zugriff auf ein Mikrofon.
Sie haben die Berechtigung, ALBERTs Chat zu verwenden.

Spracheingabe mit Whisper verwenden

Gehen Sie wie folgt vor, um die Spracheingabe im Whisper-Modus zu verwenden:

Öffnen Sie ALBERTs Chat (siehe ALBERTs Chat öffnen).
Klicken Sie rechts unterhalb des Chat-Eingabefelds auf das Mikrofon-Symbol.

Abhängig von Ihren Browser-Einstellungen müssen Sie, mindestens bei der ersten Verwendung, bestätigen, dass das Mikrofon verwendet werden darf.

Ergebnis: Die Aufnahme startet. Das Mikrofon-Symbol zeigt an, dass eine Aufnahme läuft.
Sprechen Sie Ihren Text.

Hinweis: Im Whisper-Modus wird der Text nicht in Echtzeit im Eingabefeld angezeigt. Der gesprochene Text wird erst nach dem Beenden der Aufnahme transkribiert und dann vollständig im Eingabefeld eingefügt.
Beenden Sie die Aufnahme, indem Sie erneut auf das Mikrofon-Symbol klicken.

Ergebnis: Die Aufnahme wird beendet. Die Audio-Daten werden an den Whisper-Server gesendet und transkribiert. Nach kurzer Verarbeitungszeit erscheint der transkribierte Text im Chat-Eingabefeld.
Optional: Bearbeiten Sie den transkribierten Text im Eingabefeld.
Senden Sie den Text ab, indem Sie Strg+Enter drücken oder auf das Pfeil-nach-oben-Symbol klicken. Alternativ können Sie auch das Sprachkommando „ALBERT“ am Ende Ihrer Aufnahme sprechen, um den Text automatisch abzusenden.

Ergebnis: Der Text wird an die KI geschickt. Die Antwort sehen Sie unterhalb der Frage im Hauptanzeigefenster.

Tipp: Die Aufnahme wird nach der vom Administrator konfigurierten maximalen Aufnahmedauer automatisch beendet (Standard: 60 Sekunden). Wenn Sie längere Texte diktieren möchten, können Sie die Aufnahme in mehreren Schritten durchführen.

Unterschiede zwischen Whisper- und Browser-nativer Spracherkennung

Je nach Konfiguration Ihres Systems wird einer von zwei Spracheingabe-Modi verwendet. Die folgende Tabelle zeigt die wesentlichen Unterschiede:

Merkmal	Browser-native Spracherkennung	Whisper-Spracherkennung
Textanzeige	Text erscheint nach einer kurzen Sprachpause während des Sprechens im Eingabefeld.	Text erscheint nach einer kurzen Sprachpause während des Sprechens im Eingabefeld.
Erkennungsgenauigkeit	Abhängig vom Browser und der Internetverbindung. Gut für Alltagssprache.	In der Regel höhere Genauigkeit, insbesondere bei Fachbegriffen, Eigennamen und Fremdsprachen, abhängig vom verwendeten Modell.
Mehrsprachigkeit	Abhängig von der Browserunterstützung. Nicht alle Sprachen werden unterstützt.	Unterstützt viele Sprachen, abhängig vom verwendeten Whisper-Modell.
Datenverarbeitung	Die Spracherkennung erfolgt über den Browser-Dienst (in der Regel Google-Server bei Chrome).	Die Audio-Daten werden an den vom Administrator konfigurierten Whisper-Server gesendet. Bei einem selbst gehosteten Server verlassen die Daten Ihr Netzwerk nicht.
Internetverbindung	Erfordert in der Regel eine Internetverbindung (abhängig vom Browser).	Erfordert nur die Erreichbarkeit des Whisper-Servers (kann auch im lokalen Netzwerk sein).
Konfiguration	Keine Konfiguration erforderlich. Standardmäßig aktiv.	Muss vom Administrator eingerichtet werden.

Hinweis: Welcher Modus aktiv ist, wird automatisch vom System bestimmt. Wenn die Whisper-Spracherkennung vom Administrator aktiviert wurde, wird sie automatisch verwendet. Sie müssen als Benutzer nichts umstellen.