History Compaction
Technischer Name: agorum_ai_history_compaction
Anzeigename: Compact history on demand/Historie bei Bedarf zusammenfassen
Was macht der Handler?
Der Handler agorum_ai_history_compaction ist ein KI-Handler, der die Konversationshistorie automatisch komprimiert, sobald das Kontextfenster des KI-Modells einen definierten Schwellenwert überschreitet.
Funktionsweise
Der Handler arbeitet nach folgendem Prinzip:
- Bei jeder Benutzeranfrage wird die aktuelle Auslastung des Kontextfensters berechnet. Dazu werden die Token-Werte (input, output, cache_read, cache_write) aus dem letzten Historieneintrag herangezogen.
- Die Auslastung wird prozentual mit dem maximalen Kontextfenster des verwendeten KI-Modells verglichen.
- Wenn die Auslastung den konfigurierten Schwellenwert überschreitet (Standard: 75%), wird eine Komprimierung ausgelöst.
- Für die Komprimierung wird ein spezieller Prompt verwendet, der die KI anweist, eine strukturierte Zusammenfassung des bisherigen Gesprächsverlaufs zu erstellen.
- Die Zusammenfassung enthält alle relevanten Informationen wie Ziele, Entscheidungen, erledigte Arbeiten, Dateireferenzen (UUIDs und Pfade) sowie offene Aufgaben.
- Die ursprüngliche Historie wird als "disabledForAi" markiert und die komprimierte Zusammenfassung wird als neuer Kontext eingefügt.
- Die Konversation wird nahtlos mit einem internen Prompt fortgesetzt, der die KI anweist, basierend auf der Zusammenfassung weiterzuarbeiten.
Empfohlener Einsatzzweck
Der Handler eignet sich besonders für:
- Lange Konversationen: Bei Gesprächen, die über einen längeren Zeitraum laufen und viele Nachrichten enthalten, verhindert der Handler das Erreichen der Kontextgrenzen des KI-Modells.
- Komplexe Aufgaben: Bei mehrstufigen Aufgaben, die viele Zwischenergebnisse und Entscheidungen erfordern, bleiben die wesentlichen Informationen erhalten.
- Token-Optimierung: Der Handler reduziert die Token-Nutzung und damit verbundene Kosten, indem er redundante oder weniger relevante Informationen entfernt.
- Kontinuierliche Arbeitssitzungen: Für Szenarien, in denen die KI über einen längeren Zeitraum an einer Aufgabe arbeiten soll, ohne dass der Kontext verloren geht.
Einstellungen
| Parameter |
Beschreibung |
Schwelle für Zusammenfassung des verbrauchten Kontext-Fensters in % (optional) |
Schwellenwert in Prozent, ab dem die Historie komprimiert wird. Wenn die Auslastung des Kontextfensters diesen Wert überschreitet, wird die Komprimierung ausgelöst. Standard: 75 |
Verwendung in KI-Voreinstellungen
Der Handler kann zusammen mit anderen Handlern in einer KI-Voreinstellung verwendet werden. Bei der Reihenfolge ist Folgendes zu beachten:
- Der Handler sollte früh in der Handler-Kette eingebunden werden (idealerweise als einer der ersten Handler), damit die Historie komprimiert wird, bevor andere Handler ihre Verarbeitung durchführen.
- Der Handler arbeitet im before-Hook und modifiziert die Historie sowie den Input direkt, bevor die eigentliche KI-Anfrage gesendet wird.
- Andere Handler, die ebenfalls die Historie oder den Input verändern, sollten nach diesem Handler ausgeführt werden, um auf der (ggf. bereits komprimierten) Historie zu arbeiten.
Hinweis: Der Handler deaktiviert während der Komprimierung alle anderen Handler, um Endlosschleifen zu vermeiden. Die Komprimierung selbst ist ein interner KI-Aufruf, der keine externen Handler auslöst.