History Compaction

Technischer Name: agorum_ai_history_compaction

Anzeigename: Compact history on demand/Historie bei Bedarf zusammenfassen

Was macht der Handler?

Der Handler agorum_ai_history_compaction ist ein KI-Handler, der die Konversationshistorie automatisch komprimiert, sobald das Kontextfenster des KI-Modells einen definierten Schwellenwert überschreitet.

Funktionsweise

Der Handler arbeitet nach folgendem Prinzip:

Bei jeder Benutzeranfrage wird die aktuelle Auslastung des Kontextfensters berechnet. Dazu werden die Token-Werte (input, output, cache_read, cache_write) aus dem letzten Historieneintrag herangezogen.
Die Auslastung wird prozentual mit dem maximalen Kontextfenster des verwendeten KI-Modells verglichen.
Wenn die Auslastung den konfigurierten Schwellenwert überschreitet (Standard: 75%), wird eine Komprimierung ausgelöst.
Für die Komprimierung wird ein spezieller Prompt verwendet, der die KI anweist, eine strukturierte Zusammenfassung des bisherigen Gesprächsverlaufs zu erstellen.
Die Zusammenfassung enthält alle relevanten Informationen wie Ziele, Entscheidungen, erledigte Arbeiten, Dateireferenzen (UUIDs und Pfade) sowie offene Aufgaben.
Die ursprüngliche Historie wird als "disabledForAi" markiert und die komprimierte Zusammenfassung wird als neuer Kontext eingefügt.
Die Konversation wird nahtlos mit einem internen Prompt fortgesetzt, der die KI anweist, basierend auf der Zusammenfassung weiterzuarbeiten.

Empfohlener Einsatzzweck

Der Handler eignet sich besonders für:

Lange Konversationen: Bei Gesprächen, die über einen längeren Zeitraum laufen und viele Nachrichten enthalten, verhindert der Handler das Erreichen der Kontextgrenzen des KI-Modells.
Komplexe Aufgaben: Bei mehrstufigen Aufgaben, die viele Zwischenergebnisse und Entscheidungen erfordern, bleiben die wesentlichen Informationen erhalten.
Token-Optimierung: Der Handler reduziert die Token-Nutzung und damit verbundene Kosten, indem er redundante oder weniger relevante Informationen entfernt.
Kontinuierliche Arbeitssitzungen: Für Szenarien, in denen die KI über einen längeren Zeitraum an einer Aufgabe arbeiten soll, ohne dass der Kontext verloren geht.

Einstellungen

Parameter	Beschreibung
Schwelle für Zusammenfassung des verbrauchten Kontext-Fensters in % (optional)	Schwellenwert in Prozent, ab dem die Historie komprimiert wird. Wenn die Auslastung des Kontextfensters diesen Wert überschreitet, wird die Komprimierung ausgelöst. Standard: 75

Verwendung in KI-Voreinstellungen

Der Handler kann zusammen mit anderen Handlern in einer KI-Voreinstellung verwendet werden. Bei der Reihenfolge ist Folgendes zu beachten:

Der Handler sollte früh in der Handler-Kette eingebunden werden (idealerweise als einer der ersten Handler), damit die Historie komprimiert wird, bevor andere Handler ihre Verarbeitung durchführen.
Der Handler arbeitet im before-Hook und modifiziert die Historie sowie den Input direkt, bevor die eigentliche KI-Anfrage gesendet wird.
Andere Handler, die ebenfalls die Historie oder den Input verändern, sollten nach diesem Handler ausgeführt werden, um auf der (ggf. bereits komprimierten) Historie zu arbeiten.

Hinweis: Der Handler deaktiviert während der Komprimierung alle anderen Handler, um Endlosschleifen zu vermeiden. Die Komprimierung selbst ist ein interner KI-Aufruf, der keine externen Handler auslöst.