Search Engine

Search Engine aufrufen

Wählen Sie im agorum core support tool links im Menü Search Engine.

Ergebnis: Die Oberfläche für den Zugriff auf Checks, Sub Statistics und die Konfigurationsmöglichkeiten zur im System genutzten Suchmaschine sowie zur Indizierung öffnet sich.

Oberfläche der Search Engine

Measurements

In diesem Abschnitt tauchen diverse Zeilen und Spalten in einer Tabelle auf.

Spalte/Zeile	Beschreibung
Content queue size: creates	Definiert die Anzahl an zu erstellenden Inhalten, die sich derzeit in der Warteschlange befinden.
Average / m	Definiert den Durchschnitt der Inhalte pro Minute.
Delta / m	Definiert die Differenz zur letzten Prüfung in Minuten, bezogen auf die Inhalte.

Checks

Über Checks starten Sie zwei Überprüfungen:

Index exported check
Index queue info

Index exported check

Dieser Check ist nur noch für Altkunden relevant.

Früher wurde agorum core mit der Suchmaschine Lucene ausgeliefert. Dieser Test überprüft die verwendete Suchmaschine und teilt Ihnen mit, ob Sie auf die Suchmaschine Solr umstellen müssen. Eine rote / orangefarbene Meldung erscheint.

Verwendet Ihr agorum core-System bereits die Suchmaschine Solr, endet dieser Test mit einem grünen Ergebnis.

Index queue info

Die hier aufgelisteten Checks drehen sich allesamt um das Thema Indizierung, es handelt sich um texytindex queues. Anstatt Fehlermeldungen oder Warnungen auszugeben, ist dieser Test für Statistiken gedacht. Das Ergebnis wird somit immer grün dargestellt, sobald dieser durchgelaufen ist. Sie können damit etwa überprüfen, wie viele Dokumente aktuell und noch indiziert werden sollen.

Auch ein genauerer Blick auf die unterschiedlichen Indizierungsarten ist möglich.

Indizierungsart	Beschreibung
Queue: Total amount of index queue entries	Definiert, wie viele Objekte derzeit in den Queues 1, 2 und 3 vorliegen und indiziert werden müssen.
Current loop: Amount of current index loop	Damit Objekte performant indiziert werden, sammelt das System diese in bestimmten Zeiträumen an. Anschließend werden sie an einen Indizierungsloop (index loop) weitergereicht. Dieser führt die Indizierungen im Standard mit bis zu 500 Objekten aus. Die Zusammenstellung des index loops basiert auf einer Priorisierung. Es wird zwischen Objekten unterschieden, d. h. ob diese neu sind (Queue 1: höchste Priorisierung), ob diese nur geändert wurden (Queue 2: mittlere Priorisierung) oder sich die Pfadangabe verändert hat (Queue 3: niedrigste Priorisierung). Alle Objekte werden zwar indiziert und parallel verarbeitet, aber im Indizierungsloop sind mehr neue Dokumente (Queue 1) als geänderte (Queue 2) und mehr geänderte Objekte als solche mit Pfadänderungen enthalten (Queue 3). Das ist sinnvoll, da es zeitkritischer ist, neue Dokumente zu indizieren, als Änderungen in der Suche auffindbar zu machen. All Ihre Änderungen werden vom System aufgenommen; neue Dokumente haben jedoch, wie bereits erwähnt, eine höhere Priorität. Die Angabe im agorum core support tool informiert Sie darüber, wie viele Objekte sich derzeit in diesem Indizierungsloop befinden.
Queue 1: Index queue for creates	Dieser Abschnitt verrät Ihnen, wie viele neue Dokumente in das agorum core-System abgelegt wurden und indiziert werden müssen.
Queue 2: Index queue for updates	Dieser Bereich enthält die Information, wie viele geänderte Dokumente neu indiziert werden müssen. Dies betrifft etwa Änderungen des Volltextes, des Dateinamens oder eine Änderung von Metadaten.
Queue 3: Index queue for path updates	Queue 3 enthält alle Dokumente, die etwa durch Verschiebungen eine neue Pfadangabe erhalten haben oder deren ACLs neu gesetzt wurden.

Wofür steht die Indizierung?

Importieren Sie neue Dokumente oder ändern bestehende im System um, sind die dazugehörigen Informationen in der Datenbank hinterlegt. Sie möchten, ebenso wie Ihre Benutzer, nach Dokumenten suchen. Auch automatische Prozesse holen sich oftmals Ihren Arbeitsvorrat aus Solr. Für diese Funktion indiziert das System die neuen / geänderten Objekte.

Configurations

Über Configurations haben Sie die Wahl zwischen folgenden Einträgen:

Content extraction
Index configuration

Content extraction

Zur Indizierung von Objekten gehört ebenfalls deren Volltext. Je nach Dokument liegen bereits Textinformationen vor (digital erstellte Dokumente, etwa Word, E-Mails, …), oder nicht (etwa Bilder, Scans, …). In diesem Bereich definieren Sie die dafür genutzte Threadanzahl Ihrer Serverlandschaft.

Menüpunkt Content extraction

Einstellung	Beschreibung
Licensed	Bestätigt, dass die Angaben unter Concurrency (Standard) korrekt sind und mit der Anzahl Ihrer lizenzierten OCR-Threads / Kerne übereinstimmen.
Concurrency (Standard)	Definiert die Anzahl an Threads, die der OCR zur Verfügung stehen. Beachten Sie die Anzahl an lizenzierten OCR-Kernen. Hinweis: Setzen Sie diesen Wert nicht auf 0. Dadurch deaktivieren Sie die OCR und es sammelt sich eine Queue an, die nicht abgearbeitet wird.
Concurrency (Fast)	Importieren oder verändern Sie Dokumente mit Textinformationen (etwa Word-, Excel- oder PowerPoint-Dateien), werden diese ebenfalls neu indiziert, allerdings mit dem Unterschied, dass keine OCR benötigt wird. Definieren Sie in diesem Abschnitt die Threadanzahl, die Sie diesem Prozess freistellen. Hinweis: Setzen Sie diesen Wert nicht auf 0. Dadurch deaktivieren Sie die OCR und es sammelt sich eine Queue an, die nicht abgearbeitet wird.

Wie viele Threads Sie setzen und somit eine parallele Bearbeitung aktivieren, hängt von verschiedenen Faktoren ab:

Hardwareausstattung Ihrer Serverlandschaft
Anzahl lizenzierter OCR-Kerne
Anzahl an Dokumenten, die in das System verschoben werden
Einschätzung, ob deren Volltextextraktion zeitkritisch ist

Index configuration

Die Index configuration bietet verschiedene Konfigurationsmöglichkeiten bezüglich der Indizierung.

Menüpunkt Index configuration

Konfiguration	Beschreibung
indexEnabled	Aktiviert oder deaktiviert die Indizierung systemweit. Hinweis: Lassen Sie diese Einstellung aktiviert, da andernfalls keine Dokumente mehr auffindbar sind und viele automatische Prozesse nicht mehr funktionieren.
EngineInfo	Dieses Feld ist rein informativ und informiert Sie über die aktuell verwendete Suchmaschine.
documentsPerTransaction	Definiert die Anzahl an Dokumenten, die innerhalb einer Transaktion indiziert werden (Standard: 500). Hinweis: Ändern Sie diesen Wert nicht ab. Dieser hat sich im Laufe der Jahre etabliert und als performant bewährt.
minWaitTime	Definiert, ab wann Dokumente gesammelt an den Indizierungsloop weitergereicht werden (Standard: 100 ms). Sobald ein Objekt indiziert werden soll, wird minWaitTime heruntergezählt. Kommt in diesem Zeitraum ein weiteres Dokument hinzu, beginnt die Wartezeit von vorn. Ist sie abgelaufen, werden all diese Objekte gebündelt an den Indizierungsloop weitergereicht. Diese Bündelung erlaubt eine performante Indizierung. Hinweis: Ändern Sie diesen Wert nicht ab. Dieser hat sich im Laufe der Jahre etabliert und als performant bewährt.
maxWaitTime	Die maxWaitTime ist ein Gegenspieler zur minWaitTime. Das System sammelt Objekte, ehe diese gebündelt an den Indizierungsloop weitergereicht werden. Nach maximal einer Minute (60000 ms) findet ein Cut statt, und all die darin enthaltenen Objekte werden an den Indizierungsloop weitergereicht, auch wenn neue Dokumente unterhalb der minWaitTime importiert / geändert werden. Diese zeitliche Eingrenzung erlaubt eine performante Indizierung. Hinweis: Ändern Sie diesen Wert nicht ab. Dieser hat sich im Laufe der Jahre etabliert und als performant bewährt.
docTextTimeout	Definiert die maximale Dauer einer Dokumentenindizierung (Standard: 900000). Hinweis: Bei einer Anpassung müssen Sie auch das TimeOut des TextIndex / Previews anpassen. Diese Werte greifen auch, sollten Sie aus Versehen den Wert des docTextTimeoutwert geleert haben.
maxDocSize	Definiert die maximale Byte-Anzahl der Dokumente, deren Volltext extrahiert wird. Diese Extraktion ist beschränkt, um einen OutOfMemory-Fehler zu vermeiden und hängt somit von Ihrer Hardwareausstattung sowie der Größe Ihrer Dateien ab. Die meisten Kunden verwenden bei solchen Dokumenten, die etwa maschinell erstellt werden und bis zu 10.000 Seiten lang sind, einen automatischen Trennprozess. Durch das Setzen von Metadaten kann der Volltext irrelevant werden. Sprechen Sie uns hierzu gerne an. In der MetaDb existieren weitere Möglichkeiten, um die Bearbeitung von großen Dokumenten exakter einzustellen und einen OutOfMemory-Fehler zu vermeiden. Sprechen Sie uns hierzu gerne an.
validationLevel	Verifiziert Metadatenwerte und stellt sicher, dass nur Werte passend zum angegebenen Datentypen abgelegt werden. Etwa, dass ein Array-Metadatum auch nur Array-Werte enthält oder einem Integer-Metadatum keine Strings zugewiesen werden. Lassen Sie deshalb den Wert strict stehen. Sind Sie bereits langjähriger Kunde, kann es sein, dass Ihre Metadaten noch vermischt sind. Diese verschwinden nicht von heute auf morgen aus Ihrem System. Ändern Sie stattdessen temporär den Wert von strict auf lenient. Dadurch läuft Ihr agorum core-System in keinen Fehler. Versuchen Sie trotz dieser Lösung Ihre Metadaten zu bereinigen. Hinweis: Bei einer Neuinstallation von agorum core ab Version 9.5.1 steht diese Einstellung auf strict. Wird eine ältere Version aktualisiert, bleibt der zuvor eingestellte Wert (Standard: lenient).

Sub Statistics

Hiermit haben Sie Zugriff auf nach Funktionsbereichen sortierte Logs. Sie greifen darauf zurück, wenn Sie etwa gezielt nach Fehlern der Volltextextraktion suchen.

Weitere Menüeinträge existieren:

Content extraction
Index
Search

Content extraction

In diesem Logbereich finden Sie Informationen / Logs zur Volltextextraktion.

Index

In diesem Logbereich finden Sie Informationen / Logs zur Indizierung.

Search

In diesem Logbereich finden Sie Informationen / Logs zur Suche.

Beispiele zur Log-/Statistikverwendung

Suchergebnisse führen nicht zum Ziel

Wenn Sie eigene Filter im agorum core information center erstellt haben und deren Suchergebnisse nicht zum Ziel führen, gehen Sie so vor:

Öffnen Sie den Bereich Search.
Klicken Sie oben auf Configure Log.
Wählen Sie temporär die Severity Debug.
Bestätigen Sie mit OK.
Klicken Sie auf Show Log.

Ergebnis: Sie sehen die Suchanfragen Ihrer Benutzer im System anhand einer kompletten Query (smart search). Sobald Sie die Suchanfragen ausgewertet haben, stellen Sie die Severity wieder um, etwa auf Info.

Die Dauer einer Indizierung berechnen

Die Dauer einer Indizierung hängt von vielen Faktoren ab. Trotzdem kann sie berechnet werden. Dazu geht unser Support-Team folgendermaßen vor:

Indizierung starten und eine kleine Weile abwarten.
Auf Check Index queue info klicken und sich die Information total queue size anschauen.

Ergebnis: Das Support-Team weiß nun, wie viele Dokumente noch indiziert werden müssen.
Links im Menü Sub Statistics > Content extraction wählen.
Im Abschnitt Measurements auf Show all klicken.

Ergebnis: Der Eintrag Indexed Objects wird automatisch in der Tabelle hinzugefügt.
Beim Eintrag Indexed Objects auf Details klicken, um einzusehen, wie lange das System für eine bereits indizierte Datenmenge gebraucht hat.

Ergebnis: Durch diese Werte kann die geschätzte Gesamtdauer berechnet werden.

Dauer einer Indizierung