Durchsuchbare Dokumentation aufrufen | Zurück zur Dokumentationsübersicht

Navigation: Dokumentationen agorum core > agorum core für Entwickler > agorum core JavaScript-API


JavaScript-Bibliothek common/text

Diese JavaScript-Bibliothek bietet Funktionen zum Erzeugen von Text aus Dokumenten, etwa die Extraktion durch OCR.

Verwendung


Binden Sie die Bibliothek stets am Anfang eines Skripts ein:

let text = require('common/text');

Funktionen


extract

Extrahiert Text aus einem gegebenen Dokument.


Syntax

text.extract(object, settings);


Parameter

Parameter Beschreibung Pflicht Standard
object Definiert ein agorum core-Objekt, von dem das System den Text extrahiert. ja
settings Ermöglicht diverse Einstellungen zur Extraktion (siehe settings). nein


settings

Parameter Beschreibung Pflicht Standard
extractionType Definiert die Art der Extraktion (siehe EXTRACTION_TYPES). nein
parameters Definiert ein Array von Parametern, die dem dahinterliegenden Konverter mitgegeben werden können, etwa zum Steuern von OCR-Parametern.

Beispiel

['--bitonal-auto:True', '--bitonal-brightness:100']
nein
forceOcr true
Das System führt die OCR immer durch, auch dann, wenn etwa PDF-Dateien bereits Text enthalten.

false
Das System führt die OCR nur durch, wenn es notwendig ist.
nein false


EXTRACTION_TYPES

EXTRACTION_TYPE Beschreibung
CREATE Erzeugt Text nur, wenn er nicht existiert. Existiert der Text bereits, führt das System nichts durch.
UPDATE Aktualisiert veralteten Text.
FORCE Erzeugt Text immer neu, unabhängig davon, ob er existiert oder veraltet ist.
PEEK Ermöglicht eine Vorschau auf den Dokumententext ohne dauerhafte Änderung.

Beispiel

let text = require('common/text');
let objects = require('common/objects');

let obj = objects.find('ID of an agorum core document');
let dto = text.extract(obj, {
  extractionType: text.EXTRACTION_TYPES.FORCE,
  parameters: [
    '--bitonal-auto:True',
    '--bitonal-brightness:100'
  ],
  forceOcr: true
}).object;

console.log('text: ', dto.contentString);


Rückgabewerte

Sie erhalten folgende Struktur, die das DocumentTextObject enthält, d. h. das Objekt, das den generierten Text enthält:

let result = text.extract(obj);

// Den Textinhalt des Textes herauslesen
result.object.contentString;


Beispiel: Text direkt holen

let txt = textLib.extract(obj, {
  extractionType: textLib.EXTRACTION_TYPES.CREATE,
}).text;


Verwendung

Diese Funktion verwenden Sie, wenn Sie Text kontrolliert von einem Objekt erzeugen möchten.


Exceptions

Zu dieser Funktion existieren keine Exceptions.

canForceOcr

Prüft, ob es bei dem übergebenen Objekt möglich ist, OCR zu erzwingen.


Syntax

text.canForceOcr(object);


Parameter

Parameter Beschreibung Pflicht Standard
object Definiert ein agorum core-Objekt, das das System prüft. ja


Beispiel

let text = require('common/text');
let objects = require('common/objects');

let obj = objects.find('ID of an agorum core document');
let forceOcrPossible = text.canForceOcr(obj);


Rückgabewerte

Rückgabewert Beschreibung
true OCR kann für das Objekt erzwungen werden.
false OCR kann für das Objekt nicht erzwungen werden.


Verwendung

Diese Funktion verwenden Sie, wenn Sie prüfen möchten, ob für ein Objekt die Generierung per OCR erzwungen werden kann.


Exceptions

Zu dieser Funktion existieren keine Exceptions.

set

Die Funktion text.set() ermöglicht, den Textinhalt eines Dokuments zu aktualisieren oder hinzuzufügen.

Sie können den Dokumententext beispielsweise über das Dokumententext-Tool unter Administration > Werkzeuge > Dokumententext überprüfen.

Diese Funktion löst keine Indexierung aus, bei Bedarf müssen Sie die Indexierung selbst anstoßen.


Syntax

text.set(object, text, extension);


Parameter

Parameter Beschreibung Pflicht Standard
object Definiert ein agorum core Objekt, dessen Textinhalt aktualisiert oder hinzugefügt werden soll. ja
text Der Text, der dem Dokument hinzugefügt oder mit dem der bestehende Text aktualisiert werden soll. ja -
extension Die Dateierweiterung, die das Format des Textes angibt (normalerweise immer 'txt'). ja -


Beispiel

let text = require('common/text');
let objects = require('common/objects');

let object = objects.find(10195780);

text.set(object, 'Hallo', 'txt');

/* optionally reindex the object */
/* objects.reIndex(object); */

objects.query('uuid:' + object.UUID).search('contentonly');


Rückgabewerte

Der Rückgabewert ist undefined.


Exceptions

Zu dieser Funktion existieren keine Exceptions.