Office-Server41: Unterschied zwischen den Versionen
Jens (Diskussion | Beiträge) KKeine Bearbeitungszusammenfassung |
Jens (Diskussion | Beiträge) Stand 4.1.08 Formate RAR und 7Z ergänzt |
||
Zeile 70: | Zeile 70: | ||
<li> | <li> | ||
'''ZIP- | '''ZIP-, GZIP, RAR und 7z-Archive''' | ||
<p>In ZIP- und | <p>In ZIP-, GZIP-, RAR- und 7Z-Archiven zusammengefasste und komprimierte Dateien werden in ArcFlow zur Texterkennung entpackt. Die enthaltenen Dateien werden gemäß den obigen Regeln erkannt, aber nicht nochmals in ArcFlow gespeichert. Enthält das ZIP-Archiv eine weitere ZIP-Datei, wird diese nicht entpackt und auch nicht texterkannt.</p> | ||
</li> | </li> |
Aktuelle Version vom 25. März 2024, 10:28 Uhr
![]() |
|
Office-Server | |
OCR-Erkennung von Archiven |
Der Office-Server ist für die Texterkennung der Dateien zu ständig, die über den Job-Server, die Programmierschnittstelle (API) oder einen anderen Weg eingelesen wurden. Folgende Dateiformate können erkannt werden:
-
ASCII-Formate
Dateien mit den Erweiterungen txt, bat, ini, cfg, log, err, hst, prc, js, cmd, dat und asc.
-
Formate für formatierten Text
Dies sind Dateien mit den Erweiterungen doc, docx, docm, dot, dotx, dotm, rtf, htm und html. Zur Texterkennung wird keine zusätzliche Software benötigt.
-
Formate für Tabellenkalkulation
Dateien mit der Erweiterung xls, xlt, xlsx, xlsm, xltx, xltm, ods und ots. Zur Texterkennung wird keine zusätzliche Software benötigt.
-
Formate für Präsentationen
Dateien mit der Erweiterung ppt und pptx. Zur Texterkennung wird keine zusätzliche Software benötigt.
-
Formate zur Datenübertragung
Dateien mit der Erweiterung xml. Zur Texterkennung wird keine zusätzliche Software benötigt.
-
Adobe Acrobat-Dokumente
Dateien mit der Erweiterung pdf. Zur Texterkennung wird keine zusätzliche Software benötigt.
-
Adobe Illustrator-Dokumente
Dateien mit der Erweiterung ai. Zur Texterkennung wird der Adobe Illustrator nicht benötigt.
-
Bild-Dokumente
Dateien mit den Erweiterungen bmp, png, jpg und tif können erkannt werden. Zur Texterkennung wird eine OCR-Software bei der Installation von ArcFlow mit installiert.
-
ZIP-, GZIP, RAR und 7z-Archive
In ZIP-, GZIP-, RAR- und 7Z-Archiven zusammengefasste und komprimierte Dateien werden in ArcFlow zur Texterkennung entpackt. Die enthaltenen Dateien werden gemäß den obigen Regeln erkannt, aber nicht nochmals in ArcFlow gespeichert. Enthält das ZIP-Archiv eine weitere ZIP-Datei, wird diese nicht entpackt und auch nicht texterkannt.
-
E-Mails
Dateien mit der Erweiterung msg werden nach dem Import in ArcFlow in das Format eml gewandelt. Dateien im Format eml werden in den Mail-Text und die Anhänge aufgeteilt. Der Text wird in ArcFlow gespeichert und die Anhänge nach den obigen Regeln texterkannt. Hat eine E-Mail eine weitere E-Mail mit Anhängen als Anhang, wird lediglich der Mail-Text der angehängten Mail gespeichert, die Anhänge werden nicht weiter ausgewertet.
![]() |
Eine Texterkennung wird nur dann durchgeführt, wenn in den Einstellungen der Dateityp für die Texterkennung markiert wird. |
Architektur des Office-Servers
Der ArcFlow Office-Server ist ein Dienst, der beim Betriebssystem registriert und nach einem Neustart automatisch mit dem System gestartet wird. Seine Informationen und zu erkennenden Dokumente bezieht er aus der ArcFlow Datenbank (siehe auch Installation des ArcFlow Office-Servers).
Soll ein Dokument texterkannt werden, wird das Dokument aus der ArcFlow-Datenbank gelesen. Die vom Datentyp abhängigen Parameter (siehe Einstellungen Erweitert / Dateitypen) werden ermittelt und die Texterkennung durchgeführt. Bei der Texterkennung von Bildformaten (TIFF, BMP, PDF, ...) kann ein zusätzlicher OCR-Prozess gegründet werden.
Der Office-Server überwacht den OCR-Prozess und scheibt nach Fertigstellung der Texterkennung die Ergebnisse in die ArcFlow-Datenbank.
Um eine höhere Parallelität zu erreichen, kann der Office-Server so konfiguriert werden, dass er auch mehrere Texterkennungen durchführen kann. Es werden dann mehrere Dokumente gleichzeitig texterkannt. Dies kann dann auch zu mehreren OCR-Prozessen führen. Die Anzahl der parallelen Prozesse hängen von der vorhandenen Hardware ab. Besonders beachtet werden sollte die Anzahl der logischen Prozessoren und der zur Verfügung stehende Hauptspeicher.
![]() |
Die Konfigurationsdatei AFOCR.CFG wird nicht ausgewertet. |