Office-Server40: Unterschied zwischen den Versionen

Aktuelle Version vom 27. Oktober 2023, 08:45 Uhr


Office-Server (bis Version 4.0.07)
OCR-Erkennung von automatisch eingelesenen Archiven

	Ab der ArcFlow Version 4.1 wird ein anderer Office-Server ausgeliefert. Die Beschreibung der vorhergehenden Version ist in der Dokumentation enthalten, da diese Version noch aufgerufen werden kann. Nähere Informationen zur Installation und Funktion des neuen Office-Servers befinden sich in den Abschnitten Installation des ArcFlow Office-Servers und Office-Server.

Der Office-Server ist für die Texterkennung der Dateien zu ständig, die über den Job-Server oder die Programmierschnittstelle (API) eingelesen wurden. Für die Texterkennung werden unterschiedliche Bibliotheken verwendet. Die Texterkennung von Microsoft Word und Excel Dokumenten können über die entsprechende Software (Microsoft Office 2000 oder spätere Versionen) oder über mitgelieferte Bibliotheken erkannt werden. Folgende Dateiformate werden erkannt:

ASCII-Formate
Dateien mit den Erweiterungen txt, bat, ini, cfg, log, err, hst, prc, js, cmd und dat.
Formate, die mit Microsoft Word gelesen werden können
Dies sind Dateien mit den Erweiterungen doc, docx, docm, rtf, htm, html, asc und ans.
Microsoft Excel-Dokumente
Dateien mit der Erweiterung xls, xlsx und xlsm.
Microsoft PowerPoint-Dokumente
Dateien mit der Erweiterung ppt, pps, pptx, ppsx und pptm. Zur Texterkennung muss Microsoft PowerPoint installiert sein.
Adobe Acrobat-Dokumente
Dateien mit der Erweiterung pdf. Zur Texterkennung wird der Adobe Acrobat Reader oder Writer nicht benötigt.
Adobe Illustrator-Dokumente
Dateien mit der Erweiterung ai. Zur Texterkennung wird der Adobe Illustrator nicht benötigt.
Grafik-Dokumente
Dateien mit den Erweiterungen bmp, png, gif, jpg und tif werden durch die mitgelieferte OCR-Software erkannt.
ZIP-Archive und GZIP-Archive
In ZIP- und GZIP-Archiven zusammengefasste und komprimierte Dateien werden in ArcFlow zur Texterkennung entpackt. Die enthaltenen Dateien werden gemäß den obigen Regeln erkannt, aber nicht nochmals in ArcFlow gespeichert.

Der Office-Server muss nur einmal gestartet werden. Er kann als Dienst eingerichtet werden (siehe Einrichten des Dienstes). Der Office-Server bezieht seine Einstellungen aus den Einstellungen von ArcFlow und einer separaten Konfigurationsdatei (siehe Office-Server Konfigurationsdatei).

	Wird der Office-Server als Dienst eingerichtet, kann er Dokumente, die mit Hilfe des Office-Pakets texterkannt werden, nicht mehr erkennen. Die dafür verwendete COM-Schnittstelle kann nicht von einem Dienst verwendet werden. Bei der Verwendung als Dienst können keine weiteren Parameter (siehe unten) angegeben werden.

Das Starten des Dienstes erfolgt über das Control-Center. Ist der Office-Server nicht als Dienst installiert, kann er mit folgenden Übergabeparametern gestartet werden: c16_winc.exe <Server> ArcFlow Office

Der Server kann mit seinem Namen oder seiner IP-Adresse angegeben werden. Die Angabe muss den Eintragungen in der ArcFlow-Speicherverwaltung entsprechen.

Zusätzlich können weitere Parameter angegeben werden:

/JobMode=...
Ohne Angabe dieses Parameters oder bei der Übergabe von 0, werden die Jobs in der eingehenden Reihenfolge (First in first out) bearbeitet. Wird bei dem Parameter 1 angegeben, wird der zuletzt erzeugte Job zuerst verarbeitet (Last in first out).
/MaxFileSize=...
Der Office-Server erkennt alle Dokumente unabhängig von der Dateigröße. Sollen nur Dokumente bis zu einer bestimmten Größe texterkannt werden, kann über diesen Parameter die maximale Größe der Dateien angegeben werden. Die Angabe erfolgt in KiByte.
/BorderMode= 1 /ArcBorder=...
Werden diese Parameter angegeben, kann die Texterkennung auf Archive beschränkt werden, die eine höhere Archnummer haben, als die, die in diesem Parameter übergeben wurde.
/MaxFileSize=...
Der Office-Server führt eine Texterkennung nur bei Dateien bis zu der angegebenen Maximalgröße (in KB) durch. Ist ein Officeserver mit diesem Parameter gestartet, sollte ein weiterer ohne Maximalgröße gestartet werden, damit alle Dokumente texterkannt werden.
/RestartMode=...
Der Office-Server startet sich nach der in diesem Parameter angegebenen OCR-Erkennungen neu. Der Zähler wird bei der Texterkennung von Nicht-Bilddateien nicht erhöht.

Nach dem Start des Servers wird folgender Dialog angezeigt:

Folgende Informationen werden in dem Dialog dargestellt:

Start
Das Datum und die Uhrzeit zu der der Office-Server gestartet wurde.
Zustand
Folgende Zustände des Office-Servers werden angezeigt:

Wartezustand...
Zur Zeit stehen keine Aufgaben an.
OCR-Erkennung
Die Texterkennung eines eingelesenen Archives wird durchgeführt. Die Nummer des Archives und der Anhangdatei, die zur Zeit verarbeitet werden, werden angezeigt.
Verarbeitete Jobs werden gelöscht
Aufgaben des Office-Servers werden in einer internen Liste vorgehalten. Bei der Anzeige dieses Zustandes wird die soeben erledigte Aufgabe aus der Liste entfernt. Dieser Zustand sollte nur sehr kurz sichtbar sein.

Konnte für eine Anhangdatei keine Textekennung durchgeführt werden, wird das entsprechende Dokument markiert. Es erfolgt dann kein weiterer Versuch der Texerkennung. Das Archiv wird in eine Arbeitsmappe zugewiesen, die in den Einstellungen angegeben wurden.

Mit der Schaltfläche [Stop] kann der Server angehalten werden. Ab diesem Zeitpunkt findet keine automatische OCR-Erkennung der Dokumente statt. Ein angehaltener Server kann mit der Schaltfläche [Start] wieder gestartet werden.

Ist der Server gestoppt, kann das Fenster über die Schaltfläche [Schliessen] geschlossen werden.

Office-Server Konfigurationsdatei

Die Arbeitsweise des Office-Servers kann mit einer Konfigurationsdatei afocr.cfg im Verzeichnis des ArcFlow-Clients beeinflusst werden. Die mit "Standard" gekennzeichneten Einträge entsprechen der Voreinstellung ohne eine Konfigurationsdatei. Folgende Eintragungen können vorgenommen werden:

PdfRecognition - Texterkennung von PDF-Dateien
PDF-Dokumente enthalten ein Bild von der Seite und können zusätzlich dazu noch den Text enthalten. Über den Eintrag kann die Art der Texterkennung von PDF-Dateien gesteuert werden. Folgende Einträge sind möglich:
- PdfRecognition=3 (Standard) Die Texterkennung wird mit der OCR-Software durchgeführt. Evtl. auf dem Dokument vorhandene Barcodes werden erkannt und in der Liste unterhalb des erkannten Textes angezeigt (siehe Text).
- PdfRecognition=4 Der Text wird mit Hilfe einer DLL aus dem PDF extrahiert. Befindet sich ein unsichtbarer Text auf der Seite, wird dieser erkannt. Barcodes werden unabhängig von der Einstellung immer mit der OCR-Software erkannt.
- PdfRecognition=5 Der Text wird mit Hilfe einer Funktion in ArcFlow aus dem PDF extrahiert. Befindet sich ein unsichtbarer Text auf der Seite, wird dieser erkannt. Barcodes werden unabhängig von der Einstellung immer mit der OCR-Software erkannt.
Texterkennung von Office-Dokumenten durch den Office-Server
Mit dieser Einstellung wird die Texterkennung von Office-Dokumenten gesteuert. Die Einstellung betrifft nur die Texterkennung durch den Office-Server:
- OfficeRecognitionSVC=0 (Standard) Zur Erkennung aller Office-Dokumente wird die COM-Schnittstelle zu Microsoft Office verwendet. Die entsprechende Applikation (Word, Excel, PowerPoint, ...) muss installiert sein.
- OfficeRecognitionSVC=2 Zur Erkennung von Word- und Excel-Dokumenten wird eine DLL verwendet, alle weiteren Office-Dokumente werden über die COM-Schnittstelle erkannt.

Texterkennung von Office-Dokumenten durch den ArcFlow-Client
Mit dieser Einstellung wird die Texterkennung von Office-Dokumenten gesteuert. Die Einstellung betrifft nur die Texterkennung durch den ArcFlow-Client (zum Beispiel beim Drag & Drop von Dateien):
- OfficeRecognitionCln=0 (Standard) Zur Erkennung aller Office-Dokumente wird die COM-Schnittstelle zu Microsoft Office verwendet. Die entsprechende Applikation (Word, Excel, PowerPoint, ...) muss installiert sein.
- OfficeRecognitionCln=2 Zur Erkennung von Word- und Excel-Dokumenten wird eine DLL verwendet, alle weiteren Office-Dokumente werden über die COM-Schnittstelle erkannt.
Texterkennung bei der Trennung von Dokumenten durch eine Schnittstelle
Ist eine Schnittstelle vom Typ Archivaufsplittung definiert (siehe Einstellungen), kann die Texterkennung durch folgende Einträge beeinflusst werden:
- PdfSplitRecognition=0 Der Text wird mit Hilfe einer DLL erkannt.
- PdfSplitRecognition=1 (Standard) Der Text wird mit Hilfe einer Funktion in ArcFlow erkannt.
Erkennung von Bildformaten bis zu einer maximalen Größe
Bilder werden bis zu einer Größe von 10.000 Pixeln (horizontal oder vertikal) mit der OCR-Software erkannt. Die Grenze kann durch den Eintrag OcrMaxPix auf einen anderen Wert gesetzt werden.

Bilder mit einer höheren Pixelanzahl sind mit dem Fehler IMG_SIZE_ERR (Non-supported image size.) gekennzeichnet.

Erkennung von PDF-Dokumenten bis zu einer maximalen Auflösung
Standardmäßig werden PDF-Dateien bis zu einer maximalen auflösung von 400 DPI von der OCR-Software texterkannt. Diser Wert kann durch den Eintrag OcrMaxDpiPdf=... geändert werden.

Der Eintrag wird nur ausgewertet, wenn die Texterkennung durch die OCR-Software ausgeführt wird (siehe PdfRecognition).
Erstellen von Positionsinformationen bei der Texterkennung
Wird die Texterkennung von der OCR-Software durchgeführt, kann zusätzlich zum Text eine XML-Datei erzeugt werden, in der Positionsinformationen zu den erkannten Wörtern gespeichert sind. Die Datei kann in einem Skript Nach Texterkennung (Drucker - Nach Texterkennung, Transferverzeichnis - Nach Texterkennung, ...) mit der Anweisung AFArcFileXmlTextRead() gelesen werden. Um die Datei zu erzeugen, muss in der Konfigurationsdatei OCRCreateXML=1 angegeben werden.
Verzögerung der Texterkennung
Standardmäßig beginnt die Texterkennung unmittelbar nach dem Import der Datei. Das kann mit der Ausführung anderer Funktionen kollidieren. Tritt ein Sperrkonflikt auf, kann der Beginn der Texterkennung mit OcrDelaySeconds=... verzögert werden. Die Angabe erfolgt in Sekunden.
Texterkennung von großen Dateien
Dateien werden in der Reihenfolge, in der sie importiert wurden, texterkannt. Mit den folgenden Einträgen können Dateien ab einer bestimmten Größe in einem angegebenen Zeitfenster verarbeitet werden:
```
MaxFileSize=512
DoOcrAboveMaxFileSizeFrom=18:00
DoOcrAboveMaxFileSizeTill=01:00
```
In diesem Beispiel werden Dateien ab einer Größe von 512 KB zwischen 18:00 Uhr und 01:00 Uhr verarbeitet.

Konvertierung von MSG-Dateien in EML-Dateien
Für die Konvertierung von E-Mails aus dem MSG- in das EML-Format wird eine Funktion aus ArcFlow verwendet. Mit dem Eintrag Msg2Eml.Net=1 erfolgt die Konvertierung über eine DLL.
Texterkennung von fehlgeschlagenen Jobs
Nach einem Neustart des Office-Servers werden fehlgeschlagene Texterkennungen nicht erneut durchgeführt. Befindet sich der Eintrag RecognizeFailedJobs=1 in der "AFOCR.CFG", wird die Liste der fehlgeschlagenen Texterkennungen erneut durchgeführt.
Prüfung der PDF-Dokumente vor der Texterkennung
Werden Dateien mit der Erweiterung .PDF von der OCR-Software erkannt, kann vor dem Start der Texterkennung mit dem Eintrag PDFRecogCheck=1 das Format der Datei überprüft werden.
Barcodes nicht erkennen
Sollen bei der Texterkennung die Barcodes auf dem Dokument nicht erkannt werden, muss der Eintrag BarcodeRecognition=-1 eingetragen werden.

Texterkennung von Seiten bis zu einer vorgegebenen Größe

Standardmäßig werden PDF-Dokumente aller Seitenformate texterkannt. Sollen Dokumente ab einer bestimmten Größe ignoriert werden, kann das mit einem PdfMaxPageArea-Eintrag erreicht werden. In dem Eintrag wird die Fläche der Seite in mm² angegeben.

Beispiele:

Eintrag	Beschreibung
PdfMaxPageArea=0	alle Dokumente (Standard)
PdfMaxPageArea=1000000	keine Texterkennung für Dokumente mit einer Fläche größer DinA0
PdfMaxPageArea=500000	keine Texterkennung für Dokumente mit einer Fläche größer DinA1
PdfMaxPageArea=250000	keine Texterkennung für Dokumente mit einer Fläche größer DinA2
PdfMaxPageArea=125000	keine Texterkennung für Dokumente mit einer Fläche größer DinA3
PdfMaxPageArea=62500	keine Texterkennung für Dokumente mit einer Fläche größer DinA4

Die realen Flächen der DIN Seiten weichen von den Angaben ab, sind aber in jedem Fall kleiner, als hier angegeben.

	Das Format "Letter" oder "ANSI letter" hat eine Größe von 8.5 x 11 zoll (215,9 x 279,4 mm) mit einer Fläche von 60.322,46 mm². Es kann also der gleiche Eintrag wie für DinA4 verwendet werden.

@@ Zeile 18: / Zeile 18: @@
 <p>Der Office-Server{{Marker}}<!--OfficeServer--> ist für die
-Texterkennung der Dateien zu ständig, die über den [[Job-Server#|Job-Server]]{{Marker}}<!--JobServer--> oder die [[Programmierschnittstelle (API)#|Programmierschnittstelle]] (API{{Marker}}<!--Api-->) eingelesen wurden. Damit der Office-Server arbeiten kann, muss auf dem gleichen System mindestens Microsoft Office 2000 installiert sein. Abhängig davon, welche Dateiformate erkannt werden sollen, müssen die entsprechenden Module (Word, Excel, PowerPoint ...) installiert sein. Folgende Dateiformate werden erkannt:</p></p>
+Texterkennung der Dateien zu ständig, die über den [[Job-Server#|Job-Server]]{{Marker}}<!--JobServer--> oder die [[Programmierschnittstelle (API)#|Programmierschnittstelle]] (API{{Marker}}<!--Api-->) eingelesen wurden. Für die Texterkennung werden unterschiedliche Bibliotheken verwendet. Die Texterkennung von Microsoft Word und Excel Dokumenten können über die entsprechende Software (Microsoft Office 2000 oder spätere Versionen) oder über mitgelieferte Bibliotheken erkannt werden. Folgende Dateiformate werden erkannt:</p></p>
 <p><ul>
@@ Zeile 25: / Zeile 25: @@
 '''ASCII-Formate'''
 <p>Dateien mit den Erweiterungen txt, bat, ini, cfg, log, err, hst, prc, js, cmd und dat.</p>
 </li>
 <li>
 '''Formate, die mit Microsoft Word gelesen werden können'''
-<p>Dies sind Dateien mit den Erweiterungen doc, docx, docm, rtf, htm, html, asc und ans. Zur Texterkennung muss Microsoft Word installiert sein.</p>
+<p>Dies sind Dateien mit den Erweiterungen doc, docx, docm, rtf, htm, html, asc und ans.</p>
 </li>
 <li>
 '''Microsoft Excel-Dokumente'''
-<p>Dateien mit der Erweiterung xls, xlsx und xlsm. Zur Texterkennung muss Microsoft Excel installiert sein.</p>
+<p>Dateien mit der Erweiterung xls, xlsx und xlsm.</p>
 </li>
@@ Zeile 43: / Zeile 40: @@
 '''Microsoft PowerPoint-Dokumente'''
 <p>Dateien mit der Erweiterung ppt, pps, pptx, ppsx und pptm. Zur Texterkennung muss Microsoft PowerPoint installiert sein.</p>
 </li>
@@ Zeile 49: / Zeile 45: @@
 '''Adobe Acrobat-Dokumente'''
 <p>Dateien mit der Erweiterung pdf. Zur Texterkennung wird der Adobe Acrobat Reader oder Writer '''nicht''' benötigt.</p>
 </li>
@@ Zeile 55: / Zeile 50: @@
 '''Adobe Illustrator-Dokumente'''
 <p>Dateien mit der Erweiterung ai. Zur Texterkennung wird der Adobe Illustrator '''nicht''' benötigt.</p>
 </li>
 <li>
 '''Grafik-Dokumente'''
-<p>Dateien mit den Erweiterungen bmp, png, gif, jpg und tif können erkannt werden, wenn auf dem Rechner die OCR-Software{{Marker}}<!--Ocr--> installiert ist.</p>
+<p>Dateien mit den Erweiterungen bmp, png, gif, jpg und tif werden durch die mitgelieferte OCR-Software erkannt.</p>
 </li>
@@ Zeile 67: / Zeile 60: @@
 '''ZIP-Archive und GZIP-Archive'''
 <p>In ZIP- und GZIP-Archiven zusammengefasste und komprimierte Dateien werden in ArcFlow zur Texterkennung entpackt. Die enthaltenen Dateien werden gemäß den obigen Regeln erkannt, aber nicht nochmals in ArcFlow gespeichert.</p>
 </li>
 </ul></p>
@@ Zeile 199: / Zeile 191: @@
 <p>Ist eine Schnittstelle vom Typ Archivaufsplittung definiert (siehe [[Importfunktionen - Schnittstellen#|Einstellungen]]), kann die Texterkennung durch folgende Einträge beeinflusst werden:</p>
 <ul>
-<li><b>PdfSplitRecognition=0 (Standard)</b> Der Text wird mit Hilfe einer DLL erkannt.</li>
+<li><b>PdfSplitRecognition=0</b> Der Text wird mit Hilfe einer DLL erkannt.</li>
-<li><b>PdfSplitRecognition=1</b> Es wird die Methode verwendet, die beim Eintrag <font class=source>PdfRecognition</font> angegeben ist.</li>
+<li><b>PdfSplitRecognition=1 (Standard)</b> Der Text wird mit Hilfe einer Funktion in ArcFlow erkannt.</li>
-<li><b>PdfSplitRecognition=5</b> Der Text wird mit Hilfe einer Funktion in ArcFlow erkannt.</li>
 </ul>
 <p></p>
@@ Zeile 251: / Zeile 242: @@
 <p><li><b>Texterkennung von Seiten bis zu einer vorgegebenen Größe</b>
-<p>Standardmäßig werden alle PDF-Dokumente texterkannt. Sollen Dokumente ab einer bestimmten Größe ignoriert werden, kann das mit einem <font class=source>PdfMaxPageArea</font>-Eintrag erreicht werden. In dem Eintrag wird die Fläche der Seite in mm<sup>2</sup> angegeben.</p>
+<p>Standardmäßig werden PDF-Dokumente aller Seitenformate texterkannt. Sollen Dokumente ab einer bestimmten Größe ignoriert werden, kann das mit einem <font class=source>PdfMaxPageArea</font>-Eintrag erreicht werden. In dem Eintrag wird die Fläche der Seite in mm<sup>2</sup> angegeben.</p>
 <p>Beispiele:</p>
 <table class=lang>
@@ Zeile 260: / Zeile 251: @@
    <tr>
      <td valign=top><font class=source>PdfMaxPageArea=0</font></td>
-     <td valign=top>alle Dokumente</td>
+     <td valign=top>alle Dokumente (Standard)</td>
    </tr>
    <tr>

Office-Server40: Unterschied zwischen den Versionen

Aktuelle Version vom 27. Oktober 2023, 08:45 Uhr

Navigationsmenü

ArcFlow Wiki

Meine Werkzeuge

Namensräume

Varianten

Ansichten

Suche

Navigation

Werkzeuge