Word Vorlagen, Steuerelemente und OCR

cancel
Showing results for 
Search instead for 
Did you mean: 
stelipp
Member II

Word Vorlagen, Steuerelemente und OCR

Hallo liebe Forumsgemeinde

Ich bin neu in der Alfresco Welt (und im Forum) und habe ein paar Fragen, zu denen ich keine befriedigenden oder für mich verständlichen Antworten gefunden habe. Ich "evaluere" momentan Alfresco für einen Kunden und möchte bestimmte Fragen im Vorfeld abklären, damit ich eine vernünftige Aussage treffen kann, und bin daher für jede Hilfe dankbar. Also

Heute habe ich mir den Trial-Cloud Zugang (Alfresco-Share) geholt und in der Cloud Version ein paar Tests gemacht. Da ich nicht weiss, wie diese Demoinstanz parametrisiert ist, weiss ich nun auch nicht ob die nachfolgenden Dinge eine Einstellungsfrage (von Alfresco, nicht mir) sind, oder ob dies einfach so ist, wie es ist:

1) Word-Vorlagen (dot) (Office 2003, XP)
Ich habe eine Word-Vorlage aufgeladen mit diversen Plain-Text Inhalten als auch diversen Form-/Steuerelementen/Textmarke, über welche Platzhalter definiert sind, welche über eine Datenbank später mit richtigen Inhalten versehen werden. Die Vorlage wurde von Alfresco nicht indexiert, sprich, ich konnte bloss nach File-Titel suchen, nicht aber nach Inhalten (also auch nicht den Plain-Text Inhalten). Ist das eine Einstellungsfrage, oder werden .dot Inhalte/Dateien grundsätzlich nicht indexiert?

2) Punkt 1 aber also doc (Office 2003, XP)
Nun habe ich die gleiche Datei als Doc gespeichert (noch immer mit den nicht ersetzten Steuerelementen/Platzhaltern/Textmarke). Das Dokument wurde indexiert, der Plain Text ist suchbar, die nicht ersetzten Platzhalter nicht (was für mich völlig ok ist in der Art und Weise, ich will ja nicht nach irgendwelchen Platzhaltern suchen). Auch hier: ist das eine Einstellungsfrage oder werden die Platzhalter nie indexiert (solange sie Platzhalter sind)

3) Platzhalter "Aktuelles Datum"
In Addition zu Punkt 2: während ich die DB-Platzhalter nicht indexieren will, würde ich gerne den Wordplatzhalter für "aktuelles Datum und Uhrzeit" gerne Indexiert haben (als Beispiel). Das heisst, ich würde gerne nach diesem Datumsfeld suchen können. Geht das, kann ich solche auto-Felder irgendwie integrieren oder klappt das generell nicht?

4) Formularfelder und DropDown Listen
Und noch was: Wenn ich z.B. eine DropDown Liste mit 4 Elementen habe (Frühling, Sommer, Herbst, Winter), und ich habe "Herbst" ausgewählt, das Dokument gespeichert und in Alfresco importiert, so finde ich es nicht wenn ich nach "Winter" suche. Gibt es hier eine Möglichkeit, den ausgewählten Wert zu finden (in der PDF Version steht wohl "Winter", aber wie gesagt, suchen danach kann ich nicht)?

5) OCR Erkennung von Bildern (JPG, GIF)
Gibt es eine Alfresco automatische OCR Erkennung für zu indexierende Bilder/Grafiken? Ich meine gelesen zu haben, dass es dies nicht gibt, bez. nur im Zusammenhang mit Drittsoftware (KOFAX oder anderes).

Ich bedanke mich für euer Feedback und euere Hilfe oder Hinweise und hoffe, die Fragen sind nicht all zu doof…

Stephan Lipp
2 Replies
afaust
Master

Re: Word Vorlagen, Steuerelemente und OCR

Hallo,

an sich für alle aufgeführten Punkte ist eine kurze Erklärung des Alfresco Ansatz zu Umwandlung / Indizierung von Dokumentinhalten sinnvoll, um ein besseres Verständnis und eine bessere Einschätzung zu erhalten.

- Alfresco inidiziert nur die textuelle Repräsentation von Dateiinhalten.
- Liegt eine Datei nicht in einem Textformat vor (also nicht TXT / HTML / XML …), dann wird ein externes Tool (z.B. OpenOffice) oder eine 3rd Party Bibliothek zur Konvertierung herangezogen. Alfresco indiziert nur das textuelle Ergebnis dieses Tools.
- Alfresco kann derart konfiguriert werden, dass einer bestimmten Dateiendung bzw. einem konkreten Dateiformat ein bestimmtes Konvertierungsvorgehen zugeordnert wird. Für .dot ist z.B. meines Wissens keins definiert.
- Die verschiedenen Office Versionen nutzen tlw. Konstrukte für bestimmte Features, die aufgrund mangelnder Dokumentation bzw. Ressourcen/Priorität nicht von jedem Tool verwertet werden können.

Eine (konfigurierte) Behandlung und Suchbarkeit von Formularfeldern eines Office Dokuments von Office 2003 sehe ich als unwahrscheinlich bzw. aufwendig zu realisieren ein. Wurden denn evtl. schon Tests mit den neueren Office Formaten ab 2007 durchgeführt? Hier erwarte ich an sich mehr Support durch Tools wie OpenOffice.

In Bezug auf OCR verhält es sich ähnlich wie mit Office Dokumenten - Alfresco selber kann Graphiken alleine mangels eingebauter OCR nicht indizieren, könnte aber durch Konfiguration ein ext. Tool oder eine zusätzlich installierte Komponente nutzen, um diese "Lücke" zu füllen. Dabei gibt es kommerzielle Produkte oder auch Open Source Lösungen. Wir haben - zwar für Liferay statt Alfresco - selber schon auf Basis von tesseract eine einfache OCR Komponente für eine Volltextindizierung bei einem Kunden entwickelt. Eine Integration dieser Lösung in ein Alfresco wäre nur noch ein geringer Aufwand.

Gruß
Axel Faust
stelipp
Member II

Re: Word Vorlagen, Steuerelemente und OCR

Lieber Herr Faust

Vielen Dank für die nützlichen Antworten, das hilft mir so weiter.  Tatsächlich habe ich die Formularfeldertests momentan nur auf Basis von Office2003 gemacht, werde mir aber mal eine neuere Datei zurecht basteln um zu schauen, ob das so funktionieren sollte. Hilft natürlich nicht, für all die alten, schon bestehenden Dokumente, aber wir leben ja nicht (nur) in der Vergangenheit Smiley Happy.

Betreffend der OCR Erkennung herrschen hier noch geteilte Meinungen, gibt es doch bei einer automatisierten Erkennung ettwelche Bereiche, welche manuell korrigiert werden müssten, was infolge der Fülle der Dateien nicht machbar wäre. Ich vertrete allerdings die Meinung, dass - selbst wenn 10% nicht oder falsch erkannt wurden - 90% such- und findbarer Text immer noch besser sind als 0%…

Nun denn, nochmals Danke für die Ausführungen und Gruss
Stephan Lipp