eSciDoc Infrastructure

Die eSciDoc Infrastructure ist eine Repository Middleware zur Speicherung beliebiger Daten - verknüpft mit beliebigen Metadaten.

 Für jeden Datensatz können beliebig viele Metadatensätze vorliegen. Die Metadaten können darüber hinaus in jedem beliebigem XML Format auftreten. 

Alle Daten und Metadaten sind suchbar. Die Suche berücksichtigt auch Berechtigungen, so dass Daten die nicht für die Allgemeinheit oder für bestimmte Nutzer nicht freigeben sind auch nicht in den Suchergebnissen erscheinen.

Daten können ins eSciDoc Repository übertragen werden (Normalfall) und werden dort unter den Kriterien der Langzeitarchivierung gespeichert oder es werden "nur" die Metadaten und eine URL zu den Daten im Repository abgelegt. Die eigentlichen Daten verbleiben dabei auf einem externem System. Das externe System kann z.B. ein speziallisierter Speicher für bestimmte Datenformate sein (z.B. Image-Server). Damit kann man sich z.B. die Fähigkeiten von eSciDoc bzgl. Metadaten und Suche zu eigen machen ohne seine Daten bewegen zu müssen.

 

Services der Infrastructure und Anwendungen

Die eSciDoc Infrastructure ist eine Sammlung von Services. Dazu gehören die Services zum Lesen, Speichern, Updaten und Löschen der Resourcen. Darüber hinaus gibt es Services zum Indexieren von Daten für die Suche und natürlich auch Services über die Suchanfragen gestellt werden können. Es gibt einen Service für die Registierung von Persistent Identifieren, einen für Metadata Harvester, einen weiteren Service zur Manipulation von Bildern, einen Dienst zur Duplikaterkennung (Plagiaterkennung) und viele mehr.

Was der eSciDoc Infrastructure bisher fehlt ist eine grafische Oberfläche für allgemeine Aufgaben. Zwar gibt es ab Version 1.3 eine Oberfläche zum Administrieren der Infrastructure aber diese ist rein auf die administrativen Aufgaben beschränkt. Ein Browser, mit dem sich die alltägliche Aufgaben eines Repositoryanwenders erledigen lassen ist erst in der Entwicklung. Pakete zum Downloaden werden derzeit (Sep. 2012) noch über github vertrieben und befinden sich bestenfalls sehr verspätet im entsprechenden Maven Repository. Es ist davon auszugehen, dass der eSciDoc Browser in der auf die 1.4er Version der Infrastruktur folgenden Version das AdminTool ersetzen wird. Dem interessierten Anwender lege ich einen Test der des Browsers auch für die Versionen 1.3 und 1.4 ans Herz.

Für spezische Anwendungsfälle stehen eine Reihe von Anwendungen zur Verfügung. Die wohl prominenteste ist PubMan, ein Werkzeug zur Verwaltung von Publikationen welches innerhalb der Max Planck Gesellschaft entwickelt und eingesetzt wird (download).

Die Standard Installation umfasst nur die am häufigsten verwendeten Services und die grafische Oberfläche für die Administration (AdminTool). Anwendungen und weitere Services müssen deshalb bei Bedarf separat installiert werden. Für die Anwendungen stehen meist ebenfalls grafische Installer bereit. Die Installation weiterer Services sollte nur den fortgeschrittenen Anwender betreffen.

 

Schnittstellen

Alle Services der eSciDoc Infrastructure stellen eine REST Schnittstelle zur Verfügung. Ältere Versionen (vor 1.4) stellen meist noch eine SOAP Schnittstelle bereit. Aufgrund von einigen Unzulänglichkeiten in der implementierten SOAP Schnittstelle wurde diese entfernt. Auch wenn die mit SOAP angebotenen Versionen noch gewartet werden ist es nicht zu empfehlen für neue Projekte gegen die SOAP Schnittstelle zu programmieren. Bestehende Projekte sollten auf REST oder einen der angebotenen Connectoren umsteigen.