Archiv für den Monat: Juni 2017

ANTON: Daten Import mit Excel

ANTON

ANTON ist der Name der von uns entwickelten, webbasierten Archivdatenbank. Mit ANTON lassen sich Archive und Sammlungen professionell erschliessen und im Internet publizieren. Sie sind sofort bereit für die weltweite Benutzung. Mehr Informationen zu ANTON finden Sie auf unserer Produkt-Seite www.anton.ch. Gerne geben wir auch direkt Auskunft unter anton@k-r.ch.
Um ANTON kennenzulernen, können Sie auch unsere Demo-Installation ausprobieren: www.kr.anton.ch. Dort ist es möglich, sich als Editor oder Admin einzuloggen und zu testen, ob ANTON für die Erschliessung des eigenen Archivs in Frage kommt.

Altdaten

Fast immer gibt es bereits Listen, Worddateien, Filemaker-, Access- oder andere Datenbanken, mit denen eine Sammlung oder ein Archiv oder wenigstens Teile davon mehr oder weniger erschlossen sind. Diese in ein neues System zu bringen, ist meistens ein grosser Aufwand. Es ist aber auch eine Chance, die vorhandenen Daten zu «mappen», d.h. auf das neue System hin zu trimmen. Die Daten werden dadurch vereinheitlicht und mithin systematisch verbessert.

Ist bereits eine komplexe Datenbank vorhanden, die keinen einfachen Export aller Daten erlaubt, müssen die Profis ran. Der zu kalkulierende Aufwand ist abhängig von der Komplexität und von der Qualität der Altdaten.

Ist es dagegen möglich, die Daten in Excel-Files zu exportieren oder anderweitig in dieses Format zu bringen (auch CSV-Daten funktionieren), ist ein Import in ANTON technisch sehr einfach. Oftmals ist aber aus inhaltlichen Gründen eine manuelle Vorbehandlung der Daten empfehlenswert und notwendig.

Im Folgenden möchte ich den Standard Excel Import demonstrieren:

Excel-File

Im Adminbereich unter «Standard Import Excel» kann man ein Excel-File herunterladen, das für den Import vorbereitet ist. Die Regeln, wie das Import-File auszufüllen ist, werden in der Dokumentation erläutert. Neben der Erläuterung der einzelnen Felder zeige ich im Folgenden auch ein Excelfile, das ich dann importieren werde (es wurde ursprünglich verwendet, um unsere Demo-Installation www.kr.anton.ch  mit Daten zu initialisieren).

Screenshot von Anton Import Dokumentation

Im Excel-File kann ich von mir nicht benötigte Spalten löschen. Lediglich parent und verzeichnungsstufe sind zwingend erforderlich, sonst könnten keine sinnvollen und vor allem lokalisierte Datensätze erstellt werden. Die Validierungsregeln sind aber ansonsten eine Sache der Reposettings (Voreinstellungen). Je nach Szenario sind strengere Validierungsregeln sinnvoll, da damit die Qualität der Import-Daten gesichert werden kann.

Gehen wir also einige Spalte durch und füllen sie mit ein paar Testdaten aus. In der Spalte parent muss die Signatur des Elterndatensatzes stehen. Besitzt der Elterndatensatz keine Signatur (z.B. Verzeichnungsstufe Klasse), dann kann die datenbank-interne ID des Parent-Datensatzes angegeben werden (abzulesen im Permalink des Datensatzes). Ich gebe dort "KRA 1" ein (mein erster Bestand).

Die Spalte signatur kann ich ausfüllen (dann muss die Signatur eindeutig sein). Lasse ich sie leer, wird die nächste Signatur automatisch vergebe

In die Spalte titel gebe ich nun einfach Text ein.

Die Spalten datum_von und datum_bis sind im ISO 8601 Standard anzugeben (die Level 1 und 2 des Extended Date/Time Format EDTF der Library of Congress sind für die Zukunft evtl. relevant, werden aber von ANTON noch nicht unterstützt): JJJJ-MM-TT, JJJJ-MM oder JJJJ. datum_von_ca und datum_bis_ca enthält eine "0" oder eine "1", je nachdem ob ich die Daten schätzen musste oder ob sie genau sind. Ich empfehle sämtliche Datumsfelder als obligatorische Felder zu behandeln. Bei einem fixen Zeitpunkt entspricht das datum_von dem datum_bis. Wenn man ein Datum nicht weiss, ist eine Schätzung immer noch besser als gar kein Datum.

Wichtig: Alle Spalten müssen als Text formatiert sein: Spalten markieren, Format→Zellen: Text.

Anton Import Excel parent, titel

Sicher zwingend ist die Angabe einer verzeichnungsstufe. Da der parent meines Imports ein Bestand ist, kommen nur noch "Serie", "Klasse",  "Dossier" oder "Einzelstück" als Verzeichnungsstufen in Frage.

Auf der untersten Stufe empfiehlt es sich einen objekttyp anzugeben. Die Werteliste ist anpassbar. Die Spalte umfang_zahl bezieht sich auf den Objekttyp. Dagegen ist die Spalte extent_cm nur für Bestände gedacht. Man kann sie also leer lassen oder sogar löschen.

In der Spalte provenienz_autor werden die Akteure angegeben, die für die Laufzeit/Entstehung relevant sind. Gibt es diese Akteure noch nicht in ANTON, werden sie neu angelegt. Hier ist nun die Konvention wichtig, wie die Akteure in das Feld eingegeben werden.

 Müller, Heinz (1934-1977); Rechtsabteilung

Damit wird ein Akteur "Müller, Heinz" mit den Daten "1934" bis "1977" und ein Akteur "Rechtsabteilung" angelegt und als Autoren zur Laufzeit der Verzeichnungseinheit gespeichert. Die Akteure sind konzeptionell von den Verzeichnungseinheiten getrennt: sie werden als eigene Entität/Ressource behandelt, die über events in Interaktion mit dem Archivmaterial treten. Die Erstellung (=Laufzeit) ist dabei ein mögliches event. Hintergrund dieses auf den ersten Blick komplizierten Konzepts ist erstens die Möglichkeit, verschiedene events (hier: Erstellung; Akzession oder Reproduktion wären weitere Beispiele) mit denselben Akteuren verknüpfen zu können. Zweitens können die Provenienzen in Zukunft relativ leicht ausgebaut werden, so dass sie volle Kompatibilität mit den Standards ISAAR-CPF und EAC-CPF haben (zurzeit nur Kompatibilität mit dem Minimum). Schliesslich können die Provenienzen so in Zukunft zu einer abfragbare und verknüpfbare Ressource werden (REST, Linked Data).

Das Feld sprache muss eine der bereits verwendeten Sprachen enthalten. Wenn eine neue Sprache vorkommt, muss diese erst im Admin-Bereich unter Sprache hinzugefügt werden. Mehrere Sprachen werden mit "::" getrennt werden (Kommas sind hier nicht möglich, da sie in den Sprachnamen vorkommen können). Die Sprachen sind intern mit dem ISO 639-2b Code verknüpft, so dass sie korrekt nach EAD exportiert werden können.

Der standort verhält sich gleich wie das Feld Sprachen. D.h. der Standort muss bereits existieren oder man muss den Standort im Admin-Bereich hinzufügen.

Anton Import Excel verzeichnungsstufe, sprache

Interessant ist noch das Feld bilder, das nur aus historischen Gründen noch so heisst. Es können auch andere Datei-Typen mitimportiert werden: Dokumente, Videos, Audio-Files usw. Wenn mehrere Bilder zu einem Datensatz importiert werden sollen, sind die Dateinamen wieder zu trennen. Am besten ebenfalls mit "::".

bild.jpg::dokument.pdf

Auch die schlagworte werden mit einem Trennzeichen eingegeben:

schlagwort1::schlagwort2

Die schutzfrist enthält einen der drei Werte: "public",  "standard" oder "prolonged", wobei in den Reposettings angegeben werden kann, wie lange die Schutzfristen dauern.

Anton Import Excel standort, schutzfrist

Mit dem Feld private kann man die Veröffentlichung der Datensätze als nicht-öffentlich verhindern. Hierzu wäre eine 1 in die Spalte einzufügen.

Die weiteren Felder sind Textfelder und können nach Belieben ausgefüllt oder gelöscht werden.

Upload der Metadaten und der Digitalisate, Validierung

Ist das Excel soweit fertig ausgefüllt, kann es im Reiter unter Upload Metadaten auf den Server geladen werden:

Anton Import Metadaten Upload

Nach dem Upload kann man bereits eine Validierung der Metadaten durchführen. Die Fehlermeldungen zeigen, was für einen erfolgreichen Import noch nötig ist:

Anton Import Validierung

Die Dateien, die im Excel-File erstellt wurden, fehlen noch. Auch diese sind unter Upload Assets auf den Server zu laden.

Anton Import Asset Upload

Ausserdem werden im Excel parents angegeben, die in meiner Installation noch nicht existieren: die Bestände "KRA 5", "KRA 7" und "KRA 9". Also erstelle ich schnell weitere Bestände mit diesen Signaturen. Dafür gehe ich auf die Detailansicht des bereits bestehenden Bestands "KRA 1", den ich im letzten Post erstellt habe, und klicke auf +Neu. Nun kann ich auf einmal mehrere Bestände erzeugen:

Anton Import Bestände erzeugen

Wenn ich nun nochmal validiere, ist alles OK:Anton Import Validierung OK

Import

Nun bin ich bereit für den Import oder Ingest. Dieser Prozess kann etwas dauern.

Anton Import IngestAlles lief erfolgreich durch. So sieht jetzt mein Bestand "KRA 1" aus:

Anton Import Ergebnis