Kommentare Abstract
2013/4 Linked Open Data und Big Data

Linked Open Data in archivischen Fachinformationssystemen

Kommentare Abstract

Die grosse Idee der vernetzten offenen Daten erreicht über den Umweg der übergreifenden Portalangebote auch die Archive und ihre Fachinformationssysteme. Bei der Erneuerung des hessischen Archivinformationssystems, das gemeinsam für das Hessische Landesarchiv und das Niedersächsische Landesarchiv entwickelt wird, ist von Anfang an erörtert worden, wie die Idee der Linked Open Data (LOD) in der Praxis realisiert werden kann.

URI für archivische Erschliessungs- Objekte 

Um Daten miteinander verknüpfen zu können, ist ein eindeutiger Identifika­tor unverzichtbar. Seit Langem werden Archivalien und Archivbestände, wie es ISAD (G)www.ica.org/10207/standards/ isadg-general-international-standard-archival- description-second-edition.html.beschreibt, mit Signaturen versehen, um sie eindeutig identifizie­ren zu können. Auch die Archive selbst haben in der Regel eindeutige Kürzel. In den meisten Fällen genügt also die Archivsignatur den Ansprüchen an ei­nen einheitlichen Ressourcenidentifi­kator (URI – Uniform Resource Identi­fier), aber eben doch nicht immer. Pro­bleme können sich ergeben bei Korrek­turen, Umsignierungen oder bei Mehrfachverzeichnungen eines Ob­jekts. Daher ist die Verwendung ma­schinell generierter Identifikatoren der sicherere Weg zur eindeutigen Bezeich­nung archivischer Erschliessungsob­jekte. Dabei können beispielsweise Datenbank­-ID verwendet werden. Si­cherlich ist die längerfristige Stabilität solcher ID wünschenswert, noch wich­tiger als ewige Geltung aber ist die Ein­deutigkeit.

Verwendung von HTTP-Links für archivische Erschliessungsobjekte 

Eine Vorschrift zur Verwendung von HTTP-­Links für archivische Erschliessungsobjekte findet sich in den Archiv­gesetzen zwar nicht. Eine solche Forde­rung steht aber im Einklang mit dem Auftrag des neu gefassten Hessischen Archivgesetzes, Archivgut «unter An­wendung moderner Technologien für die öffentliche Nutzung zugänglich zu machen»§ 1 (1) Hessisches Archivgesetz (HArchivG). Vom 26. November 2012, Gesetz- und Verordnungsblatt für das Land Hessen Teil I, S. 458.. Schon vergleichsweise früh haben die hessischen Staatsarchive ihre Erschliessungsdaten im Archivinfor­mationssystem HADIS unter www.ha­dis.hessen.de recherchierbar gemachtBernward Helfer: Das hessische Erschlies- sungssystem HADIS 2000, in: Angelika Menne-Haritz (Hg.): Online-Findbücher, Suchmaschinen und Portale, Marburg 2002, S. 153–171, auch unter http://archivschule.de/uploads/Publikation/VOE35/ Voe35_14HELFER.pdf; Peter Haberkorn: Das Fachinformationssystem HADIS der hessischen Staatsarchive, in: Gerald Maier, Thomas Fritz (Hg.): Archivische Informationssystem in der digitalen Welt. Aktuelle Perspektiven, Stuttgart 2010, S. 181-195.. Allerdings waren dort die standardmäs­sig angebotenen HTTP-­Adressen keine festen, sondern nur temporäre Web­links, deren Gültigkeit mit Ablauf der Session verfiel. Diese Einschränkung führte zu Unmut bei jenen Anwen­ dern, die Links zu HADIS­-Objekten setzen wollten. Seit 2006 werden von HADIS auch permanente Links für diverse Portale bereitgestellt. Infolge­ dessen sind hessische Erschliessungs­ daten u.a. aus spartenübergreifenden Angeboten wie dem BAM­-Portal oder der Deutschen Digitalen Bibliothek (DDB) herausverlinkt worden1. Von der HADIS­ Nachfolgeanwendung werden durchweg feste HTTP-­Adressen so an­geboten, dass eine Verlinkung zu den Erschliessungsobjekten für jeden leicht möglich ist. Dabei kommt das archi­vische Credo über die Bedeutung des Kontextes zur Geltung, indem jeder Erschliessungsdatensatz im Zusam­menhang mit der Gliederung (Klassifi­kation, Tektonik) angezeigt wird; ein Navigationsbaum ermöglicht das Über­wechseln zu benachbarten Objekten.

Eignung archivischer Erschliessungsdaten als Open Data 

Manche hinterfragen, ob archivische Erschliessungsdaten überhaupt als Open Data geeignet seien. Diese Zwei­fel betreffen zum einen die – verglichen mit Bibliotheksdaten – heterogene Struktur der Archivdaten. Mehr noch aber führen die hohen Anforderungen des Persönlichkeitsschutzes zu einer Zurückhaltung mancher Archive bei Open Data. Die öffentlichen Archive verstehen sich zu Recht auch als Daten­schutzbehörden. Sie haben die gesetz­liche Aufgabe, das Freiheitsrecht auf informationelle SelbstbestimmungIn Deutschland abgeleitet aus der Menschenwürde und dem Recht auf freie Entfaltung der Persönlichkeit: Artikel 1 (1) bzw. Artikel 2 (1) Grundgesetz.auch nach Abgabe der Unterlagen ans Archiv zu gewährleisten. Dazu dienen vor allem die archivgesetzlichen Schutz­ oder Sperrfristen. Aber deshalb müssen die betreffenden archivischen Erschliessungsdaten keineswegs voll­ständig unter Verschluss gehalten wer­den. Vielmehr ist es Aufgabe der Archi­ve, das Recht auf Persönlichkeitsschutz mit dem Grundrecht der Wissenschafts­ und Forschungsfreiheit7 in Einklang zu bringen. Deshalb hat die bundesdeutsche Archivreferentenkonferenz 2007 eine Empfehlung zum Umgang mit sensiblen Erschliessungsdaten verabschiedet8. Die­ses Papier arbeitet heraus, dass Erschlie­ssungsdaten durchaus auch dann schon in öffentlich zugänglichen Netzen publi­ziert werden dürfen, wenn die Aktenin­halte selbst noch Schutzfristen unterlie­gen. Entscheidend ist, dass der Erschlie­ssungstext die schutzwürdige Informati­on (etwa einen Personennamen) nicht preisgibt. Archivinformationssysteme sollten diese Unterscheidung – so wie in Hessen seit vielen Jahren der Fall –abbil­den und die beiden Merkmale «Zeitpunkt der Onlinepublikation der Erschliessung» und «Ende der Schutzfrist» getrennt speichern. Dies sollte auf der Ebene der ein­zelnen Verzeichnungseinheit geschehen, und nicht pauschal für den ganzen Ar­chivbestand, denn unter Onlinebedin­gungen entfällt die Notwendigkeit, die Fertigstellung eines kompletten Online­findbuchs abzuwarten. Dieses Verfahren erfordert unter den Vorzeichen von Linked Open Data eine erhöhte Wach­samkeit bei der Bearbeitung, denn ein versehentlich veröffentlichter Datensatz lässt sich kaum zurückholen.

Bereitstellung standardisierter Informationen zu den Objekten 

Inzwischen hat sich EAD2zum Stan­ dardaustauschformat für archivische Informationen entwickelt. In den letz­ten Jahren ist es im Förderprogramm der Deutschen Forschungsgemein­schaft (DFG) zur Retrokonversion von Findmitteln verwendet worden. Auch die Deutsche Digitale Bibliothek (DDB) nutzt EAD, um Daten von den Archiven in Empfang zu nehmen. Inzwischen haben die deutschen Archive sich über ein einheitliches EAD­Profil verstän­digtwww.landesarchiv-bw.de/ead; Ulrich Fischer, Sigrid Schieber, Wolfgang Krauth, Christina Wolf: Ein EAD-Profil für Deutschland. EAD(DDB) als Vorschlag für ein gemeinsames Austauschformat deutscher Archive, in: Archivar. Zeitschrift für Archivwesen 2/2012, S. 160–162, auch unter www.archive.nrw.de/archivar/hefte/2012/ausgabe2/ARCHIVAR_02-12_internet.pdf.. Die DDB reicht die Daten weiter an die Europeana, die diese in das klassische LOD­Format RDF verwandelt3und so öffentlich bereitstellt. 

Offenheit der Daten darf nicht auf Kosten der Datenqualität gehen. Daher widmete der LOD-­Summit 2013 im ka­nadischen Montreal der Datenpflege («Curation») bei LOD eine eigene Sek­tion4. Unter diesem Gesichtspunkt sind auch die Modalitäten der Datenak­tualisierung zu klären. Die hessischen Staatsarchive hatten 2006 mit dem BAM­-Portal eine tägliche Aktualisierung vereinbart, um mögliche Fehler – insbesondere solche, die den Persön­lichkeitsschutz betrafen – ohne Zeitver­zug bereinigen zu können. Derzeit werden die Daten bei der DDB noch nach Absprache im Einzelfall aktuali­siert, aber das ist nur eine Übergangs­lösung in der Startphase. Nach gegen­wärtiger Planung werden die hes­sischen Archive ihre EAD-­Dateien ohne Zugangsbeschränkung im Inter­net verfügbar machen. Über einen Zeit­stempel lässt sich erkennen, wann eine Aktualisierung erfolgt ist. Ob darüber hinaus auch unmittelbar RDF­-Daten publiziert werden, ist noch zu klären. 

Offenheit

Es wird diskutiert, wann Daten wirklich als «offen» zu bezeichnen sind. Die Europeana publiziert Erschliessungs­ daten nur, wenn sie unter der (Nicht­)Lizenz CC0 verwendet werden können5. Dagegen wurden beim LOD Summit sachliche und rechtliche Zweifel an die­ser umfassenden Lizensierung artikuliert6. Ein Verzicht auf die Nennung des Datenurhebers widerspricht dem Ziel der Archive, ihre Archivalien bes­ser auffindbar zu machen. Und bei Wei­terverwendung der Daten zu rechtswidrigen Zwecken könnte die Reputation des Archivs leiden. Die deutschspra­chige Wikipedia erlaubt eine Nachnut­zung ihrer Artikel unter der Creative­ Commons-­Lizenz BY­SA, die die Nen­nung des Urhebers fordert und die Weitergabe von Bearbeitungen unter den gleichen Bedingungen zulässt7. Die möglichen Nachteile einer CC0­ Lizensierung sind abzuwägen gegen­ über den Vorteilen, die im positiven Fall einen gesellschaftlichen Mehrwert für alle Beteiligten erzeugen. Sicherlich wird die 2013 neu gefasste EU­-Richtli­nie über die Weiterverwendung von In­formationen des öffentlichen Sektors, die innerhalb von zwei Jahren in natio­nales Recht umzusetzen ist, die Ent­wicklung beflügeln: Erstmals werden nun nämlich auch Bibliotheken, Muse­ en und Archive verpflichtet, die freie (wenn auch nicht kostenfreie) Weiter­ verwendung ihrer bereitgestellten öf­fentlichen Daten zu ermöglichenRichtlinie 2013/37/EU des Europäischen Parlaments und des Rates vom 26. Juni 2013, Amtsblatt Nr. L 175 vom 27/06/2013 S. 0001–0008, auch unter http://eur-lex.europa.eu/LexUriServ/LexUriServ.do?uri=OJ:L:2013:175:0001:01:DE:HTML..

Adressaten der verlinkten Daten

Wer mit einem gewissen Aufwand Links und weitergehende Informa­tionen zu seinen Erschliessungsobjek­ten im Internet bereitstellt, möchte auch, dass die Angebote genutzt wer­den. Bisher zeigen sich – neben den nationalen und europäischen Archiv­portalen – vor allem andere Archiv­ oder Kulturinstitutionen daran interes­siert, Links zu Verzeichnungsobjekten der regionalen Archivportale wie dem in Hessen zu setzen. Dadurch werden Quellen im Zusammenhang präsentiert oder Recherchemöglichkeiten durch Zusatzinformationen optimiert. Die landesgeschichtliche Anwendung LAGIS beispielsweise setzt Links, um die von den hessischen Staatsarchiven online gestellten digitalisierten Personenstandsregister gezielter recher­chierbar zu machen8. Mehrfach haben Projektförderungen dazu geführt, dass mittelalterliche Urkunden der hessi­schen Staatsarchive im Verbund online präsentiert worden sind9.

In der nächsten Ausbaustufe der Datenverknüpfung könnten Archivda­ten selbst als historische Forschungs­daten genutzt werden – für die Ge­schichtsforschung und für andere Dis­ziplinen. Dazu dürften Erschliessungs­daten nicht mehr nur als Verweise auf einzelne Akten und Urkunden verstan­den werden, sondern als ein eigener Datenkorpus, der weitergehende Auswertungen zulässt. Beispielsweise könnte eine systematische Auswertung eines grösseren Korpus von Erschlies­sungsdaten Erkenntnisse darüber er­bringen, welche Krankheiten im Zeit­ verlauf diagnostiziert wurden, welche Bodenschätze wann an welchen Orten gewonnen wurden; welche Personen­namen über die Jahrhunderte hinweg verwendet wurden usw. Im Moment ist bei derartigen Forschungsthemen ein direkter Kontakt zum Archiv unumgänglich, und er wird auch in Zukunft sicherlich weiterhin angeraten sein, denn die archivischen Erschliessungs­daten sind teilweise erklärungsbedürf­tig, und aufgrund archivischer Bewer­tung und Kassation haben statistische Auswertungen ihre Grenzen. Dennoch werden die Möglichkeiten der For­schung deutlich erweitert, wenn Daten in einer strukturierten Form frei zu­gänglich sind.

Open Government

Über die Onlinebereitstellung von Er­schliessungsdaten hinaus können staatliche und kommunale Archive – wie alle anderen öffentlichen Verwal­tungen auch – ihren Beitrag zu einer offenen und transparenten Verwal­tungskultur leisten. Im Sinne des Open Government lassen sich statistische Daten zur archivischen Tätigkeit in ei­ ner weiterverarbeitbaren Form publi­zieren. Bei diesem Aspekt der Datenbe­reitstellung stehen die meisten deut­schen Archive noch am Beginn der Überlegungen. Zu denken wäre etwa an die jährliche Anzahl der Zugänge, der neu verzeichneten Archivalienein­ heiten oder der Nutzerinnen und Nut­zer im Archiv usw. – kurzum: an alle Daten, die auch heute schon in Jahres­ und Tätigkeitsberichten publiziert werden10, aber bislang, da sie nur in Papier­ oder PDF-­Dokumenten enthalten sind, nur schwer automatisiert ausgewertet werden können.

Links zu Ressourcen anderer Anbieter

Ein Kernpostulat der Linked-­Open­-Data-­Idee ist die Verlinkung zu Res­sourcen anderer Informationsanbieter, um die Daten zu Elementen des Se­mantic Web zu machen. Hierbei er­weist es sich als Problem, dass die ar­chivischen Erschliessungsdaten bei den meisten Archiven bislang nur be­dingt strukturiert oder standardisiert sind. Zwar bieten EAD-­Elemente eine Zuordnung, jedoch findet dabei oft kei­ne Entitätenprüfung statt: Wenn im Titelfeld das Wort «Müller» vorkommt, geht häufig nur aus dem Kontext hervor, ob es sich um den Beruf oder um einen Personennamen handelt – und im zwei­ten Fall weiss man nicht, ob es sich um dieselbe Personnamens Müller handelt wie in einer anderen Verzeichnung. Daher sind solche Datei­en nur eingeschränkt für das Semantic Web geeignet. Eine Anreicherung der Erschliessungsdaten um eindeutige In­formationen ist dazu notwendig und auch erstrebenswert, jedoch mit den personellen Kapazitäten der Archive al­lein kaum zu bewältigen. Ziel muss da­her eine automatisierte Anreicherung um Normdaten sein, sodass der Auf­ wand der Archive sich auf eine Rest­menge und auf die Qualitätskontrolle beschränkt. Hier sind Verbünde und Kooperationen unerlässlich. Vordring­lich erscheint vor allem die Erstellung oder Optimierung von Personen­ und Ortsregistern. Erschliessungsdaten­sätze sollten dazu mit Datensätzen grö­sserer Anbieter verlinkt werden. Dabei kommen etablierte Dienste wie Geo-Na­mes für ein Ortsregister und DB-pedia für ein Personenregister infrage, die auch bei der Europeana hierfür ver­wendet werden3.

Letztlich gilt es gerade für mittlere und kleinere Archivverwaltungen, sich verbreiteten Lösungen anzuschliessen, die im Verbund genutzt und weiter entwickelt werden. Nur dann kann die grosse Vision der Linked Open Data in der Praxis auch mit Leben gefüllt werden.

Avatar

Peter Sandner

Archivar, Leiter der Abteilung Archivfachliche IT/Digitales Archiv im Hessischen Hauptstaatsarchiv in Wiesbaden

Abstract

La grande idée des données ouvertes et reliées entre elles (Linked Open Data) intéresse également les archives et leurs systèmes d’information professionnels par le biais d’offres de portails transversaux. Dans le cadre de la rénovation du système d’information archivistique du Land de Hesse, développé conjointement pour les archives de Hesse et de Basse-Saxe, la question de savoir comment concrétiser l’idée des Linked Open Data (LOD) s’est posée dès le début. Les Archives du Land de Hesse permettent depuis des années de relier leurs données via des liens HTTP. L’EAD (encoded archival description; description archivistique encodée) a fait ses preuves comme standard d’échange pour les archives. La bibliothèque numérique européenne Europeana publie également des données archivistiques au format RDF. L’entretien («Curation») des open data représente un véritable défi pour le futur. La question porte également sur le degré d’ouverture des données. Jusqu’ici, ce sont surtout des institutions patrimoniales qui utilisent les liens des systèmes d’information archivistiques. Les données archivistiques devraient également être utilisées à l’avenir pour la recherche ,et les archives devraient elles-mêmes se considérer comme des administrations transparentes au sens de l’open government.