Zum Inhalt

Datenstandards für die Geschichtswissenschaften**

Vorschlag:
Normen und Standards für die (digitalen) Geschichtswissenschaften. Begriffe und Katalog

Normes et standards pour les études historiques (numériques). Termes et catalogue

Standards pour les données [électroniques] de la recherche historique

Dieses Dokument basiert auf einer Vorlage, welchedurch dieSubgruppe «Nachhaltige Datennutzung» der Abteilung Grundlagenerschliessung der Schweizerischen Gesellschaft für Geschichte (SGG) erarbeitet wurde. Dazu gehörten Tobias Hodel, Simon Gabay, Stefan Nellen, Moritz Mähr[2] , Barbara Roth, Pascale Sutter, Andrea Voellmin und  Karin von Wartburg. Das Papier wurde in Workshops und durch Freiwillige in einem _open peer review* erweitert und kritisch diskutiert.

Allen  Beteiligten gebührt grosserDank für das Engagement und die konstruktiven Diskussionen.

Das Dokument wurde am XX.YY.ZZZZ von der Abteilung “Grundlagenerschliessung der SGG” verabschiedet und in der Folge auf deutsch und französisch verfügbar gemacht.

Grundsätzliches

Das Dokument ist interaktiv und verweist mit Links auf die Überschriften, welche verwandte Themen abhandeln.

Zielgruppe

Die Zielgruppe dieses Papiers sind Historikerinnen und Historiker, die mit Daten(-beständen) arbeiten und forschen, Dokumente erschliessen und online publizieren wollen sowie Informatikerinnen und Informatiker, die in geschichtswissenschaftlichen Projekten (mit-)arbeiten.

[3] Ziel[4]

Das Papier stellt ein Glossar und einen Katalog zur Verfügung mit den wichtigsten Standards zur Erzeugung von Interoperabilität, so dass digitale Geschichtsprojekte möglichst einfach von Dritten nachgenutztund verlinktwerden können. Das Papier fokussiert auf technische Standards und Normen.

Interoperabilität bezeichnet die Anschlussfähigkeit und Austauschbarkeit von Daten und Informationen über unterschiedliche Systeme und Anbieter hinweg. Dank der Ausrichtung an Standards und der Weitergabe eigener Daten(-stämme) wird eine Nachnutzungaktiv gefördert.

Die Orientierung an Standards erlaubt den Anschluss an inter- und transnationale Forschungsarbeiten, indem Forschungsdaten und -resultate weiterverwendet werden können. Gleichzeitig vereinfachtdie Verwendung von Standards die Archivierungder Datenstämme[5] .

Das Dokument besteht aus einer Einleitung, welche die grundlegenden Begriffe einführt, einem Glossar, das die geläufigsten Begriffe bestimmt und einem Katalog, der die heute gebräuchlichen Standards beschreibt. Aufgrund des technischen Wandels ist weder das Glossar noch der Katalog vollständig oder langfristig gültig. Die datierte und publizierte Version ist ein Produkt ihrerZeit. Überarbeitungen werden mit Anpassungen von Formaten und Technologien notwendig werden.

Die Unabgeschlossenheit des Dokuments soll gleichzeitig aufzeigen, dass nur der gelebte Umgang mit digitalen Methoden und Daten produktive Diskussionen und Weiterentwicklungen von Theorie und Praxis ermöglichen. Entsprechend befürwortenwir eine offensive, offene und häufige Publikation (selbst) von (“dirty”) Daten auf und einen kritischen Umgang mit Daten.[6]

Einleitung

Die folgenden Seiten sollen als Wegweiser für geschichtswissenschaftliche

Projekte mit digitalen Ansätzen dienen, die sich an forschungsfragengeleiteten Workflows orientieren. In zwei Teilen wird eine Handreichung gegeben für technische Standards und aktuelle Herangehensweisen an Datenaufbereitung, -management und -auswertung. Damit möchten wir den Dialog zwischen HistorikerInnen sowie ComputerwissenschaftlerInnen und InformationswissenschaftlerInnen erleichtern[7] .

Der erste Teil erklärt in Form von Definitionen Technologien und Ansätze, die in den digitalen Geisteswissenschaften Verwendung finden. Im zweiten Teil werden in einem Katalogtechnische Normen und Standards beschrieben, an denen sich Projekte orientieren können.

[8] Orientierung an forschungsfragen geleiteten Workflows

Abgrenzung Norm vs. Standard

Wir verwenden den Begriff “Standard” in Abgrenzung von “Norm”.[1] Darunter verstehen wir eine vergleichsweise einheitliche oder vereinheitlichte, weithin anerkannte und meist angewandte (oder zumindest angestrebte) Art und Weise, etwas herzustellen oder durchzuführen, die sich gegenüber anderen Arten und Weisen durchgesetzt hat.[2] Ein Standard kann in einem formalisierten oder nicht formalisierten Regelwerk (in einer oder mehreren Regeln oder einer Norm) beschrieben sein oder sich ungeplant ergeben.[[3]]#_ftn3](#_msocom_9)

Das vorliegende Papier beschäftigt sich mit technischen Datenstandards im Zusammenhang geschichtswissenschaftlicher Projekte. “Standard” bezeichnet hier eine vergleichsweise einheitliche oder vereinheitlichte, weithin anerkannte und meist angewandte (oder zumindest angestrebte) Art und Weise, etwas herzustellen oder durchzuführen, die sich gegenüber anderen Arten und Weisen durchgesetzt hat. Dabei spielt es keine Rolle, ob diese Standards de jure oder de facto zustande gekommen sind.

Daten

Der Plural Daten leitet sich aus dem lateinischen datum ab, was sich mit «Gegebenes» übersetzen lässt. Der Begriff Daten bezeichnet streng reglementierte, in Zeichen(-ketten), der sogenannten Syntax, kodierte digitale Repräsentationen. Da der Begriff in unterschiedlichen Formen und Kontexten Verwendung findet, einige Bemerkungen dazu.

Durch semantische Anreicherung werden aus Daten Informationen. Die Vernetzung von Informationen führt zu (historisierbarem) Wissen. Daten werden hergestellt und aufbereitet. Die Herstellung und Aufbereitung von Daten ist folglich ein eigener, subjektiver Prozess. Daten sind so gesehen vielmehr capta (Erwischtes) oder gar facta (Gemachtes) als data (Gegebenes).[4]

Der Prozess der Anreicherung lässt sich als Wissenspyramide beschreiben:

●      Zeichen werden mittels Syntax zu einer Aussage → dies ergibt ein Datum

●      Daten wird/werden über Semantik(en) eine/mehrere Bedeutung(en) zugewiesen → dies ergibt Informationen

●      Informationen werden verknüpft und gewertet → dies ergibt Wissen.

Eine besondere Form von Daten sind Forschungsdaten. Darunter verstehen wir sämtliche Daten, die in einem Forschungsprozess hergestellt werden, z.B. durch Digitalisierung, Quellenforschungen, Experimente, Messungen, Erhebungen oder Befragungen. Die Verfügbarkeit und Nachnutzung digitaler Informationen schliesst den möglichst kostenfreien und barrierearmen Zugang zu Forschungsdaten ein. Entsprechend gehören sowohl Primär- als auch Metadaten in diese Kategorie.

Der Begriff Primärdaten ist in der Geschichtswissenschaft nicht gebräuchlich, vielmehr wird von Quellen gesprochen, unabhängig davon, ob diese digital oder analog vorliegen. Aus Gründen der Konsequenz wird der Begriff Primär- bzw. Urdaten auf den Seiten dieses Dokuments mit dem Begriff «Quellen» gleichgesetzt. Folglich kann darunter ein Bild, eine Karte, ein Gegenstand oder ein Text verstanden werden. Grundsätzlich gibt es keine materielle Form, die nicht als Quelle und entsprechend als Primärdatum verstanden werden kann.

Wichtig ist die Unterscheidung zwischen analogen und digitalen Quellen. Digital-born Daten sind historische Quellenstücke, die für ein geschichtswissenschaftliches Forschungsthema ausgewertet werden sollen und bereits in digitaler Form hergestellt wurden.[5] Im Gegensatz dazu stehen analoge (= physisch, nicht binär abgespeicherte Daten), die erst durch Digitalisierung (Scanning, Texterkennung, Bildverarbeitung etc.) elektronisch verfügbar gemacht werden.

Das Gegenstück zu den Primärdaten bilden Metadaten, worunter wir mehr verstehen als technische Metadaten, die sich auf digitale Dokumente beziehen. Metadaten sind für uns Beschreibungen von Daten, die sich auch auf analoge Dokumente beziehen.[6] Insbesondere für Metadaten ist die Nutzung von Standards zentral, da dadurch ein reibungsloser Austausch über Plattformen und Institutionen hinweg gewährleistet werden kann. Metadatenstandards sind Spezifikationen, die Metadatenterme detailliert beschreiben. Sie dienen der Festlegung von Elementen und von deren Struktur und Bedeutung und ermöglichen die semantische Interoperabilität zwischen Anwendungen, die diesen Standard verwenden. Ziel von Metadatenstandards sind die einheitliche, maschinenverarbeitbare Beschreibungen von Ressourcen und der plattform- und institutionsübergreifende Austausch dieser Beschreibungen.[7]

Zur Vernetzung von Daten und Wissensbeständen werden im Bibliotheks-, Informations- und Dokumentationswesen Normdaten angelegt und verwendet (als Deskriptor in der Dokumentation). Eine Normdatei ist damit eine Form eines kontrollierten Vokabulars, in dem festgelegt wird, welche Ansetzung bei der Erschliessung zu verwenden ist. Im Englischen werden Normdateien als «authority files» bezeichnet. Normdaten dienen zur Identifikation einer Entität (Person, Ort etc.).

→ Deklaration der Auswahl von Datenbeständen/Datenperspektiven (von der Quellengrundlage zur Datenkritik)[10] [11]

Daten können aufbereitet, verarbeitet, angereichert oder strukturiert bzw. modelliert werden. Unter Datenaufbereitung versteht man die Beschreibung, Transkription oder andere Formen der Zuschreibung von Sinn. Dazu zählen wir auch die Datenanreicherung bzw. Datenstrukturierung, die  (bestenfalls) gemäss Standards erfolgt und zum Ziel hat, Daten um Informationen anzureichern. Häufig wird der Schritt parallel zur Datenaufbereitung durchgeführt.

Da Daten eine zentrale Grösse in digitalen Projekten darstellen, sind Datenformate von immenser Bedeutung, um Anschlussfähigkeit und Datenaustausch zu gewährleisten. In den Anfängen des digitalen Zeitalters stellten Datenformate ein Hindernis dar, da vielfach auf proprietäre Formate zurückgegriffen wurde. Seit einigen Jahren erfolgt eine Verständigung auf freie und/oder maschinenlesbare Formate (PDF, → XML). In diesem Papier werden vorwiegend die freien und maschinenlesbaren Formate/Systeme XML und RDF beschrieben.[8]

Der Entscheid für freie Datenformate erleichtert die langfristige Aufbewahrung und vereinfacht die Datennachnutzung.

Offene, strukturierte Daten sind ein Schritt zu einem intelligenteren World-Wide-Web, das nach Tim Berners-Lee als Semantic Web beschrieben werden kann. In diesem Netz sollen Informationen in einer Art und Weise strukturiert werden, die eine bessere Verarbeitung durch Maschinen ermöglicht, als dies bislang der Fall ist. So soll die automatische Verarbeitung von Informationen vereinfacht und verbessert werden. → RDF, → RDFS und → OWL bilden grundlegende Bestandteile des Semantic Web. Semantic Web Technologien versprechen die Extraktion von Informationen im Gegensatz zu Text(-teilen). Entsprechend sind potentere Abfrage- und Auswertungsmechanismen denkbar als etwa durch relationale Datenbanken möglich sind.[9]

Datenaufbereitung

und Datenpräsentation[12]

Die Trennung von Datenaufbereitung (Datenstrukturierung /-modellierung und Erfassung) undDatenpräsentation hat sich etabliert. Da Erwartungen in Bezug auf die Darstellung von Daten stark im Fluss sind, erfordert sie eine regelmässige Anpassung der Präsentation, die jedoch nichts an der Aufbereitung und Strukturierung der Daten ändern soll. Umgekehrt sollen auch Anpassungen im Datenmodell keine Auswirkungen auf die Präsentation[13] haben.

Die strikte Trennung von Präsentation und Daten führt dazu, dass aufgrund derselben Datengrundlage unterschiedliche Präsentationen aufgesetzt werden können, die sich jeweils an ein unterschiedliches Publikum richten.[10]

Im Buchzeitalter wurde auf die visuelle Wiedergabe von Informationen (Textsatz, Tabellen etc.) fokussiert. Digitale Daten zeichnen sich jedoch dadurch aus, dass sie mit ihren Verknüpfungen und in ihrer Gänze nur verlustbehaftet visuell wiedergegeben werden können: Jede Präsentation ist nur eine mögliche Form der Datenwiedergabe.

Bei allen Hinweisen auf Standardisierung und Strukturierung bleibt der Hinweis auf einen kritischen Umgang mit digitalen Daten und Infrastrukturen jedwelcher Art zentral. Standards und Infrastrukturen widerspiegeln epistemologische Grundannahmen und sehen (implizite) Methoden und Praktiken vor. Entsprechend gilt es nach Machtstrukturen zu fragen, die durch die Daten, die Datenstrukturierung und -wiedergabe gestärkt oder unterstützt werden. Die intersektionale Forschung in den Digital Humanities zielt aktuell vor allem auf die Sichtbarmachung und damit offensive Diskussion solcher Probleme.[11]

Strukturierung[14]

vs. unstrukturierte Auswertung von (big) data

Im Umgang mit Daten kristallisieren sich aktuell zwei Herangehensweisen heraus. Daten werden entweder (hochgradig) strukturiert aufbereitet oder Such- und Auswertungsalgorithmen versuchen innerhalb von grossen, mehrheitlich flachen und unstrukturierten Datenmengen eine (sinnvolle) Aufbereitung.

[15]


Glossar

Im Glossar werden zentrale Begriffe kurz definiert. Die Relevanz für Projekte in den Geschichtswissenschaften sind kursiv in der rechten Spalte platziert. Grau unterlegt folgen jeweils Beispiele.


[1] Eine Norm ist definiert als eine weithin faktisch (manchmal auch rechtlich) anerkannte und durch ein Normungsverfahren beschlossene, allgemeingültige sowie veröffentlichte Regel zur Regelung eines Sachverhaltes.

Eine Norm wird beschlossen und veröffentlicht, nachdem sie alle Instanzen eines Normungsverfahrens durchlaufen hat. Eine solche «Norm» ist nach EN 45020 ein «Dokument, das mit Konsens erstellt und von einer anerkannten Institution angenommen wurde und das für die allgemeine und wiederkehrende Anwendung Regeln, Leitlinien oder Merkmale für Tätigkeiten oder deren Ergebnisse festlegt, wobei ein optimaler Ordnungsgrad in einem gegebenen Zusammenhang angestrebt wird» (Wikipedia/Normung).

Mit der Normung sind oftmals weitere Ziele verbunden wie Rationalisierung, Verminderung der Vielfalt, Kompatibilität, Gebrauchstauglichkeit und Sicherheit (o.A.: Normung, in: Wikipedia. Online: <Normung – Wikipedia>, Stand: 23.12.2021).

[2]  In dieser Bedeutung ist der Begriff Standard insbesondere in den Bereichen Technik und Methodik üblich.

[3] Nach: Wikipedia/Standard: Norm oder Standard?: Im deutschen Sprachgebrauch ist in den letzten Jahren eine Begriffsverwirrung eingetreten, indem «Standard» analog zum englischen Begriff standard auch für Normen verwendet wird. Aus dem englischen Sprachgebrauch kommt der Begriff De-jure-Standard, der sich mit dem deutschen Begriff Norm deckt. Von De-facto- oder Quasi-Standards spricht man, wenn sich Methoden oder Regeln in der Praxis durchsetzen und nicht infolge von Vereinbarungen, Gesetzen, Verordnungen oder Ähnlichem gesetzt sind (Wikipedia/Standard).

[4] Drucker, Johanna: Humanities Approaches to Graphical Display, in: Digital Humanities Quarterly 5 (1), 2011. Online: http://www.digitalhumanities.org/dhq/vol/5/1/000091/000091.html, Stand: 11.03.2016.

[5] Beispiele für digital-born Daten: Videospiele; Protokolle, die als Worddokumente abgespeichert wurden; Fahndungsdatenbanken.

[6] Im Gegensatz dazu, das Verständnis von Metadaten im DaSCH. Dort wird ein grundlegendes Set an Informationen zu einem Projekt als Metadaten verstanden.

[7] Hartmann, Sarah: Metadatenstandards. Teil 2 der Einführung in die Interoperabilität von Metadaten und Metdadatenformaten, Göttingen 05.11.2010. Online: http://www.kim-forum.org/Subsites/kim/SharedDocs/Downloads/DE/Schulungen/InteroperabilitaetVonMetadaten/teil21.pdf?__blob=publicationFile, Stand: 11.05.2017. Beispiele für Metadatenstandards: → METS, → MARCXML, → EAD.

[8] Die vorgeschlagenen/beschriebenen Datenstandards entsprechen nicht den Vorgaben der KOST zur langfristigen Aufbewahrung von Daten!

[9] Kuczera, Andreas: Graphdatenbanken für Historiker. Netzwerke in den Registern der Regesten Kaiser Friedrichs III. mit neo4j und Gephi., Mittelalter. Interdisziplinäre Forschung und Rezeptionsgeschichte, 05.05.2015, http://mittelalter.hypotheses.org/5995, Stand: 11.03.2016. Sogenannte Friend-of-A-Friend (FOAF) Abfragen sind in relationalen Datenbanken nur mit grossem Aufwand möglich und selten tatsächlich realisiert.

Kuczera, Andreas: Das Deutsche Textarchiv in der Graphenwelt, Mittelalter. Interdisziplinäre Forschung und Rezeptionsgeschichte, 04.04.2017, http://mittelalter.hypotheses.org/10025, Stand: 19.04.2017.

[10] Analog zu: Sahle, Patrick: Digitale Editionsformen. Zum Umgang mit der Überlieferung unter den Bedingungen des Medienwandels. Teil 2: Befunde, Theorie und Methodik., Bd. 2 / 3, Norderstedt 2013 (Schriften des IDE 8). Online: kups.ub.uni-koeln.de, http://kups.ub.uni-koeln.de/5352/, Stand: 25.07.2014. Dort bezogen auf digitale Editionen: Es handelt sich bei jeglichen Ausgaben jeweils nur um eine mögliche Darstellungs-/Präsentationsart.

[11] Siehe insbesondere D’Ignazio, Catherine; Klein, Lauren F.: Data Feminism, Cambridge, Massachusetts 2020. Online: <Data Feminism · MIT Press Open>. Jarrett, Kylie: The Digital Housewife. Feminism, Labour and Digital Media, 2016. Losh, Elizabeth; Wernimont, Jacqueline: Bodies of Information: Intersectional Feminism and the Digital Humanities, 2018 (Debates in the Digital Humanities). Online: https://dhdebates.gc.cuny.edu/projects/bodies-of-information. Russell, Legacy: Glitch Feminism. A Manifesto, 2020 und Ortolja-Baird, Alexandra; Nyhan, Julianne: Encoding the haunting of an object catalogue: on the potential of digital technologies to perpetuate or subvert the silence and bias of the early-modern archive1, in: Digital Scholarship in the Humanities, 19.10.2021, S. fqab065. Online: https://doi.org/10.1093/llc/fqab065, Stand: 18.03.2022.


GENDER!!!!!! Rückmeldung von Christian Aliverti: Ich war mir nicht sicher, wie ich in diesem Doc gendern soll, deswegen teilweise nur die männliche Form, aber das passt Ihr vermutlich noch an.

Notizzettel zur technischen Umsetzung der Homepage:

https://25f580ad.norms-and-standards.pages.dev/

https://github.com/maehr/norms-and-standards/tree/mkdocs

https://github.com/maehr/norms-and-standards/actions/runs/1987082988

https://gitlab.unige.ch/sgg-ssh

Was braucht die Zielgruppe? Was sind ihre Wünsche, Erwartungen, ...? Gibt es Umfragen/Daten dazu?

Wollen wir mit diesem Papier die Wünsche "bloss" erfüllen, oder wollen wir die Wünsche ein wenig steuern? Man kann ja mit dem Angebot die Nachfrage steuern...

il me semble important de dire (en une phrase) que ces standards et normes sont propres aux sciences humaines, auxquelles se rattachent les sciences hitoriques. Ce qui explique que ce guide existe, et que certains choix sont spécifiques à ces disciplines. Par exemple les informaticiens n'aiment pas le XML et préfèrent le JSON, mais pas nous. Ce document est donc important

Ajouter une phrase sur la notion de "bonnes pratiques". Par exemple, :

l'utilisation des normes et standards constitue la base de bonnes pratiques dans l'utilisation de l'informatique pour l'étude de l'histoire comme des autres sciences humaines

eine kleine Predigt zum Tag, die gerne angepasst werden darf/soll/muss.

Oben schreiben wir von Historiker:inne:n und Informatiker:inne:n --> abgleichen

oben zu ergänzen versucht

Kann m.E. gelöscht werden, weil die Abgrenzung im Weiteren keine Rolle mehr spielt.

Kann m.E. weggelassen werden

Wird diese Stelle später noch ausformuliert? Oder ist sie ein Verweis auf eine andere Passage (wenn ja, auf welche?)? Mir ist nicht klar, was diese Stelle für eine Funktion hat…

Oder Visualisierung?

Das verstehe ich nicht ganz. Wenn sich das Datenmodell ändert, muss sich die Präsentation anpassen. Die Frage ist einfach, wie viel Aufwand das verursacht, oder?

il existe aussi des données semi-structurées. Je reprendrais ce passage en deux temps:

  1. Il existe trois types de données: structurées, semi-structurées et non-structurées.

  2. Le type de donnée a des implications fortes sur le traitement qu'elles permettent

Gibt es eine Wertung dazu? Vorteile / Nachteile des einen und des anderen?