Projektdurchführung

Datenorganisation

Eine pr?zise Datenorganisation erleichtert die Arbeit w?hrend der Erhebung und Bearbeitung von Forschungsdaten, den Datenaustausch und das kollaborative Arbeiten z. B. in Kooperationsprojekten. Es ist sinnvoll, frühzeitig Benennungskonventionen für Ordner und Dateien festzulegen, insbesondere wenn mehrere Parteien an einem Projekt beteiligt sind.

Ordnerstrukturierung

Zur Ablage von Forschungsdaten eignet sich eine hierarchische Struktur. ?berlegen Sie sich hierfür sinnvolle Gliederungskategorien, z. B. nach Teilprojekten, Zeitr?umen, Art der Dateiformate oder dem Inhalt der Dateien und ordnen Sie diese hierarchisch. Die Benennung von Ordnern sollte selbsterkl?rend sein.

Dateibenennung

Die Dateibenennung sollte den Inhalt knapp beschreiben und helfen, die Daten eindeutig zu identifizieren. Dazu eignen sich Angaben wie Datum, Titel, Ort der Erhebung, Projektname oder eine Versionsnummer. Ein Dateiname k?nnte z. B. wie folgt strukturiert werden: JJMMTT_Titel_Bearbeiter*in_Version.

Bei der Benennung sollten folgende Regeln beachtet werden:

  • Dateinamen sollten m?glichst pr?zise aber erkl?rend sein.
  • Sonderzeichen, Leerzeichen, Satzzeichen oder Umlaute sollten nicht verwendet werden.
  • Stattdessen sollten Gro?buchstaben und Unterstriche genutzt werden.
  • Die Benennung sollte konsistent gehalten werden, da Gro?buchstaben sich auf die Sortierung auswirken.
  • Datumsformate sollten in der Form JJMMTT angegeben werden.
  • Werden Nummern angegeben, sollten diese immer zwei- oder dreistellig sein (z. B. Interview01 anstatt Interview1).
  • Werden verschiedene Versionen einer Datei gespeichert, sollte ein V mit entsprechender Nummerierung (z. B. V01) angegeben werden.
  • Wiederholungen von Informationen aus Ordnernamen sollten in den Dateinamen vermieden werden.

Versionskontrolle

H?ufig ist es sinnvoll, frühere Zust?nde von Dateien vorzuhalten und mit Dateiversionen zu arbeiten, um Entwicklungsstadien und ?nderungen verfolgen zu k?nnen. Insbesondere auch dann, wenn mehrere Personen an einer Datei arbeiten. Versionen, die nicht mehr ben?tigt werden, sollten bei Bedarf gel?scht werden.

Zu unterscheiden sind manuelle und automatische Verfahren. Eine einfache und übersichtliche Methode ist es, die Versionsangabe direkt im Dateinamen anzugeben. Z. B. in Form von ?V01“. Alternativ bietet sich die Speicherung der Angaben im Header oder in standardisierten Kopfzeilen innerhalb der Datei selbst an.

Darüber hinaus gibt es spezifische Software zur Versionsverwaltung, deren Verwendung sich insbesondere für gro?e Projekte lohnt, die zentral auf einem Server abgelegt werden. Weit verbreitete Systeme sind Git und Subversion. Für die Angeh?rigen der Universit?t Bamberg stellt der IT-Service GitLab zur Verwaltung und Versionierung bereit.

Dokumentation und Metadaten

Eine nachvollziehbare Dokumentation und die Beschreibung mit Metadaten ist für die Ver?ffentlichung und Nachnutzung von Forschungsdaten unabdingbar. Das gilt nicht nur für die Nachnutzung durch Dritte, sondern auch für die zukünftige Nutzung durch den/die Datenerzeuger*in selbst.

Forschungsdaten sind in der Regel nicht selbsterkl?rend, sondern ben?tigen zus?tzliche Informationen – die Metadaten. Typische Metadaten sind z. B. Angaben wie Autor*in oder Titel. Darüber hinaus enthalten Metadaten Informationen über den Entstehungskontext der Daten, Ma?nahmen der Datenbereinigung etc. Oft werden Forschungsdaten erst kurz vor der Ver?ffentlichung oder Archivierung mit Metadaten beschrieben. Eine strukturierte Beschreibung bietet aber bereits früher im Forschungsprozess einen Mehrwert.

Ohne Dokumentation k?nnen Informationen mit der Zeit verloren gehen, sodass Daten aufgrund fehlender Kontextinformationen nicht mehr interpretierbar und nachvollziehbar sind. Zudem kann es zur Verwechslung unterschiedlicher Dateiversionen kommen. Die Dokumentation ist oft die einzige Form der Kommunikation zwischen Datenerzeuger*in und -nutzer*in, weshalb diese m?glichst umfassend ausfallen sollte. Darüber hinaus steigt die Auffindbarkeit der Forschungsdaten, da Suchmaschinen nach Metadaten und nicht nach Inhalten der Daten suchen.

Es empfiehlt sich mindestens folgende Angaben zu dokumentieren:

  • Titel der Datenpublikation
  • Ersteller*innen, Urheber*innen, Rechteinhaber*innen
  • Institution und Projekt
  • Entstehungsjahr bzw. -zeitraum
  • Abstract/Beschreibung der Daten
    • Struktur der Daten und deren Beziehungen zueinander: Wie sind die Daten aufgebaut, was enthalten sie; bei mehreren Datens?tzen: wie geh?ren sie zusammen, welche Daten braucht man, um die anderen Daten interpretieren zu k?nnen
  • Methode/Datenerhebung
  • Ma?nahmen zur Datenbereinigung oder -gewichtung
  • Erkl?rungen für Codes und Labels (Codebook)
  • Version/Versions?nderungen
  • Verweis auf in Beziehung stehende Publikationen, die den Datensatz beschreiben/auswerten
  • Informationen zum Zugang, Nutzungs- bzw. Lizenzbedingungen

Grunds?tzlich muss für jedes Projekt individuell entschieden werden, welche Art der Dokumentation am geeignetsten ist. Sinnvoll ist in jedem Fall eine sowohl menschen- als auch maschinenlesbare Dokumentation. Wenn m?glich, sollten maschinell produzierte Metadaten, die ggf. bei der Erstellung der Daten entstehen, ausgelesen und gespeichert werden.

Dokumentiert werden kann in verschiedenen Formaten:

  • in einer README-Datei
  • in einem (elektronischen) Laborbuch
  • in einem projektinternen Wiki
  • innerhalb der Ordnerstruktur und Dateibenennung
  • in der Datei selbst bzw. in den Metainformationen der Datei.

Gut durchdachte und dokumentierte Metadaten spielen eine zentrale Rolle für das Finden, Durchsuchen und Nutzen von Forschungsdaten. Machen Sie sich daher frühzeitig Gedanken zur Datendokumentation und achten sie auf die Anforderungen von für ihr Fach relevanten Metadatenstandards und denen eines für die ggf. sp?ter erfolgende Ver?ffentlichung geeigneten Repositoriums.

Grundlegende ?berlegungen, die Sie bereits bei der Planung oder im laufenden Projekt anstellen k?nnen, sind:

  • Identifikation relevanter Metadaten: Welche Informationen werden ben?tigt, um die Daten nachvollziehen zu k?nnen? Welche Such- und Filteroptionen h?tte man gerne für die Daten?
  • Festlegen des Datenerhebungsprozesses: Zu welchem Zeitpunkt und in welcher Form liegen die identifizierten Informationen vor? K?nnen sie ggf. automatisiert erzeugt werden? Welche Form der Dokumentation eignet sich für den laufenden Forschungsprozess? Wie k?nnen die Metadaten sinnvoll mit den Forschungsdaten verknüpft werden? Gibt es Tools, die dafür zur Verfügung stehen?
  • Festlegen des Metadatenformats: Wie k?nnen die Metadaten so strukturiert wie m?glich gespeichert werden? Gibt es kontrollierte Vokabulare oder Ontologien? Wo sollen die Daten nach Projektabschluss gespeichert/ver?ffentlicht werden? Gibt es bestimmte Anforderungen des für die Ver?ffentlichung/Archivierung bestimmten Repositoriums oder Datenarchivs?
  • Erprobung und Verbesserung des Prozesses: Ist eine (Teil-)Automatisierung der Dokumentation m?glich?

Speicherung

Das Speichern von Forschungsdaten ist ein wesentlicher Aspekt des FDM. Um Datenverlust vorzubeugen, ist es sinnvoll, sich Gedanken über den Speicherort, das Speichermedium und eine Backup-Strategie zu machen.

Unterschiedliche Speicherorte haben verschiedene Vor- und Nachteile:

Speicherort

Vorteile

Nachteile

PC

- Verantwortung für Sicherheit und Backup liegen bei einem selbst

- maximale Kontrolle

- PC und Backup sind miteinander verbunden, eine Datenrettung ist bei Verlust nicht m?glich

- Schwierig für kooperatives Arbeiten

Mobile Speichermedien

- Leicht zu transportieren

- Aufbewahrung in einem abschlie?baren Schrank oder Safe m?glich

- unsicher gegen Verlust und Diebstahl

- Inhalte müssen separat verschlüsselt werden

- Externe Festplatten sind sto?- und verschlei?anf?llig

Institutionelle Speicherorte

- regelm??iges Backup

- professionelle Durchführung und Wartung

- Berücksichtigung der Datenschutzrichtlinien der Einrichtung

- Geschwindigkeit eventuell zu niedrig

- Backup-Zugang verz?gert sich ggf.

- Sicherheitskriterien und
-strategien sind ggf. nicht immer transparent einsehbar

Externe Speicherorte

- Einfache Nutzung und Verwaltung

- Backup vorhanden

- Für mobiles Arbeiten leicht nutzbar

- professionelle Durchführung und Wartung

- Datenschutzfragen oft ungekl?rt

- Sicherheit der Verbindung schwankt je nach Anbieter

- Abh?ngigkeit von Internetverbindung

- Backup ggf. verz?gert

Wir empfehlen, die Speicherm?glichkeiten des IT-Service zu nutzen.

Weiterführende Informationen zum Thema Speicherung

forschungsdaten.info: Speichern und Rechnen.

Dateiformate

Forschungsdaten sollten, soweit m?glich, zus?tzlich zum Originalformat auch in offenen Dateiformaten gespeichert werden, um den Zugang zu den Informationen für Nachnutzende zu erleichtern. Viele Dateiformate lassen sich mit geringem Aufwand in offene Formate konvertieren. Darüber hinaus erm?glichen offene Dateiformate eine Archivierung über die Lebensdauer spezieller Software hinaus. Der guten wissenschaftlichen Praxis folgend, sollten Forschungsdaten mindestens 10 Jahre gespeichert werden. Hierfür eignen sich z. B. die folgenden Formate:

Dateityp

Empfehlenswerte Formate

Weniger empfehlenswerte Formate

Tabellendaten

CSV, SPSS portable

Excel (.xlsx/.xls)

Text

TXT, HTML, PDF/A

Word (.docx/.doc)

Pr?sentation

PDF/A

PowerPoint (.pptx/.ppt)

Multimedia

MP4, WAV, AVI

WMV

Bilder

TIFF, JPEG2000, PNG

GIF, JPG

Datenaustausch

XML, RDF, JSON

SDXF