zur Beschreibung und Validierung von Bibliotheksdaten
2024-04-15
Beschreibung von Katalogformaten nicht maschinenlesbar:
Lokale Anwendungsprofile von Katalogformaten
Prüfung von Daten schwer reproduzierbar
Umständliches Nachschlagen in PDF/HTML-Dokumentation
Vorarbeiten von Péter Király mit dem Metadata Quality Assurance Framework (ab 2015)
Statistik von MARC21-Feldern (Herbst 2017, Karen Coyle)
Wunsch nach maschinenlesbarer Liste (Januar 2018)
Umsetzung von Validatoren in Java und Perl für MARC21 und PICA (Péter, ich und Johann Rolschewski)
Avram Spezifikation 0.1.0 (Februar 2018)
Formale Schemas definieren Formate
Gleiche Validierung mit verschiedenen Programmen
Dokumentation
Welche Felder gibt es?
Welche Unterfelder gibt es?
Welche davon sind optional und wiederholbar?
Metadaten (Namen, Beschreibung, Änderungsdatum, Links auf Dokumentation…)
Codeliste erlaubter Werte (z.B. ISO-Sprachcodes)
Regulärer Ausdruck
Positionen
{
"tag": "033",
"label": "Date/Time and Place of an Event",
"url": "https://www.loc.gov/marc/bibliographic/bd033.html",
"subfields": {
"a": {
"label": "Formatted date/time",
"repeatable": true,
"pattern": "^[0-9-]{8}([0-9]{4}([+-][0-9]{4})?)?$"
},
"2": {
"label": "Source of term",
"repeatable": true,
"codes": "https://www.loc.gov/standards/sourcelist/subject.html",
Markierung von Elementen als deprecated
Record Types
Erweiterung durch Verweis auf externe Regeln
Statistik: Wie oft kommen (Unter)felder vor?
Datentypen (Zahl, Datum…)
Wenn-dann-Regeln
Interpretation des Inhalts
Erstes Validierungstool
Primär für MARC21, inzwischen auch PICA und UNIMARC
Backend: Analyse-Skript und Solr-Index (auch via Docker)
Frontend: Webinterface für Ergebnisse
Kommandozeilen-Werkzeug zur Datenkonvertierung
Grundlage von Catmandu::Validator::PICA
Konvertierung und Validierung von PICA+
Fehler in Datensätzen auch als Annotation möglich
Referenzimplementierung (d.h. alle Features)
Validierung von MARC, PICA und CSV
Prüfung von Avram-Schema-Dateien (!)
Anzeige von PICA-Datensätzen mit Syntax-Highlighting und Kontexthilfe
Eher Proof of Concept
Problem: Pica3 vs. PICA+
Online-Demo ist grade kaputt
JSON \(\Rightarrow\) JSON Schema
XML \(\Rightarrow\) XML Schema, Schematron, RelaxNG
RDF \(\Rightarrow\) SHACL, ShEx
CSV \(\Rightarrow\) Data Package Table Scheme, SQL…
Achtung: RDF/XML, MARCXML… sind nur XML-Verpackungen!
Kein MARC oder PICA im Einsatz
Was ich nicht weiß, macht mich nicht heiß
Die Daten werden sowieso nicht genutzt
Avram gibt’s seit 5 Jahren
Validierung und Beschreibung von MARC- und PICA-Daten (und CSV)
Mehrere unabhängige Implementierungen und Schemas
Außer K10plus leider keine offizielle Unterstützung durch Herausgeberinnen von Bibliographischen Formaten (hello, LoC!*)
Ausstehende Verabschiedung der Spezifikation Version 1.0.0 nur Kosmetik
Validierung hilft, Qualität macht aber auch Arbeit
Diese Folien: https://jakobib.github.io/kim2024-avram/
Avram-Spezifikation https://format.gbv.de/schema/avram/specification
PICA-Formate entschlüsseln mit Avram und PicaEditor (2020) https://doi.org/10.5446/48737