Podes prosjektblogg

Informasjonsmodell for DFBs faglitteratur

Postet den 16. December 2010 | Skrevet av Asgeir | Ingen kommentarer

Arbeidet med å konvertere katalogpostene for Det flerspråklige biblioteks faglitteratur er nå fullført. Informasjonsmodellen er lagt ut på Github:

https://github.com/pode/LinkedNonFiction/blob/master/marc2rdf.rdf

Informasjonsmodellen er en ontologi som beskriver de klassene og egenskapene som vi bruker i datasettet. Her uttrykker vi hvilke instanser som kan beskrives med hvilke egenskaper, og hva som er tillatte verdier for disse egenskapene. Vi uttrykker også relasjoner mellom klasser og egenskaper. En klasse kan være underordnet én eller flere superklasser; dette innebærer at en instans som er medlem i klassen også er medlem i alle dens superklasser. Tilsvarende følger det logisk at to enheter som er forbundet med en egenskap, også er forbundet med dennes superegenskaper. Andre forhold som kan uttrykkes i informasjonsmodellen er disjunksjon og ekvivalens mellom klasser, at egenskaper er inverse av hverandre, eller at en egenskap er f.eks. transitiv, symmetrisk eller asymmetrisk.

I Hamsun/Petterson-datasettet hadde vi for eksempel behov for å uttrykke årstallet for førsteutgaven til et verk. I Dublin Core terms finnes flere muligheter til å angi tidspunkter som er forbundet med en ressurs. Den mest generelle er egenskapen dct:date, som rett og slett bare uttrykker at verdien er et tidspunkt assosiert med ressursen. Det finnes en rekke mer spesialiserte tidsangivelser, men ingen som presist uttrykker det vi ville si noe om. Vi løste dette ved å opprette en ny egenskap i eget navnerom, pode:firstEdition, og å definere dette som en subegenskap av dct:date. Når vi nå uttrykker at et verk har pode:firstEdition 1891, så vil det samtidig følge logisk at verket også har dct:date 1891.

Foreløpig har ikke dette arbeidet hatt så mye praktisk betydning i applikasjonene som er laget på grunnlag av datasettene. Behovet for å uttrykke data presist blir ivaretatt i det vi oppretter en spesialisert klasse eller egenskap, uten at denne er modellert i en ontologi. Det er likevel et poeng å uttrykke disse sammenhengene. Noe av det som kan vinnes ved å modellere en ontologi er:

  • Informasjonsmodellen gir et bilde av hvordan det ferdige datasettet skal være, slik at det kan fungere som en oppskrift ved konvertering.
  • Modellen kan gjenbrukes av andre som senere vil produsere lignende datasett. Dette sikrer høy grad av samsvar mellom datasettene, noe som gjør det lettere å bruke dem i sammenheng.
  • Ved å modellere egne klasser og egenskaper som subklasser/subegenskaper av enheter i andre vokabularer, kan vi få tilfredsstilt behovet for å uttrykke data mest mulig presist, samtidig som vi ivaretar interoperabilitet med andre datasett.
  • Ved å modellere en ontologi for datasettet, gir vi oss eller andre muligheten til å la ny informasjon framkomme som implikasjoner av de dataene som eksplisitt er uttrykt. Dette kan gjøres ved hjelp av resonneringsmotorer som kan trekke logiske slutninger på grunnlag av den gitte informasjonen.
  • SPARQL-spørringer kan utvides til å dekke over flere typer eller egenskaper. I SPARQL 1.1 åpnes det også for at en spørring som inneholder en bestemt egenskap kan inkludere dens subegenskaper.
  • God modellering kan avsløre feil og inkonsekvens i datasettet.

Kommentarer

Legg igjen en kommentar





  • RSS Linked data

  • RSS Semantic web

  • RSS FRBR

  • RSS Eksempler på mashups

  • RSS Tilgjengelig innhold

  • RSS Eksempler på katalogsøk (både trad og sosiale SOPAC

  • RSS Eksempler på systemer/produkter i bruk

  • RSS Fakta om/dokumentasjon av systemer/produkter

  • RSS Eksempler på biblioteksider