Podes prosjektblogg

Er universelle id’er for verk mulig?

Postet den 23. July 2010 | Skrevet av Anne Karine | Ingen kommentarer

I forbindelse med frbriseringen av Knut Hamsun og Per Pettersons forfatterskap og konvertering av det frbriserte datasettet til semantiske formater har vi støtt på utfordringen med meningsfulle id’er for verk og uttrykk. Innenfor Podes frbriserte datasettet fungerer id’ene generert av verktøyet til Aalberg, men når dette konveretes fungerer ikke id’ene optimalt.  En rekke nasjonalbibliotek samarbeider med OCLC om The Virtual Internet Authority File (VIAF), og det er først og fremst autoritetsregistre over personer tjenesten tar for seg. Nasjonalbiblioteket er ikke med.  Id’ene for Hamsun og Petterson kan hentes fra VIAF, men vi mangler et sted å hente id’er for verk og uttrykk.

Det ideelle hadde vært om nasjonalbibliotekene sørger for unike id’er på verk og uttrykk av sitt lands forfattere og publisert disse i formater som lar seg gjenbruke. DBpedia har mye informasjon om personer og noen av manifestasjonene av Hamsun og Pettersons verk, men lista er ikke fullstendig og mtp FRBR burde den konsentrere seg om verk og uttrykk fremfor manifestasjoner. Manifestasjoner kan identifiseres med bla ISBN (selv om disse ikke alltid er unike) og beskrevet i kataloger.

Hva med å lage et nasjonalt autoritetsregister for verk og uttrykk som følger W3 sine regler for Linked data hvor alle verk og uttrykk for unike id’er som kan gjenbrukes av flere? Hva må til og hvem bør være ansvarlig?

Pode har begynnt i det små og har  modellert Pettersons og Hamsuns verk i Protegé. Verkene identifiseres ved Personnavn + tittel på verket og inneholder opplysninger om når verket ble først utgitt og lenker til opplysninger i VIAF og DBpedia.  Årsaken til valget var at vi hadde problemer med å trekke ut opplysninger om førsteutgaver fra katalogdataene da Marc-felt *503 for utgave/historikk inneholder både informasjon om første utgaver og rekkefølger på verk i serier.  Innholdet i feltet varier mtp skrivemåter og rekkefølge og egner seg ikke til å hente ut entydige data.

Hvor mye jobb må til for å få til et nasjonalt verksregister? Det tok ca to dager å få på plass alle verk (essays,  noveller og  enkelt dikt inkludert) i Protegé – det vil nok ta litt lengre tid legge inn pekere til andre tjenester (som VIAF og DBpedia), men arbeidet er ikke uoverkommelig. Nytten håper vi å illustrere med tjenestene vi skal utvikle utover høsten.

Kim Tallerås har skrevet en artikkel om Bibliofil-ID på Biblioteklaboratoriets blog som er Biblioteksystemers forsøk på systemavhengig verksid.

SemTech 2010 San Francisco

Postet den 9. July 2010 | Skrevet av Benjamin | Ingen kommentarer

Semantisk web har vært i gjære i snart ti år, og det er på tide å se hva dette kan ha av betydning for bibliotekverdenen. Pode er for tiden i fase 3, hvor det skal fokuseres på linked data og semantisk web, så de sendte derfor undertegnede på verdens største semantiske konferanse i San Francisco. (For fullt program se http://semtech2010.semanticuniverse.com/)

Dette er hva det koker ned til: De aller fleste aktørene innen semantisk web er kommersielle, ikke unaturlig da det er presenteringen av data og de tekniske løsningene som møter sluttbrukere, og siden internettets spede barndom har den viktigste verdiskapningen ofte vært forbeholdt søkemotorene og de som klarer å navigere frem relevant informasjon for de som ikke selv er i stand/har tid til å søke selv.

Dette vil neppe endre seg særlig. Men hvorfor bare én eneste representant for bibliotek fra hele verden på verdens største semantiske webkonferanse?

Høyst trolig har det med uvitenhet å gjøre. Bibliotekene har vært tilbakeholdne på feltet, selv om det ligger i bibliotekets natur å være oppdatert på informasjons- og kommunikasjonsteknologi. Å finne frem til relevant informasjon vil alltid være bibliotekarens første bud, enten det er fysisk eller digital. Men ironisk nok har semantisk web lidd under mangelen på informasjon om hva det faktisk er for noe.

Er det kunstig intelligens, eller er det nok et kommersielt fremstøt som prøver å selge internett på nytt, i ny innpakning?

Ingen av delene. Og samtidig litt av begge. For å forenkle det litt i overkant, så kan vi si at semantisk web er muligheten for både mennesker og maskiner å snakke sammen. Altså er det både web 2.0 med ny innpakning og kunstig intelligens. Mennesker lærer å snakke litt med maskiner, og maskiner lærer å snakke med hverandre med noe tilnærmet likt menneskelig språk. (Semantisk web bruker faktisk betegnelsene subjekt, predikat og objekt om elementene.)

Så hva er nytt innen semantisk web? Det store samtaleemnet under konferansen var whitehouse.gov og dets tilsvarende britiske versjon. Disse regjeringene har vært de to første ut til å legge ut offentlig informasjon i semantisk format, dvs. i RDF (Resource Description Framework) som er grunnlaget for semantisk web – et rammeverk for å beskrive ressurser på nettet. Resultatet er at plutselig er en istand til å koble alle de tusenvis av ulike datasettene (statistikk, kontaktinfo, bruksmønstre, spørsmål og svar, forum, offentlige saksganger, regler, rettsaker, byggesaker, søknader, etc) som før var (kanskje) søkbare for seg, og nå skreddersy løsninger som kunne finne og koble informasjon som faktisk kunne gi enorme muligheter. Ikke overraskende har det også rullet noen hoder i kjølvannet av dette, da informasjonsmengder i stor skala som plutselig blir tilgjengelig og enkelt kan systematiseres, kan avsløre avvik som isolert sett ikke er så lett å oppdage.

Nok om det. Hva så med bibliotekene? Hvorfor semantisk bibliotek? Fordi rollen som informasjonsdetektiv allerede er viktig, men rollen som den som kjenner relasjoner mellom informasjon blir enda viktigere.

Eksempelet whitehouse.gov har brukt verktøyet Drupal, som er en åpen kildekode publiseringsplattform. De har også vært de første til å integrere RDF i sin nye versjon 7, som vil komme i løpet av høsten. Drupal 7 vil bli viktig i denne sammenhengen, for det blir en plattform hvor deling og sammenfletting av informasjon plutselig blir veldig enkelt. En hel dag ble viet installering av den nye Drupal 7. Hvorfor Drupal?

  • modulært
  • web2 out-of-the-box
  • semantisk-vennlig
  • stort community (nest størst etter wordpress)
  • open source
  • integrert system med noder og relasjoner

Hvorfor Drupal7?

  • RDFa integrert (RDFa er rett og slett markup av vanlig html/xhtml med RDF-annotasjoner, dvs. nettsider med underliggende RDF markup som blir umiddelbart tilgjengelig gjennom f.eks. SPARQL.
  • integrerer med apache solr (indekseringsmotor som brukes for å lage fasetterte treff)

Når i tillegg Drupal snart kommer med SPARQL views, blir det veldig lett for ikke bare hardcore semantiske nerder å programmere mashups fra rdf. Dette bringer oss over på neste hovedpunkt på programmet: SPARQL.

Den andre kanskje store begivenheten for en semanitsk bibliotekar var Lee Feigenbaums introduksjon til SPARQL 1.1, som er det semantiske spørrespråket, samt et innblikk i utviklingen innen dette. Lenke til hele presentasjonen nedenfor.

Relevant for bibliotekaren? Tenk deg følgende spørsmål:

- Jeg vil ha en kvinnelig bergensforfatter som skriver om kvinnekamp under Hansatiden.

Hmm, tenker bibliotekaren. Hmmm, tenker bibliofil. Skal jeg søke på Hansatiden, forfatter, Bergen, eller kvinnekamp? Nei, pokker, jeg prøver google, eller wikipedia.

Hmmm, tenker google, mente du Ivo Caprino?

SPARQL-spørring (oversatt for anledningen til bokmål):

  • Gi meg: kvinnelig forfatter, født i Bergen, aktiv i Hansatiden, med kvinnekamp som tematikk

- Hvilke kommanderende som opererte i slagene om narvik fikk fortjenestemedaljer? SPARQL (denne gangen i rått format):

  • prefix dbpedia: <http://dbpedia.org/resource/>
    prefix dbpedia-owl: <http://dbpedia.org/ontology/>

    select ?name ?award where {
    dbpedia:Battles_of_Narvik dbpedia-owl:commander ?name .
    ?name dbpedia-owl:award ?award
    }

Høres ikke dette biblioteksrelevant ut?

Podes fase 3 handler om nettopp dette, å semantisere den eksisterende katalogen til Deichman og å gjøre den åpen for denne typen spørringer. For å gjøre dette må vi gjennom en omfattende omstrukturering av marc-postene og triplifisere dataene, dvs. knytte dem sammen via relasjoner, slik at de kan beskrives som tripler (subjekt, predikat, objekt).

Annen nyttig lesing fra SemTech 2010:

Linked data training – workshop i Trondheim

Postet den 9. July 2010 | Skrevet av Asgeir | Ingen kommentarer

Noen av oss hadde gleden av å delta på et utmerket linked data-kurs i Trondheim 14.-15. juni. Kurset ble arrangert av UBiT, som hadde hentet inn Keith Alexander fra Talis som kursleder. I motsetning til mye av det som presenteres om semantisk web og linked data, hadde dette arrangementet et konkret fokus med vekt på praktisk arbeid, noe vi opplevde som både forfriskende og nyttig.

Vi tok utgangspunkt i et gitt datasett med en begrenset mengde typer opplysninger (Practical Exercises). Først arbeidet vi med å lage en modell som beskrev strukturen i informasjonen. Etterpå formaliserte vi modellen som et RDF-skjema og arbeidet med å uttrykte data ved hjelp av trippel-syntaksen turtle. Dette er en syntaks som er semantisk likeverdig med RDF/XML, men som er langt mer menneske-lesbar og skrivbar. Eksemplene under uttrykker begge at Sult er et verk skapt av Knut Hamsun:

RDF/XML:

<frbr:Work rdf:about="http://www.bibpode.no/work/Sult">
   <dc:title>Sult</dc:title>
   <dc:creator rdf:resource="http://www.bibpode.no/person/Knut_Hamsun" />
</frbr:Work>

Turtle:

work:Sult
a                      frbr:Work ;
dc:title               "Sult" ;
dc:creator             person:Knut_Hamsun .

Andre dag av kurset arbeidet vi med å konvertere et større datasett fra et strukturert csv-format til turtle. Til slutt lærte vi å utføre spørringer mot datasettet ved hjelp av spørrespråket SPARQL. Dette er et spørrespråk som gjør bruk av turtle-syntaks, men som også vil virke kjent på den som har jobbet med SQL.

Her er et eksempel på en SPARQL-spørring som returnerer tittelen på de 20 første instansene av typen verk, som har Knut Hamsun oppført som skaper:

PREFIX dc: <http://purl.org/dc/terms/>
PREFIX frbr: <http://purl.org/vocab/frbr/core#>
PREFIX person: <http://www.bibpode.no/person/>

SELECT ?title WHERE {
  ?work a frbr:Work;
  dc:creator person:Knut_Hamsun;
  dc:title ?title.
}
LIMIT 20

Spørringen må først definere prefiksene for de navnerommene den bruker. Siden angir den hvilke mønstre for tripler og sammenhenger mellom instanser som skal finnes. I dette tilfellet spørres det etter instanser (angitt ved variabelen ?work) som er av typen frbr:Work OG som er skapt av Knut Hamsun OG som har en tittel (?title). Spørringen returnerer så verdien av tittelvariabelen.

Se forøvrig også dette undervisningsopplegget i SPARQL fra Talis: Data Extraction & Exploration with SPARQL & the Talis Platform

ELAG 2010

Postet den 16. June 2010 | Skrevet av Anne-Lena | 1 kommentar

Årets ELAG-konferanse hadde temaet “Meeting new user expectations”.

Konferansen startet med en pre-conference workshop om webservices holdt av Karen Coombs fra OCLC. Hun har samlet flere eksempler på mashups og viste til en del åpne dokumenterte APIer det er mulig å bygge tjenester på. Blant annet; Dewey Summaries as Linked Data fra OCLC og DBpedia som vi skal bruke i høst, WorldCat Search API, New York Times’ Best Sellers API og flickrs APP Garden.

Det beste med konferanser er at du får et innblikk i hvordan andre land og bibliotek har det i sin hverdag og hva de gjør for bedre eventuelt vanskelige situasjoner. Gode forelesere får deg til å reflektere over egen situasjon og dra paralleller til egen hverdag. Når vi nå oppsummerer noen av høydepunktene vil de også inneholde noen betraktninger om eget land og landskap.

  • Hva er brukernes forventninger? Kjenner vi brukerne våre?
    Flere land i Europa jobber aktivt med å finne svar på disse spørsmålene. Det er konsensus om at dette er noe av det viktigste vi gjør for at vi skal fortsette å være attraktive for brukerne i fremtiden. At brukerne ikke har større forventninger til dataene våre enn det de gir uttrykk for kan ikke være tuftet på annet enn at de i det store og hele ikke har særlige forventninger til biblioteket som institusjon. Hvorfor ender vi alltid opp med flere titler enn de vi egentlig var ute etter når vi søker på Amazon? Svaret er enkelt; presentasjon, presentasjon, presentasjon. Ville ikke bibliotekene tjene på å presentere sine titler på en like god måte? Såklart. Vi ville til og med kunne risikere å oppleve økt utlån! 
  • Hvordan skal vi levere biblioteks- og bibliografiske tjenester som appellerer til dagens digitale innbyggere?
    Oppfordringen er å være modige, gjøre brukerundersøkelser, akseptere at vi ikke kjenner brukerne våre så godt som vi trodde og ikke minst omfavne utsagnet om at “Noen utenfor arbeidsplassen din alltid vil kunne komme opp med en bedre idé enn deg”. Det betyr ikke at de ansatte er overflødige – det betyr bare at vi kan lære utrolig mye av å høre på brukerne våre og andre fagpersoner.
  • MARC must die!
    At MARC må erstattes med “noe annet” er ikke et nytt påfunn i anledning hverken ELAG eller Linked data. En artikkel fra 2002 belyser dette. Det spørsmålet vi må stille oss er; Vil vi at andre enn kommersielle biblioteksystemleverandører med sterke egeninteresser skal kunne bruke våre bibliografiske data til å lage nye sluttbrukertjenester? Vil vi for eksempel gjøre dette selv? Vil vi ha styringen på hvilke sluttbrukertjenester vi presenterer? Da er det liten tvil om at vi må ha tilgang til dataene våre i et mer tilgjengelig format enn MARC, og også presentere et grensesnitt mot dataene våre til potensielle utviklere. Samtidig som det snakkes om MARCs død er det viktig å huske på at metadata er konge! Vi trenger tilgang til enhetlige og gode metadata for å presentere nye gode tjenester til brukerne våre!
  • Data via z39.50 og RSS er ikke godt nok for å lage gode sluttbrukertjenester.
    Et av de virkelig minneverdige sitatene fra konferansen er at RSS er den fattige manns svar på webservices. RSS egner seg rett og slett ikke til å hente ut og behandle store mengder data. Ganske selvsagt egentlig; RSS brukes til å servere nyhetsstrømmer og z39.50 er en Marc-avhengig og biblioteksspesifikk protokoll. Hvorfor lager vi egentlig slike protokoller? Det vi trenger er dokumenterte allmenne APIer!
  • Marja Haapalainen fra KB Sverige stilte flere gode spørsmål; Hvilken kontroll har vi egentlig med dataene våre når de ligger i leverandørens system? Hvordan kan vi bruke, gjenbruke og berike dataene våre når de ligger i et lukket kommersielt biblioteksystem? Hvordan kan vi overbevise utgiverne om at de må levere gode og rike metadata?
    Marja leverte et av de andre minneverdige sitatene; Someone else outside knows or has ideas about how to use your data. 
  • Åpne bibliografiske data vs lukkede MARC-data -> Linked data?!
    Det ironiske er at MARC-data er full av potensielle lenker. Det er bare det at vi ikke bruker de. Her kommer Linked data inn i bildet. Linked data er lesbare, delbare, linkbare, distribuerbare og integrerbare. I stedet for å tenke på bibliografiske data som tekst, tenker vi istedet på det som data. Vi går fra et sett med innførsler til å tenke på det som et nett av data, fra å ha implisitt til å ha eksplisitt mening, fra å være kontekstavhengig til å være kontekstuavhengig og ikke minst fra å være biblioteksspesifik til å bli agnostisk i forhold til omgivelsene. Dette høres unektelig veldig bra ut! Et viktig poeng er å presentere RDF-dataene, som er grunnlaget for Linked data, i lesbar form for vanlige mennesker. Selv gleder vi oss til å komme videre i vårt lille begrensede arbeid med Linked data for å se om det faktisk er brukbart og om det blir enklere å lage tjenester på toppen av de.

Fyllt opp med inspirasjon har vi noen utfordringer på tampen;

  • Kan “noen” åpne opp muligheten for å lage tjenester basert på egne katalogdata og så lage en showcase lik OCLCs application gallery?
  • Kan “noen” ta utfordringen og gjøre de bibliografiske dataene sine tilgjengelig og bli det første norske biblioteket i CKANs liste?
  • Kan vi slutte å snakke om “brukerne våre” som om dette ikke inkluderer også de som jobber i biblioteket? Vi må begynne å se på oss selv som brukere og ikke minst oppføre oss som brukere av egne tjenester!
  • Bruk data fra andre. La andre bruke dine data. Åpne opp informasjonssiloene!

Til slutt litt interessant lesning

Tasked-based usability studies by OCLC 
Online catalogs: What users and librarians want
W3Cs liste over tilgjengelige RDF data sets
Linked Data as a Library Data Platform
Linked data for libraries
Nationell databrunn – möjligheter, utmaningar och behov, sluttrapport fra KB/Libris

Aktiviteten var stor på Twitter, du kan se meldinger ved å søke opp hashtaggen #ELAG2010.

VuFind and Norwegian OPACs

Postet den 7. June 2010 | Skrevet av Anne Karine | Ingen kommentarer

In February this year, we tested the open search interface VuFind and compared it to the Norwegian ILS’ OPACS. We were impressed with how it worked “out of the box”, though there were a few hickups relating to the indexing of the Norwegian version of Marc. VuFind is written for MARC 21, whereas most public libraries in Norway use a dialect of Normarc called BSMARC.

Pode’s installation of VuFind indexes an export of Oslo Public Library’s catalogue as of January 2010, and it’s been really interesting to compare VuFind with the Norwegian OPACs.  The following systems were tested: Aleph (Stavanger pl), Mikromarc  2 & 3 (Time public libraryand Tynset public library), Bibliofil (Oslo, Bergen and Trondheim public libraries), Bibsys (university and college libraries).  In order to compare the systems, we created a couple of search examples, which are as follows:

Knut Hamsun Mysteries

A search for the novel Mysteries by Knut Hamsun using the simple search at libraries that uses Bibliofil did not return the novel, but several other documents where the novel and author is subject (*600$a & $t) and “Collected works”. By changing the options in the setup for the websearch at Oslo public library (Deichman) – the search result is closer to what the users might expect.

Dan Brown The Da Vinci code

 

A search for Da Vinci koden (should be Da Vinci-koden in Norwegian) in Deichman’s catalogue does not return the expected search result.

VuFind finds the book though the hyphen is missing – none of the other systems do. The Norwegian OPACs find the English title and books on The Da Vinci code.

Does the catalogue find the book Blade runner is based on?

Blade runner is based on the novel Do androids dream of electric sheep? by Philip K. Dick. All the test libraries have the book, but none of the Norwegian systems find the book though the records contain the information about the adaptation.

This summary is based on an extensive and illustrated post in Norwegian which you can have a look at here.

Pode and FRBR

Postet den 7. June 2010 | Skrevet av Anne Karine | Ingen kommentarer

We wanted to see how our catalogue would work using the prototype developed by Trond Aalberg et al. for converting a Marc-based catalogue to a presentation based on relational database theory. In order to make the work more manageable we decided to draw the line at the four following authors: JRR Tolkien for the three translations of Lord of the Rings; Knut Hamsun for the diversity of editions and adaptations; Per Petterson for the translations of Out stealing horses; and Shakespeare for the amount of records and their diversity. We are pleased with the results, though we knew there might be some challenges with regards to how FRBR-friendly our catalogue was. One concern was related to the coding of original titles for translated works, and another the usage of the Norwegian title of adapted works. The first issue was possible to solve automatically, whereas the challenge of  original title of adaptations had to be solved manually.

We spent about 60 hours manually optimising the records for frbrisation. We decided to use  indicator 2 in 245 and 740 in order  to separate significant (ind 2=1) from insignificant titles (ind 2=0, titles such as Collected works, Short stories, spelling variations etc.)

Take a look at the four authorships here.  A new revised version of Knut Hamsun and Per Petterson is now published. We are currently working on converting the revised version of Hamsun and Petterson from Marc to RDF.

Hamsuns og Pettersons FRBRiserte forfatterskap som Linked data

Postet den 31. May 2010 | Skrevet av Asgeir | Ingen kommentarer

Vi har nå startet arbeidet med å gjøre linked data ut av FRBRiserte katalogposter. I første omgang består arbeidet i å bygge et vokabular (informasjonsmodell) for å beskrive katalogdataene i RDF, for så å konvertere selve dataene over til RDF-formatet. Senere kommer jobben med å berike dataene med forbindelser til andre linked data-kilder.

I RDF uttrykkes opplysninger som presise og utvetydige semantiske tripler, bestående av et subjekt, et verbal og et objekt. Subjektet er av typen instans og verbalet er av typen egenskap (property). Objektet kan være en distinkt verdi (datatype-egenskap), eller det kan være en annen instans (objekt-egenskap). Instanser har i tillegg tilhørighet til én eller flere klasser. Både klasser, instanser og egenskaper må angis med unike identifikatorer (URI-er). Formålet er å formulere informasjon på en måte som er éntydig, slik at innholdet ikke bare kan leses, men også tolkes og forstås, av en maskin. Det handler altså om å formidle selve meningsinnholdet i informasjonen til maskiner.

Eksempler på semantisk utsagn, og et tilsvarende sett av tripler:

«Sult er tittelen på et verk som er skrevet av en som heter Knut Hamsun»

  1. Sult (instans) er et Verk (klasse)
  2. Sult har tittel «Sult»
  3. Sult har opphavsperson Knut Hamsun
  4. Knut Hamsun (instans) er en Person (klasse)
  5. Knut Hamsun har navn «Knut Hamsun»

For at dette skal være éntydig og maskintolkbart, må både klassene Verk og Person, instansene Sult og Knut Hamsun og egenskapene har tittel, har navn og har opphavsperson angis med unike identifikatorer. I turtle-syntaks kan dette se slik ut:

@prefix person:        <http://www.bibpode.no/person/> .
@prefix work:          <http://www.bibpode.no/work/> .
@prefix frbr:          <http://purl.org/vocab/frbr/core#> .
@prefix dc:            <http://purl.org/dc/terms/> .
@prefix foaf:          <http://xmlns.com/foaf/0.1/> .

work:Sult
a                      frbr:Work ;
dc:title               """Sult""" ;
dc:creator             person:Knut_Hamsun .

person:Knut Hamsun
a                      foaf:Person ;
foaf:name              """Knut Hamsun""" .

Pode fase 3

Postet den 29. May 2010 | Skrevet av Anne-Lena | Ingen kommentarer

Pode har fått midler fra ABM-utvikling til å fortsette utforskningen av det norske bibliotek- og kataloglandskapet. Podes primærfokus er hele tiden på nye tjenester og bruksmåter av dataene i norske bibliotekkataloger. Prosjektperioden som løper ut 2010 skal ha hovedfokus på den semantiske webben.

Søknaden kan leses på ABM-utviklings nettsider, men noen presiseringer er på sin plass. Tildelingsbrevet fra ABM inneholdt føringer. Hovedsakelig gikk disse på at prosjektet kun skulle gå videre med del 2. Prosjektoppstarten har avdekket en del fakta som endrer litt på opprinnelig beskrivelse i søknadens del 2, men som også detaljerer og utvider prosjektet. Det positive er at vi har kommet opp med to konkrete mål i form av sluttbrukertjenester. Disse endringene er godkjent av ABM-utvikling og Podes referansegruppe Biblioteklaboratoriet.

Vi skal lage to sluttbrukertjenester;

  1. Norske forfattere oversatt: Knut Hamsun og Per Pettersons FRBRiserte forfatterskap som Linked data
    Datagrunnlaget for tjenesten er de FRBRiserte katalogpostene som konverteres til RDF og importeres i Sublima. Sublima, som har en Virtuoso triplestore i bunn, må klargjøres ved å lage en informasjonsmodell for å ta i mot dataene.

    Vi skal koble til forfatterbiografier i dbpedia, språkkoder i lingvoj, Hamsun i fulltekst i Gutenberg, hente influenced (forfatteren inspirerte) og influenced by (forfatteren er inspiret av) fra dbpedia og tilby lenker til Wikipedia og bibliotekkatalogen.

    Brukeren skal ha mulighet til å velge språk fra en nedtrekksmeny. Språkene som kan velges samsvarer med de språkene uttrykkene foreligger på. Trefflisten vil reflektere at språk er valgt ved å vise materiale på valgte språk på verksnivå.

    Pode skal bli en del av den semantiske webskyen med disse to forfatterskapene.

  2. Emneinngang til Det flerspråklige biblioteks (DFBs) faglitteratur
    OCLC har frigitt de tre øverste nivåene av Dewey som Linked data. Dataene er tilgjengelig på til sammen 11 språk.

    Podes tjeneste skal presentere en verbal inngang til DFBs faglitteratur og vise emnestien inne på de enkelte katalogpostene. Datagrunnlaget er eksporterte katalogposter (NORMARC/BSMARC) fra DFB som konverteres til RDF og importeres i Sublima.

    Brukeren skal også her ha mulighet til å velge språk fra en nedtrekksmeny.

Vi vil som vanlig dokumentere arbeidet vårt fortløpende her på bloggen.

@podeprosjekt på Twitter

Postet den 28. May 2010 | Skrevet av Anne-Lena | Ingen kommentarer

Pode i ny kanal! Nå kan du følge @podeprosjekt på Twitter.

Sammenligning frbr versjon 1 og 2

Postet den 14. May 2010 | Skrevet av Anne Karine | Ingen kommentarer

Formålet med frbriseringen av Knut Hamsun og Per Pettersons forfatterskap har vært å tolke postene i katalogen i henhold til FRBR modellen. Et verk kan være en novelle, et essay, en samling av noveller og essays og romaner. Vi har valgt å se bort fra dikt og artikler i denne sammenhengen.

Per Petterson har skrevet 8 verk, dersom man ser bort fra enkeltnoveller og essays. Tar man med artikler, essays og noveller øker antall verk til 40. Søk på Per Petterson i Deichmans katalog gir treff på 60 uttrykk/ manifestasjoner. Frbriseringen av eksporten basert på postene slik de var i januar 2010 resulterte i 28 verk. Etter rettelsen inneholder den frbriserte lista 40 verk. Årsaken til økningen i antall verk er analyseringen av essay- og novellesamlingene. Det er ikke tradisjon for å analysere essaysamlinger på Deichman, men vi valgte å gjøre det i denne sammenhengen for å få en mer fullstendig liste over Pettersons forfatterskap. Selv om rettingene har ført til flere verk, er lista blitt mer ryddig og oversiktelig etter oppryddingen.

Knut Hamsun skrev 40 verk, dersom man ser bort fra brev, foredrag, artikler, hver enkelt noveller og dikt. Inkludert novellene i novellesamlingene, er antall verk 72 (ekskludert brev,  foredrag og artikler). Kilde Hamsun.no.  Søk på Knut Hamsun som forfatter i Deichmans katalog gir treff på 588 manifestasjoner. Eksporten av disse postene i januar 2010 omgjør 588 manifestasjoner til 200 verk. Etter rettelsene er antall verk ned i 94 inkludert novellene i Kratskog, Siesta og Stridende liv.  I ryddeprosessen har vi oversett to verk som forekommer med to ulike skrivemåter, noe som har ført til at Paa gjengrodde stier og På gjengrodde stier og Mit reisefølge og Mitt reisefølge telles som fire verk og ikke to. Hamsun var produktiv og noveller som Nabobyen og Paa klinik ble ikke utgitt i noen av novellesamlingene i hans levetid, men telles i denne sammenhengen som verk (Felt 740 2) så det å få en endenlig liste over Hamsuns verk er en tidkrevende prosess. Rettelsene har ført til en ryddigere liste hvor (nesten) alle uttrykk er knyttet til et verk.

Ingen av listene er perfekte, men konsekvent bruk av felter og  indikatorer i 240, 245, 700 og 740 har ført til færre feilkilder når det gjelder å tolke reelle verk og knytte uttrykk til verket.

Her følger et utdrag fra Aalbergs dokumentasjon Frbrisering av testdata fra Deichmanske som kan leses i sin helhet her.  Utdraget teller antall rettinger og konsekvensen av de.

Les mer

keep looking »
  • RSS Semantic web

  • RSS FRBR

  • RSS Eksempler på mashups

  • RSS Tilgjengelig innhold

  • RSS Eksempler på katalogsøk (både trad og sosiale SOPAC

  • RSS Eksempler på systemer/produkter i bruk

  • RSS Fakta om/dokumentasjon av systemer/produkter

  • RSS Eksempler på biblioteksider