SemTech 2010 San Francisco
Postet den 9. July 2010 | Skrevet av Benjamin | Ingen kommentarer
Semantisk web har vært i gjære i snart ti år, og det er på tide å se hva dette kan ha av betydning for bibliotekverdenen. Pode er for tiden i fase 3, hvor det skal fokuseres på linked data og semantisk web, så de sendte derfor undertegnede på verdens største semantiske konferanse i San Francisco. (For fullt program se http://semtech2010.semanticuniverse.com/)
Dette er hva det koker ned til: De aller fleste aktørene innen semantisk web er kommersielle, ikke unaturlig da det er presenteringen av data og de tekniske løsningene som møter sluttbrukere, og siden internettets spede barndom har den viktigste verdiskapningen ofte vært forbeholdt søkemotorene og de som klarer å navigere frem relevant informasjon for de som ikke selv er i stand/har tid til å søke selv.
Dette vil neppe endre seg særlig. Men hvorfor bare én eneste representant for bibliotek fra hele verden på verdens største semantiske webkonferanse?
Høyst trolig har det med uvitenhet å gjøre. Bibliotekene har vært tilbakeholdne på feltet, selv om det ligger i bibliotekets natur å være oppdatert på informasjons- og kommunikasjonsteknologi. Å finne frem til relevant informasjon vil alltid være bibliotekarens første bud, enten det er fysisk eller digital. Men ironisk nok har semantisk web lidd under mangelen på informasjon om hva det faktisk er for noe.
Er det kunstig intelligens, eller er det nok et kommersielt fremstøt som prøver å selge internett på nytt, i ny innpakning?
Ingen av delene. Og samtidig litt av begge. For å forenkle det litt i overkant, så kan vi si at semantisk web er muligheten for både mennesker og maskiner å snakke sammen. Altså er det både web 2.0 med ny innpakning og kunstig intelligens. Mennesker lærer å snakke litt med maskiner, og maskiner lærer å snakke med hverandre med noe tilnærmet likt menneskelig språk. (Semantisk web bruker faktisk betegnelsene subjekt, predikat og objekt om elementene.)
Så hva er nytt innen semantisk web? Det store samtaleemnet under konferansen var whitehouse.gov og dets tilsvarende britiske versjon. Disse regjeringene har vært de to første ut til å legge ut offentlig informasjon i semantisk format, dvs. i RDF (Resource Description Framework) som er grunnlaget for semantisk web – et rammeverk for å beskrive ressurser på nettet. Resultatet er at plutselig er en istand til å koble alle de tusenvis av ulike datasettene (statistikk, kontaktinfo, bruksmønstre, spørsmål og svar, forum, offentlige saksganger, regler, rettsaker, byggesaker, søknader, etc) som før var (kanskje) søkbare for seg, og nå skreddersy løsninger som kunne finne og koble informasjon som faktisk kunne gi enorme muligheter. Ikke overraskende har det også rullet noen hoder i kjølvannet av dette, da informasjonsmengder i stor skala som plutselig blir tilgjengelig og enkelt kan systematiseres, kan avsløre avvik som isolert sett ikke er så lett å oppdage.
Nok om det. Hva så med bibliotekene? Hvorfor semantisk bibliotek? Fordi rollen som informasjonsdetektiv allerede er viktig, men rollen som den som kjenner relasjoner mellom informasjon blir enda viktigere.
Eksempelet whitehouse.gov har brukt verktøyet Drupal, som er en åpen kildekode publiseringsplattform. De har også vært de første til å integrere RDF i sin nye versjon 7, som vil komme i løpet av høsten. Drupal 7 vil bli viktig i denne sammenhengen, for det blir en plattform hvor deling og sammenfletting av informasjon plutselig blir veldig enkelt. En hel dag ble viet installering av den nye Drupal 7. Hvorfor Drupal?
- modulært
- web2 out-of-the-box
- semantisk-vennlig
- stort community (nest størst etter wordpress)
- open source
- integrert system med noder og relasjoner
Hvorfor Drupal7?
- RDFa integrert (RDFa er rett og slett markup av vanlig html/xhtml med RDF-annotasjoner, dvs. nettsider med underliggende RDF markup som blir umiddelbart tilgjengelig gjennom f.eks. SPARQL.
- integrerer med apache solr (indekseringsmotor som brukes for å lage fasetterte treff)
Når i tillegg Drupal snart kommer med SPARQL views, blir det veldig lett for ikke bare hardcore semantiske nerder å programmere mashups fra rdf. Dette bringer oss over på neste hovedpunkt på programmet: SPARQL.
Den andre kanskje store begivenheten for en semanitsk bibliotekar var Lee Feigenbaums introduksjon til SPARQL 1.1, som er det semantiske spørrespråket, samt et innblikk i utviklingen innen dette. Lenke til hele presentasjonen nedenfor.
Relevant for bibliotekaren? Tenk deg følgende spørsmål:
- Jeg vil ha en kvinnelig bergensforfatter som skriver om kvinnekamp under Hansatiden.
Hmm, tenker bibliotekaren. Hmmm, tenker bibliofil. Skal jeg søke på Hansatiden, forfatter, Bergen, eller kvinnekamp? Nei, pokker, jeg prøver google, eller wikipedia.
Hmmm, tenker google, mente du Ivo Caprino?
SPARQL-spørring (oversatt for anledningen til bokmål):
- Gi meg: kvinnelig forfatter, født i Bergen, aktiv i Hansatiden, med kvinnekamp som tematikk
- Hvilke kommanderende som opererte i slagene om narvik fikk fortjenestemedaljer? SPARQL (denne gangen i rått format):
- prefix dbpedia: <http://dbpedia.org/resource/>
prefix dbpedia-owl: <http://dbpedia.org/ontology/>select ?name ?award where {
dbpedia:Battles_of_Narvik dbpedia-owl:commander ?name .
?name dbpedia-owl:award ?award
}
Høres ikke dette biblioteksrelevant ut?
Podes fase 3 handler om nettopp dette, å semantisere den eksisterende katalogen til Deichman og å gjøre den åpen for denne typen spørringer. For å gjøre dette må vi gjennom en omfattende omstrukturering av marc-postene og triplifisere dataene, dvs. knytte dem sammen via relasjoner, slik at de kan beskrives som tripler (subjekt, predikat, objekt).
Annen nyttig lesing fra SemTech 2010:
- http://semanticlibrary.org/ (Talis samarbeider med BBC Archives) og blogger på http://blogs.talis.com/n2/archives/602
- SPARQL-kurs http://www.cambridgesemantics.com/2008/09/sparql-by-example
- Drupal og flex-basert mashup: http://constructscs.com/
- Introduksjon til Drupal 7 ligger på Talis’ hjemmesider: http://api.talis.com/stores/training/items/slides.html
- info om installering, etc. på http://semantic-drupal.com
- intro til triplifisering: triplify.org
Kommentarer
Legg igjen en kommentar