Henrik Summanen Rotating Header Image

Några rader om kulturarvets “masterdata”

En av de stora knäckfrågorna när det gäller digital kulturarvsinformation, är de så kallade auktoriteterna. Eller, uttryckt med ett annat ord, kulturarvets masterdata. Detta är termer som kan behöva lite förklaring. Inom de flesta sektorer finns det information som används av väldigt många aktörer. Det kan handla om listor över hammarmodeller för verkstadsmekaniker, om listor över djurarter för biologer, eller listor över människor för historiker och arkivarier. Dessa listor har funnits i analog form i många av de databaser som byggts upp på olika institutioner, eftersom man har haft ett behov av att hålla reda på att man refererar till samma typ av objekt.

Nu när de digitala nätverken via internet öppnar upp institutionernas data för omvärlden uppstår således problem. Eftersom detta handlar om data som är användbar för många olika aktörer, så finns det också många register med historiska gubbar, och många förvaltare av samma information. Hur ska vi göra för att på ett så enkelt och effektivt sätt som möjligt hantera dessa “huvudposter” inom kulturarvsvärlden?

Detta var faktiskt en av huvudfrågeställningarna som det uppdrogs till DIGISAM att utreda, när sekretariatet tillsattes för ett antal år sedan. DIGISAM skapade projektet DISKA som skulle kunna ge ett svar på problemet. Den 11/2 2014 hade DISKA sitt slutseminarium och redovisade vad de har gjort, tillsammans med andra aktörer inom samma område.

I DISKA har man dels inventerat vilka informationsmängder som finns på institutionerna. Dels valt ut några av dessa för att skapa en representation av objekten som Länkade Öppna Data.  Urvalet handlade om historiska personer från olika institutioner, och personera hade haft lite olika roller –  t ex insamlare eller arkitekter. Man konstaterar att det fortfarande förstås är den förvaltande institutionen som har ansvar för sina respektive personer. Poängen med DISKA-projektet är att de nu även är länkbara med unika identiteter.

Även Kultur-ITs projekt KulturNav presenterade en liknande lösning, där institutioner ges möjlighet att “ladda upp” sina dataset för att användas av andra. MetaSolutions berättade om sin tjänst LODify som skapar Länkade data av dataset. Sen fick vi också höra lite från Wikimedias André Costa angående Wikipedias arbete med framför allt WikiData.

Det är viktigt att dessa frågor lyfts fram, och det är väldigt viktigt att institutionerna publicerar sina vokabulär så att man kan länka till dem. Det måste jag säga först, för nu kommer ett antal funderingar kring vad som händer när man publicerar vokabulär på det här sättet.

För det första: Det har inte förekommit någon diskussion kring ansvar i frågan om digitala auktoriteter. Alla tjänster som presenterats hanterar möjligheter att lägga upp vokabulär. Både inom KulturNav och inom DISKA så handlar detta om att man lägger sina listor sida vid sida. Detta löser givetvis inga problem. Det är först när det utkristalliserar sig en aktör som är villig att ta på sig ett större ansvar än enbart de entiteter som är relevanta för den egna verksamheten som det uppstår magi.

För det andra: Det har inte förekommit någon diskussion kring vad som händer när man börjar länka ihop olika masterdataset. Om institution X lägger upp August Strindberg, och institution Y lägger upp August Strindberg så har vi goda skäl att anta att de syftar på samma historiska individ. Särskilt om födelse- och dödsdatum överensstämmer. Då kan man länka dessa som “SameAs” så vet både maskiner och människor att man syftar på samma sak. Problemet är att det inte har presenterats några gränssnitt för att göra denna koppling, och ofta har inte institutionerna någon egen kompetens för att sätta ihop datat. Inom KulturNav förefaller det finnas ett ganska bra gränssnitt för att göra just den typen av länkar dock. Men det är bara den förvaltande institutionen som kan göra förändringar i datasetet, så vad händer om man inte vänder länken åt andra hållet? Får den andra institutionens ansvarige reda på att någon har länkat en annan resurs som SameAs deras resurs? Det är ju först när man börjar att på detta sätt använda andras data, eller koppla mot andras data som det börjar bli intressant.

En tredje fundering är vem som är ansvarig för all “bonusinformation”. Om syftet med att ha distribuerade datakällor är att man ska kunna använda varandras data, så är det snart så att någon får skörda vinsten av att någon annan gör jobbet. Så är det nämligen med Länkade Öppna Data, att vinsten inte nödvändigtvis uppstår där kostnaden uppstår. Och dataförvaltning kostar. Så på sikt ser vi scenariot att ett fåtal aktörer glider in i rollen som informationsförvaltare av information som i huvudsak är viktig för andra. Man institutionaliserar alltså auktoritetsbehovet. Detta tror jag är bra, och jag tror att det är nödvändigt eftersom det krävs en tydlig rollfördelning.

Tyvärr, måste jag säga, var tiden så knapp att ingen av dessa frågor var möjlig att diskutera på plats. Så jag får skriva det här istället:

1. Hur ska ansvaret för olika auktoriteter se ut, om vi ska kunna få ut någon vinst av att man använder varandras data?
2. Vem är ansvarig för tillbakalänkning, eller “vända” länkar? Är det datasetsägaren så har vi problem.
3. Hur hanterar vi en situation där kostnad och ansvar går hand i hand? Går det att reglera detta på sikt?

3 Comments

  1. Ulf says:

    Bra inlägg! Några kommentarer om KulturNav mm.

    1) I KulturNav.org har vaje datasest (t ex en lista med Arkitekter) en möjlighet till en formell förvaltare – en organisation- som själv styr vem som har rätt att underhålla datasetets innehåll och som själv står för terminologin eller auktoritetens underhåll, varaktighet och tyngd. Ansvaret kan tas själv eller delas med andra organisationer. Andra kan ges roller som redaktörer eller granskare i ett dataset. Alla som vill ska kunna lämna förslag på tillägg, ändringar, länkningar osv, men det är bara den organisation som förvaltar datasetet och dess administratör(er) som godkänner och auktoriserar ändringarna. Förvaltningen av sin auktoritet kan köras i molnet om man inte önska fokusera på att driva servrar själv (kulturnav.org) eller så kan man köra plattformen som en del av organisationens egen driftsmiljö. Ansvaret för en auktoritet kan vara självpåtaget eller som en del av ett uppdrag. De är få som tar på sig ett ansvar frivilligt, speciellt när de inser hur mycket arbete det är. Det är ju inte bara att lägga upp resurserna på nätet och hålla tummarna för att de ska användas.

    2) sameAs eller exactMatch-referenser från en källa till en annan i KulturNav sker automatiskt idag men kommer lite längre fram i utvecklingen att ses som förslag på tillägg i den resurs man länkar till som ska godkännas. Lösningar av länkar utåt exempelvis från en person-post i KulturNav till LIBRIS handlar om nog om etablering och auktoritet. När KB börjar uppfatta personposten i KulturNav som en auktoritet (bedömd utifrån bla kritier om förvaltning av innehåll och teknisk persistens) kan de lätt välja dra URI:er från KulturNav genom dess API (t ex http://kulturnav.org/api/search/entity.sameAs_s=libris.kb.se/0/2 för att hämta de två försa sameAs-referenserna till LIBRIS) och infoga dessa referenser i sin egen auktoritet. En auktoritet uppstår genom att sådana bedömningar kontinuerligt görs.

    3) Detta är nog en springande punkt just nu. Det läggs ganska stora resurser idag ute på museer och andra kulturarvsinstitutioner på att ha sin egen terminologi- och auktoritetsadministration. Det är ineffektivt. Om man börjar dela vad man har själv och i högra grad lyfter blicken och börjar använda gemensamma metadata som hämtas från andra, så finns det stora besparingar att göra – även internt hos organisationen. Om 100 museer börjar använda en gemensam lista över fotografer eller arkitekter i stället för att arbeta med sin egen, finns besparingar att göra. Det handlar därmed inte bara om att dela nytta till andra, utan att faktiskt dra nytta tillbaka till sina egna förvaltningssystem.

  2. Jag förstår, och håller med.

    Jag kunde nog ha varit mer kortfattad inser jag: Nu har vi löst tekniken, det kanske börjar bli dags att lösa verksamheten också?

  3. Johanna Berg says:

    Hej Henrik, hej Ulf och tack för inspel båda två

    Om man börjar från slutet är det förstås riktigt att mycket återstår att göra. Tanken med DISKA var inte större än att puffa på lite i en utveckling som redan pågår. Projektet har resulterat i en inventering på våra myndigheter, en RDF:ning av ett urval prioriterade dataset och ett offentligt tillgängliggörande av dessa – tills vidare på KTH.

    Vår förhoppning är att DISKA ska kunna tjäna som inspirerande exempel för andra, och ge smakprov på vad som görs möjligt med öppen data. Men det har aldrig varit tänkt att slutgiltigt lösa alla frågor förknippade med den framväxande semantiska webben.

    Det du talar om som auktoriteter eller masterdata var ett tydligt uttryckt behov hos många av institutionerna i underlagen till nationell strategi (2010). Men att vägen dit går via LOD (länkad öppen data) har vi tillsammans upptäckt senare, och det krävs nog fortfarande en del arbete i sektorn för att förklara hur det ska gå till.

    I ansvarsfrågan tror vi att det kan finnas anledning för vissa myndigheter att ta ansvar för vissa dataset (typiskt t ex geodata). Vi tror dock inte att det finns någon enskild myndighet som är beredd att åta sig samtliga personer som figurerar i kulturarvs-Sveriges alla kartotek och förteckningar. Vi har därför slutit oss till att en distribuerad lösning har bättre utsikter och att en sådan kräver strukturerade data i standardiserad form. DISKA var ett litet steg på en lång väg.

    Jag måste också påminna om att Digisam har omfattande uppdrag inom det digitala området. Bland de viktigaste är att till regeringen lämna ”förslag på nationella riktlinjer för en samordnad digital informationshantering”, och titta på eventuellt framtida behov av samordnande funktioner för kulturarvet. Dessa teman bearbetar vi löpande bl a i våra workshops om infrastrukturfrågor, i nätverk med de myndigheter som arbetar med interna planer för digitalisering etc. Parallellt ligger ju nu också den nya utredning som ska se över den statliga museipolitiken, något som berör många av myndigheterna under Ku-dep.
    Vinnovas målsättning med utlysningarna under ”Öppna data” var helt enkelt mer öppna data. När DISKA beviljades medel kallade vi samman en expertgrupp med smarta människor till stöd för oss att uppfylla projektmålen. Vi är glada att du kunde vara med och hjälpa oss att gå i mål!
    De viktiga frågor du lyfter kring finansiering, roll- och ansvarsfördelning när det gäller just auktoriteter eller masterdata är dock mycket större än detta lilla projekt, och måste följaktligen hanteras i en annan ordning. Kanske borde vi bjuda samman den gamla expertgruppen igen för en mer visionär diskussion om framtida lösningar? Är ni med på det?

Leave a Reply

Your email address will not be published. Required fields are marked *

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>