21 Feb 2023

Innebygd Arkivering - Strategier for gjenfinning av dokumenter

Espen Nergaard

Innebygd arkivering (Archive by Design) er et konsept Arkivverket har jobbet med en god stund, hvor visjonen er at i fremtiden så skal ingen ansatte i offentlig sektor bruke tid på arkivering. Slik Innebygd Arkivering er presentert i dialogmøtene så er det ikke en definert løsning, men heller en måte å tenke på.

Et tankesett om at arkiv skal være hensyntatt fra starten av utformingen av en arbeidsprosess eller saksbehandlingsverktøy, og ikke komme som noe du gjør separat og i etterkant av en prosess. Ikke ulikt det som finnes innenfor informasjonssikkerhet med innebygget personvern (Privacy by Design).

I denne første bloggen har jeg valgt å fokusere på strategier for gjenfinning, det er den første i en serie på fire blogger. De fire andre kommer til å handle om: “Anvendbarhet i praksis”, “Hvordan strukturere det ustrukturerte" og “dokumentasjonsforvaltning på tvers”

Først, hva betyr arkivering? Kan være greit å vite, slik at vi vet hva som skal bygges inn. Et godt utgangspunkt er paragraf 16 i forslaget til ny arkivlov, som definerer følgende fem grunnleggende krav til god dokumentasjonsforvaltning/arkiv:

Virksomheten skal påse at dokumentasjonen er ekte, dekkende, pålitelig, i sammenheng og anvendbar.

Jeg har valgt punktet anvendbar som den første lille biten av elefantenSkal du følge prinsippene for innebygget arkivering så betyr det at dokumentasjonens anvendbarhet må være hensyntatt allerede ved utformingen av systemene. Og at det er hensyntatt på en måte som gjør at de ansatte i offentlig sektor ikke trenger å bruke tid på å sikre at dokumentasjonen er anvendbar.

For at noe skal være anvendbart så er du, som bruker av dokumentasjonen, nødt til å på en enkel måte kunne gjenfinne den en gang i fremtiden. Jeg er litt usikker på om det er et likhetstegn mellom anvende og gjenfinne, men det er ikke noe tvil om at de er beslektet. Så etter å ha tenkt litt har jeg kommet frem til tre forskjellige strategier for gjenfinning og anvendbarhet:

1. Gjenfinning basert på ustrukturert søk

Med anvendbarhet menes det at du, som berettiget bruker, enkelt finner dokumentasjonen en gang i fremtiden når du trenger den. Den metoden folk oftest tenker på for gjenfinning av dokumentasjon/informasjon er et "ustrukturert søk". Grunnen er at alle er vant til å google ting, og stoler på at søkealgoritmen gir de akkurat det de er ute etter. Et "google-søk", altså et søk i ustrukturerte data basert på en søkealgoritme, er absolutt et alternativ for gjenfinning av data og dokumentasjon. Spesielt hvis datasettet du skal søke i har lite eller ingen strukturerte data knyttet til seg. Men søkeopplevelsen er helt avhengig av den underliggende søkealgoritmen. Jeg vet ikke om du har vært inne på kvasir.no i det siste? Det er ikke noe tvil om at søkeopplevelsen der er ganske annerledes enn på Google.

2. Gjenfinning basert på fasettert søk

Men "ustrukturert søk" er ikke det eneste alternativet. I den andre enden av skalaen er filtrering basert på strukturerte metadata. Tenk finn.no, hvor du på forsiden velger "Eiendom", deretter "Bolig til salgs", så hvilket "fylke" eller "kommune", "tidspunkt for salg", "ny" eller "brukt", "prisantydning", "antall soverom", "fasiliteter" osv. Til slutt sitter du igjen med et fåtall boliger som treffer de kriteriene du har valgt. På denne måten reduserer du det totale utvalget du skal søke i dramatisk, og det gir deg større sannsynlighet for å få et relevant søketreff. Dette er det som kalles fasettert søk. Dette vil gi deg et redusert og relevant utvalg som du deretter kan detaljsøke i. En forutsetning for å få en god søkeopplevelse her er selvfølgelig at fasettene/kriteriene er påført dokumentasjonen som strukturerte data.

3. Proaktiv gjenfinning

Et tredje alternativ er mer proaktive gjenfinningsmetoder. Med det så mener jeg at du vil få "pushet" til deg riktig informasjon til riktig tid. Tenk deg at du, som byggesaksbehandler i en kommune, får presentert gjeldende situasjonskart, grunnboksrapport på eiendommen, gjeldende ferdigattest og relevante vedtak når du skal starte behandling av en ny innkommende byggesøknad. Denne metoden baserer seg også strukturerte data, men det er i tillegg noe "smartness" på toppen. Når du har kjøpt noe på amazon.com og får opp "andre relevante produkter" idet du har gjort et kjøp, er du et "offer" for denne metoden.

Når du skal utforme et system betyr det derfor at du, allerede ved utformingen av systemet, må ha bestemt deg for hvordan brukeropplevelsen skal være når de en gang i fremtiden skal anvende dokumentasjonen:
  1. Skal brukeren søke opp dokumentasjonen selv, ala Google? (reaktiv strategi)
  2. Skal brukeren søke opp dokumentasjonen selv, ala finn.no? (reaktiv strategi)
  3. Skal brukeren få tilgang på relevant dokumentasjon til relevant tid, ala amazon.com? (proaktiv strategi)

Punkt 1 krever ikke at du har strukturerte data, men søkeopplevelsen er 100% avhengig av søkealgoritmen som benyttes. Punkt 2 og 3 er helt avhengig av strukturerte data.

Innebygd arkivering sier ikke noe om hva som er riktig strategi. Det sier bare at du må ha et bevisst forhold til dette i forkant, når du utformer systemet/prosessen. Når det er sagt så tror jeg personlig at alternativ 3 er det som gir brukeren en best opplevelse, da dette åpenbart krever minst av brukeren.

Ønsker du å gå i retning av en proaktiv strategi for anvendelse av dokumentasjon så er første steg på veien god datakvalitet. Dette er som sagt en metode som baserer seg på strukturerte data, da det er de strukturerte dataene som vil være grunnlag for gjenfinningslogikken i en saksbehandlingsløsning (eksempel på en enkel spørring fra en saksbehandlingsløsning: gi meg alle tidligere saker, med tilsvarende sakstype, hvor jeg er saksbehandler).

I tillegg vil god datakvalitet også være grunnlaget for å bygge "smartnessen" på toppen. "Smartness" kan typisk være en maskinlæringsmodell som vil presentere brukeren for andre saker som den mener er relevant i den konteksten brukeren er i. For å bygge gode maskinlæringsmodeller kreves det store datasett med strukturerte data ("labelled dataset"). Og store strukturerte datasett er tidkrevende å sette sammen. En undersøkelse fra CrowdFlower viser at Data Scientist'er bruker 51 % av sin tid på å samle, rense, merke og organisere data (flere andre undersøkelser viser tilsvarende tall).

Tenker du ikke på hvordan du skal strukturere dataene allerede ved utformingen av systemet/prosessen, så vil du få et arkiv og datasett med dårlig datakvalitet. Som det i værste fall kan vise seg å være praktisk umulig å strukturere i etterkant. Dette er nettopp det innebygd arkivering er ment å sikre at vi skal unngå. Innbygd arkivering skal påse at god datakvalitet er tenkt på fra starten av og bygd inn i prosessen/systemet. På denne måten vil du gjøre jobben én gang i forkant i stedet for en stor oppryddingsjobb i etterkant.

New call-to-action

Webinar om innebygd arkivering

Highlighted text

Highlighted text

List with icons

List with icons

List with icons

Accordion

Description

Accordion

Description

Accordion

Description