27-05-2020

FAIR-data nodig voor juist beleid tijdens coronacrisis

Tijdens de coronacrisis wordt veel van het huidige beleid gebaseerd op data, zoals het door het RIVM aantal vastgestelde infecties en ziekenhuisopnames en de bezetting op de intensive care. Maar voordat deze data bruikbaar wordt, moet het eerst nog veel bewerkingen ondergaan: combineren, duiden, opschonen, transformeren, et cetera. Dit kost veel tijd, heeft impact op de kwaliteit, en daarmee ook op het beleid. Erwin Folmer, werkzaam als senior adviseur Landelijke Voorzieningen bij Kadaster en stuurgroeplid van het Platform Linked Data Nederland, legt uit waarom FAIR-data nodig is en hoe het Kadaster dit gebruikt voor de publicaties van data.

“Om nu chocola te kunnen maken van de beschikbare data en de grafiekjes die we elke dag zien, moet het eerst nog verschillende bewerkingen ondergaan. Vele organisaties houden zich hier inmiddels mee bezig, meestal vooral voor eigen gebruik. Af en toe wordt het wel gepubliceerd, zoals bijvoorbeeld door het “ESRI NL COVID-19 Geo Hub”, die de opgepoetste data in een eigen formaat ter beschikking stelt aan anderen. Dit geldt ook voor CoronaWatchNL, een project van onder andere de Universiteit Utrecht die de opgepoetste data in open formaten beschikbaar stelt.

Enerzijds hartstikke mooi, maar eigenlijk is het niet efficiënt: het kost veel tijd en het heeft ook impact op de kwaliteit, en daarmee ook op de onderzoeken en het beleid dat er op is gebaseerd. Dat is de reden dat in de wetenschap de laatste jaren de term FAIR-data haar intrede heeft gedaan: de onderzoeksdata moet Findable, Accessible, Interoperable en Reusable zijn voor kwalitatief goed en repeteerbaar wetenschappelijk onderzoek. Helaas voldoet de RIVM-data niet aan de FAIR-principes, waardoor de data niet direct bruikbaar is en al die tussenstappen nodig zijn.

De FAIR-principes lijken sterk op de linked data-aanpak, vandaar dat het Platform Linked Data Nederland de FAIR-principes sterk uitdraagt. Ook de Universiteit Twente participeert in het VODAN (Virus Outbreak Data Network) om wereldwijd coronagerelateerde data FAIR te publiceren. Ten slotte heeft Kadaster uitgebreide ervaring met het publiceren van de basisregistraties als linked data, die in grote mate aan de FAIR-principes voldoen. Oftewel, er is voldoende kennis om de RIVM-data meer FAIR, en dus beter bruikbaar, te publiceren.

Om te laten zien hoe dit werkt hebben we bij Kadaster de (opgeschoonde) data van CoronaWatchNL opgepakt en deze getransformeerd naar linked data. Dit hebben we hier gepubliceerd. Daarmee kan iedereen nu via een browser vragen stellen aan de data (via de SPARQL-taal, voor de Linked Data-kenners), met visualisaties als resultaat. Ook gecombineerd gebruik met andere linked data-bronnen is nu mogelijk, zoals de CBS Wijk- en Buurtkaart 2017-2019 en de Kadaster Basisregistraties (BAG/BRT). Ter inspiratie hebben we een aantal voorbeelden hiervan samengevoegd in een verhaal, wat we een “data story” noemen. Deze data story voert live bevragingen uit over de coronastatistieken voor Nederland. De statistieken worden dagelijks up-to-date gehouden. Deze data kan eenvoudig gecombineerd worden met andere FAIR-data, ook wereldwijd, en daardoor beter gebruikt worden voor analyses. Bij een volgende pandemie zou het ideaal zijn als het RIVM als bronhouder de data FAIR publiceert, zoals ook voor elke andere onderzoeksdata geldt.”

Zie deze pagina voor andere inspirerende FAIR/Linked Data-voorbeelden gemaakt door het Kadaster Data Science Team.

Impact en gebruik van data

In onze informatiemaatschappij vertegenwoordigt data veel waarde. Aan klanten kan precies worden aangeboden wat ze nodig hebben, terrorisme en criminaliteit kunnen beter opgespoord en voorkomen worden en fraude kan effectiever bes... + Meer over Impact en gebruik van data