Data Science en privacyvraagstukken - bias van data

Data Science & privacyvraagstukken: bias van data

17 maart 2020

Op 11 maart publiceerde ik de introductie van mijn blogreeks over data en privacy. In deze volgende blog ga ik in op mogelijke valkuilen rondom data.

Verschuiving van focus: van wat ‘zegt’ men naar wat ‘doet’ men.

Een belangrijk verandering de afgelopen jaren, is de verandering in uitvoerders van de onderzoeken in het sociaal domein. Traditioneel werd er een onderzoek vanuit de overheid of zorginstelling geïnitieerd en veelal uitgevoerd door onderzoeksbureaus. Deze onderzoekbureaus legden de focus met name op wat de klant aangaf via een cliënttevredenheidsonderzoek. Cliënttevredenheidsonderzoeken bieden echter niet meer de informatie die nodig is om de service te verbeteren en de levens van cliënten te verbeteren. De focus verschoof daarom van een enquête waarin klanten worden bevraagd, naar de analyse van registraties over cliënten: Wat weten en kennen we (objectief) van de mensen in ons cliëntenbestand? De achtergrond hiervan is dat hetgeen mensen doen, meer informatie geeft dan wat ze zeggen. Meten is weten, zogezegd. Met de verschuiving van focus, kregen we ook andere uitvoerders. De vraag naar meer geavanceerde analyses leidde tot de vraag naar analisten met meer technische vaardigheden dan de traditionele onderzoekers.

Voor- en nadelen technische focus

Door een veranderende vraag en een veranderende uitvoerder is de focus van data-analyse meer komen te liggen op de technische skills en kwaliteiten. Het gaat hierbij om codering, het kennen van programmeertalen en verschillende machine learning algoritmes. Hier zit ook gelijk de crux. De zware focus op de techniek en theorie van algoritmes zorgt er namelijk voor dat de praktijk onderbelicht raakt. En dat terwijl onderzoek, met name op maatschappelijk gevoelige gebieden, niet alleen technische skills vergt. Juist met onderwerpen zoals het sociaal domein, waar de resultaten van onderzoek direct consequenties kunnen hebben voor de mensen die het betreft, is het essentieel om de context te begrijpen. Er moet kennis zijn van de context waarin data is verzameld, en welke gebreken hierin kunnen zitten.

Bias van data – ken je historie!

Een algoritme is als een recept in de keuken. Het bevat instructies om tot een bepaald doel te komen. Bijvoorbeeld het maken van een aardappelsalade, of een set regels waarmee het weer kan worden voorspeld. Om een computer-algoritme te trainen maak je gebruik van informatie uit het verleden. Hierbij geldt een heel simpel principe: garbage in = garbage out. Bijna alle informatie die wordt gebruikt, heeft menselijk handelen in de basis. Of dit nu gaat om het selecteren van sollicitanten of het selecteren van mensen voor een controle. De data, juist data binnen het sociaal domein, hebben hierdoor mogelijk te maken met vooroordelen op het gebied van sekse, leeftijd, etnische achtergrond of misschien zelfs zoiets als woonwijk. Daarnaast kunnen er blinde vlekken zijn. Is je data bijvoorbeeld een goede afspiegeling van de doelgroep? En hoe verhoudt zich dit tot de rest van de samenleving? De antwoorden op deze vragen zijn cruciaal voor je algoritme.

Amazon bias

De Amazon – Artificial Intelligence recruiting tool geeft een perfect voorbeeld van hoe het gebruik van algoritmen verkeerd kan gaan, wanneer je niet weet hoe je data in elkaar zit. De wens van Amazon was vrij simpel. Ze wilden niet meer handmatig door honderden CV’s gaan om zo de beste sollicitanten te selecteren, maar dit proces geautomatiseerd laten verlopen door gebruik te maken van Artificial Intelligence (AI).

In 2014 heeft Amazon ingezet op het ontwikkelen van dit model. Het AI-model werd getraind door de patronen te ontdekken in de CV’s van huidige medewerkers van de laatste 10 jaar. Op basis van deze kenmerken uit het verleden, ging het voorspellen welke mensen het beste zouden passen bij Amazon. Er werd hierin een belangrijk detail over het hoofd gezien. Amazon was met name werkzaam in een technisch, door mannen gedomineerde wereld, en bijna drie kwart van de werknemers van Amazon was man. Het AI-model nam dit, heel netjes zoals van een AI-model verwacht wordt, mee in de voorspellingen voor potentiële kandidaten. Het gevolg was dat sollicitanten die door de selectie heen kwamen en op gesprek mochten komen met name mannen waren. Niet zozeer omdat vrouwen de gevraagde ‘skillset’ niet hadden, maar omdat men in het verleden met name mannen had aangenomen. Dus: garbage in = garbage out.

De leerpunten

Uit de bovenstaande informatie, kun je een paar belangrijke leerpunten meenemen:

De meeste (big) datasets bevatten één of andere bias.
Bias in data leidt ook tot ‘biased’ modellen, die wantrouwen en incorrect handelen tot gevolg kunnen hebben.
Het is belangrijk om data intensief te doorgronden zodat analisten bewust worden van de bias. Het ontdekken van bias moet onderdeel worden van het analyse proces.
Technische vaardigheden van analisten zijn belangrijk. Maar zorg dat men kennis heeft van de context, vooral bij vraagstukken binnen het sociaal domein.

De volgende blog

In de volgende blog ga ik in op een andere relevant onderwerp: het identificeren van risicogroepen. Dit is een veelgebruikte methodiek binnen de overheid. Denk bijvoorbeeld aan de recente gevallen bij de Belastingdienst en de Politie. Wat is nu precies de zin en onzin rondom het vaststellen van risicogroepen?

Diana Boertien
Data Analist en Adviseur

Op 11 maart publiceerde ik de introductie van mijn blogreeks over data en privacy. In deze volgende blog ga ik in op mogelijke valkuilen rondom data.

Verschuiving van focus: van wat ‘zegt’ men naar wat ‘doet’ men.

Voor- en nadelen technische focus

Bias van data – ken je historie!

Amazon bias

De leerpunten

Uit de bovenstaande informatie, kun je een paar belangrijke leerpunten meenemen:

De meeste (big) datasets bevatten één of andere bias.
Bias in data leidt ook tot ‘biased’ modellen, die wantrouwen en incorrect handelen tot gevolg kunnen hebben.
Het is belangrijk om data intensief te doorgronden zodat analisten bewust worden van de bias. Het ontdekken van bias moet onderdeel worden van het analyse proces.
Technische vaardigheden van analisten zijn belangrijk. Maar zorg dat men kennis heeft van de context, vooral bij vraagstukken binnen het sociaal domein.

De volgende blog

Diana Boertien
Data Analist en Adviseur

Data Science & privacyvraagstukken: bias van data

Verschuiving van focus: van wat ‘zegt’ men naar wat ‘doet’ men.

Voor- en nadelen technische focus

Bias van data – ken je historie!

Amazon bias

De leerpunten

De volgende blog

Verschuiving van focus: van wat ‘zegt’ men naar wat ‘doet’ men.

Voor- en nadelen technische focus

Bias van data – ken je historie!

Amazon bias

De leerpunten

De volgende blog

Semantische spraakverwarringen en het gebruik van vaktermen

Waarom kies je voor een open source data catalogus?

Waarom investeren in een data catalogus?

Vragen en antwoorden over data

(Data)strategie, richting én resultaat

Datawijze overheid – Gemeente ‘s-Hertogenbosch

28 januari – Europese dag van de privacy

Scamander ISO 27001 gecertificeerd

Fijne feestdagen en een gezond 2024

Bekijk de wereld door de lens van data

Het hoe en wat van Azure Cost Management

Eindejaarsactie 2023 – welk doel geef jij wat extra aandacht?

Informatie is dood, lang leve data!

Scamander bestaat 25 jaar! En dat vieren we.

Persbericht: Gemeente ‘s-Hertogenbosch kiest voor Data Platform van Scamander

Mini-conferentie Gemeentelijk Gegevensmodel en het Sociaal Domein

Modelleren is allesbehalve een technische exercitie

Scamander start Gilden voor optimale kennisdeling

Eindejaarsactie 2022 – Welk doel geef jij wat extra aandacht?

e-paper: De juiste definitie in de juiste context

Persbericht: Paul Uijtewaal Algemeen Directeur a.i. bij Scamander

Oeps, een datalek….Tips om ze te voorkomen

AD Artikel: Schiedamse ouderen drukten ruim 400 keer op de Behoeftelijnknop

Eindejaarsactie 2021 – Welk doel geef jij wat extra aandacht?