Generic selectors
Exact matches only
Search in title
Search in content
Post Type Selectors
Search in posts
Search in pages
dslc_downloads
events_agenda
klanten
dslc_projects
vacature
Data Science en privacyvraagstukken - bias van data

Data Science & privacyvraagstukken: bias van data

  • 17 maart 2020

Op 11 maart publiceerde ik de introductie van mijn blogreeks over data en privacy. In deze volgende blog ga ik in op mogelijke valkuilen rondom data.

Verschuiving van focus: van wat ‘zegt’ men naar wat ‘doet’ men.

Een belangrijk verandering de afgelopen jaren, is de verandering in uitvoerders van de onderzoeken in het sociaal domein. Traditioneel werd er een onderzoek vanuit de overheid of zorginstelling geïnitieerd en veelal uitgevoerd door onderzoeksbureaus. Deze onderzoekbureaus legden de focus met name op wat de klant aangaf via een cliënttevredenheidsonderzoek. Cliënttevredenheidsonderzoeken bieden echter niet meer de informatie die nodig is om de service te verbeteren en de levens van cliënten te verbeteren. De focus verschoof daarom van een enquête waarin klanten worden bevraagd, naar de analyse van registraties over cliënten: Wat weten en kennen we (objectief) van de mensen in ons cliëntenbestand? De achtergrond hiervan is dat hetgeen mensen doen, meer informatie geeft dan wat ze zeggen. Meten is weten, zogezegd. Met de verschuiving van focus, kregen we ook andere uitvoerders. De vraag naar meer geavanceerde analyses leidde tot de vraag naar analisten met meer technische vaardigheden dan de traditionele onderzoekers.

Voor- en nadelen technische focus

Door een veranderende vraag en een veranderende uitvoerder is de focus van data-analyse meer komen te liggen op de technische skills en kwaliteiten. Het gaat hierbij om codering, het kennen van programmeertalen en verschillende machine learning algoritmes. Hier zit ook gelijk de crux. De zware focus op de techniek en theorie van algoritmes zorgt er namelijk voor dat de praktijk onderbelicht raakt. En dat terwijl onderzoek, met name op maatschappelijk gevoelige gebieden, niet alleen technische skills vergt. Juist met onderwerpen zoals het sociaal domein, waar de resultaten van onderzoek direct consequenties kunnen hebben voor de mensen die het betreft, is het essentieel om de context te begrijpen. Er moet kennis zijn van de context waarin data is verzameld, en welke gebreken hierin kunnen zitten.

Bias van data  – ken je historie!

Een algoritme is als een recept in de keuken. Het bevat instructies om tot een bepaald doel te komen. Bijvoorbeeld het maken van een aardappelsalade, of een set regels waarmee het weer kan worden voorspeld. Om een computer-algoritme te trainen maak je gebruik van informatie uit het verleden. Hierbij geldt een heel simpel principe: garbage in = garbage out. Bijna alle informatie die wordt gebruikt, heeft menselijk handelen in de basis. Of dit nu gaat om het selecteren van sollicitanten of het selecteren van mensen voor een controle. De data, juist data binnen het sociaal domein, hebben hierdoor mogelijk te maken met vooroordelen op het gebied van sekse, leeftijd, etnische achtergrond of misschien zelfs zoiets als woonwijk. Daarnaast kunnen er blinde vlekken zijn. Is je data bijvoorbeeld een goede afspiegeling van de doelgroep? En hoe verhoudt zich dit tot de rest van de samenleving? De antwoorden op deze vragen zijn cruciaal voor je algoritme.

Amazon bias

De Amazon – Artificial Intelligence recruiting tool geeft een perfect voorbeeld van hoe het gebruik van algoritmen verkeerd kan gaan, wanneer je niet weet hoe je data in elkaar zit. De wens van Amazon was vrij simpel. Ze wilden niet meer handmatig door honderden CV’s gaan om zo de beste sollicitanten te selecteren, maar dit proces geautomatiseerd laten verlopen door gebruik te maken van Artificial Intelligence (AI).

In 2014 heeft Amazon ingezet op het ontwikkelen van dit model. Het AI-model werd getraind door de patronen te ontdekken in de CV’s van huidige medewerkers van de laatste 10 jaar. Op basis van deze kenmerken uit het verleden, ging het voorspellen welke mensen het beste zouden passen bij Amazon. Er werd hierin een belangrijk detail over het hoofd gezien. Amazon was met name werkzaam in een technisch, door mannen gedomineerde wereld, en bijna drie kwart van de werknemers van Amazon was man. Het AI-model nam dit, heel netjes zoals van een AI-model verwacht wordt, mee in de voorspellingen voor potentiële kandidaten. Het gevolg was dat sollicitanten die door de selectie heen kwamen en op gesprek mochten komen met name mannen waren. Niet zozeer omdat vrouwen de gevraagde ‘skillset’ niet hadden, maar omdat men in het verleden met name mannen had aangenomen. Dus: garbage in = garbage out.

De leerpunten

Uit de bovenstaande informatie, kun je een paar belangrijke leerpunten meenemen:

  • De meeste (big) datasets bevatten één of andere bias.
  • Bias in data leidt ook tot ‘biased’ modellen, die wantrouwen en incorrect handelen tot gevolg kunnen hebben.
  • Het is belangrijk om data intensief te doorgronden zodat analisten bewust worden van de bias. Het ontdekken van bias moet onderdeel worden van het analyse proces.
  • Technische vaardigheden van analisten zijn belangrijk. Maar zorg dat men kennis heeft van de context, vooral bij vraagstukken binnen het sociaal domein.

De volgende blog

In de volgende blog ga ik in op een andere relevant onderwerp: het identificeren van risicogroepen. Dit is een veelgebruikte methodiek binnen de overheid. Denk bijvoorbeeld aan de recente gevallen bij de Belastingdienst en de Politie. Wat is nu precies de zin en onzin rondom het vaststellen van risicogroepen?

Diana Boertien
Data Analist en Adviseur

Deel dit met uw volgers

Op 11 maart publiceerde ik de introductie van mijn blogreeks over data en privacy. In deze volgende blog ga ik in op mogelijke valkuilen rondom data.

Verschuiving van focus: van wat ‘zegt’ men naar wat ‘doet’ men.

Een belangrijk verandering de afgelopen jaren, is de verandering in uitvoerders van de onderzoeken in het sociaal domein. Traditioneel werd er een onderzoek vanuit de overheid of zorginstelling geïnitieerd en veelal uitgevoerd door onderzoeksbureaus. Deze onderzoekbureaus legden de focus met name op wat de klant aangaf via een cliënttevredenheidsonderzoek. Cliënttevredenheidsonderzoeken bieden echter niet meer de informatie die nodig is om de service te verbeteren en de levens van cliënten te verbeteren. De focus verschoof daarom van een enquête waarin klanten worden bevraagd, naar de analyse van registraties over cliënten: Wat weten en kennen we (objectief) van de mensen in ons cliëntenbestand? De achtergrond hiervan is dat hetgeen mensen doen, meer informatie geeft dan wat ze zeggen. Meten is weten, zogezegd. Met de verschuiving van focus, kregen we ook andere uitvoerders. De vraag naar meer geavanceerde analyses leidde tot de vraag naar analisten met meer technische vaardigheden dan de traditionele onderzoekers.

Voor- en nadelen technische focus

Door een veranderende vraag en een veranderende uitvoerder is de focus van data-analyse meer komen te liggen op de technische skills en kwaliteiten. Het gaat hierbij om codering, het kennen van programmeertalen en verschillende machine learning algoritmes. Hier zit ook gelijk de crux. De zware focus op de techniek en theorie van algoritmes zorgt er namelijk voor dat de praktijk onderbelicht raakt. En dat terwijl onderzoek, met name op maatschappelijk gevoelige gebieden, niet alleen technische skills vergt. Juist met onderwerpen zoals het sociaal domein, waar de resultaten van onderzoek direct consequenties kunnen hebben voor de mensen die het betreft, is het essentieel om de context te begrijpen. Er moet kennis zijn van de context waarin data is verzameld, en welke gebreken hierin kunnen zitten.

Bias van data  – ken je historie!

Een algoritme is als een recept in de keuken. Het bevat instructies om tot een bepaald doel te komen. Bijvoorbeeld het maken van een aardappelsalade, of een set regels waarmee het weer kan worden voorspeld. Om een computer-algoritme te trainen maak je gebruik van informatie uit het verleden. Hierbij geldt een heel simpel principe: garbage in = garbage out. Bijna alle informatie die wordt gebruikt, heeft menselijk handelen in de basis. Of dit nu gaat om het selecteren van sollicitanten of het selecteren van mensen voor een controle. De data, juist data binnen het sociaal domein, hebben hierdoor mogelijk te maken met vooroordelen op het gebied van sekse, leeftijd, etnische achtergrond of misschien zelfs zoiets als woonwijk. Daarnaast kunnen er blinde vlekken zijn. Is je data bijvoorbeeld een goede afspiegeling van de doelgroep? En hoe verhoudt zich dit tot de rest van de samenleving? De antwoorden op deze vragen zijn cruciaal voor je algoritme.

Amazon bias

De Amazon – Artificial Intelligence recruiting tool geeft een perfect voorbeeld van hoe het gebruik van algoritmen verkeerd kan gaan, wanneer je niet weet hoe je data in elkaar zit. De wens van Amazon was vrij simpel. Ze wilden niet meer handmatig door honderden CV’s gaan om zo de beste sollicitanten te selecteren, maar dit proces geautomatiseerd laten verlopen door gebruik te maken van Artificial Intelligence (AI).

In 2014 heeft Amazon ingezet op het ontwikkelen van dit model. Het AI-model werd getraind door de patronen te ontdekken in de CV’s van huidige medewerkers van de laatste 10 jaar. Op basis van deze kenmerken uit het verleden, ging het voorspellen welke mensen het beste zouden passen bij Amazon. Er werd hierin een belangrijk detail over het hoofd gezien. Amazon was met name werkzaam in een technisch, door mannen gedomineerde wereld, en bijna drie kwart van de werknemers van Amazon was man. Het AI-model nam dit, heel netjes zoals van een AI-model verwacht wordt, mee in de voorspellingen voor potentiële kandidaten. Het gevolg was dat sollicitanten die door de selectie heen kwamen en op gesprek mochten komen met name mannen waren. Niet zozeer omdat vrouwen de gevraagde ‘skillset’ niet hadden, maar omdat men in het verleden met name mannen had aangenomen. Dus: garbage in = garbage out.

De leerpunten

Uit de bovenstaande informatie, kun je een paar belangrijke leerpunten meenemen:

  • De meeste (big) datasets bevatten één of andere bias.
  • Bias in data leidt ook tot ‘biased’ modellen, die wantrouwen en incorrect handelen tot gevolg kunnen hebben.
  • Het is belangrijk om data intensief te doorgronden zodat analisten bewust worden van de bias. Het ontdekken van bias moet onderdeel worden van het analyse proces.
  • Technische vaardigheden van analisten zijn belangrijk. Maar zorg dat men kennis heeft van de context, vooral bij vraagstukken binnen het sociaal domein.

De volgende blog

In de volgende blog ga ik in op een andere relevant onderwerp: het identificeren van risicogroepen. Dit is een veelgebruikte methodiek binnen de overheid. Denk bijvoorbeeld aan de recente gevallen bij de Belastingdienst en de Politie. Wat is nu precies de zin en onzin rondom het vaststellen van risicogroepen?

Diana Boertien
Data Analist en Adviseur