Op 11 maart publiceerde ik de introductie van mijn blogreeks over data en privacy. In deze volgende blog ga ik in op mogelijke valkuilen rondom data.
Een belangrijk verandering de afgelopen jaren, is de verandering in uitvoerders van de onderzoeken in het sociaal domein. Traditioneel werd er een onderzoek vanuit de overheid of zorginstelling geïnitieerd en veelal uitgevoerd door onderzoeksbureaus. Deze onderzoekbureaus legden de focus met name op wat de klant aangaf via een cliënttevredenheidsonderzoek. Cliënttevredenheidsonderzoeken bieden echter niet meer de informatie die nodig is om de service te verbeteren en de levens van cliënten te verbeteren. De focus verschoof daarom van een enquête waarin klanten worden bevraagd, naar de analyse van registraties over cliënten: Wat weten en kennen we (objectief) van de mensen in ons cliëntenbestand? De achtergrond hiervan is dat hetgeen mensen doen, meer informatie geeft dan wat ze zeggen. Meten is weten, zogezegd. Met de verschuiving van focus, kregen we ook andere uitvoerders. De vraag naar meer geavanceerde analyses leidde tot de vraag naar analisten met meer technische vaardigheden dan de traditionele onderzoekers.
Door een veranderende vraag en een veranderende uitvoerder is de focus van data-analyse meer komen te liggen op de technische skills en kwaliteiten. Het gaat hierbij om codering, het kennen van programmeertalen en verschillende machine learning algoritmes. Hier zit ook gelijk de crux. De zware focus op de techniek en theorie van algoritmes zorgt er namelijk voor dat de praktijk onderbelicht raakt. En dat terwijl onderzoek, met name op maatschappelijk gevoelige gebieden, niet alleen technische skills vergt. Juist met onderwerpen zoals het sociaal domein, waar de resultaten van onderzoek direct consequenties kunnen hebben voor de mensen die het betreft, is het essentieel om de context te begrijpen. Er moet kennis zijn van de context waarin data is verzameld, en welke gebreken hierin kunnen zitten.
Een algoritme is als een recept in de keuken. Het bevat instructies om tot een bepaald doel te komen. Bijvoorbeeld het maken van een aardappelsalade, of een set regels waarmee het weer kan worden voorspeld. Om een computer-algoritme te trainen maak je gebruik van informatie uit het verleden. Hierbij geldt een heel simpel principe: garbage in = garbage out. Bijna alle informatie die wordt gebruikt, heeft menselijk handelen in de basis. Of dit nu gaat om het selecteren van sollicitanten of het selecteren van mensen voor een controle. De data, juist data binnen het sociaal domein, hebben hierdoor mogelijk te maken met vooroordelen op het gebied van sekse, leeftijd, etnische achtergrond of misschien zelfs zoiets als woonwijk. Daarnaast kunnen er blinde vlekken zijn. Is je data bijvoorbeeld een goede afspiegeling van de doelgroep? En hoe verhoudt zich dit tot de rest van de samenleving? De antwoorden op deze vragen zijn cruciaal voor je algoritme.
De Amazon – Artificial Intelligence recruiting tool geeft een perfect voorbeeld van hoe het gebruik van algoritmen verkeerd kan gaan, wanneer je niet weet hoe je data in elkaar zit. De wens van Amazon was vrij simpel. Ze wilden niet meer handmatig door honderden CV’s gaan om zo de beste sollicitanten te selecteren, maar dit proces geautomatiseerd laten verlopen door gebruik te maken van Artificial Intelligence (AI).
In 2014 heeft Amazon ingezet op het ontwikkelen van dit model. Het AI-model werd getraind door de patronen te ontdekken in de CV’s van huidige medewerkers van de laatste 10 jaar. Op basis van deze kenmerken uit het verleden, ging het voorspellen welke mensen het beste zouden passen bij Amazon. Er werd hierin een belangrijk detail over het hoofd gezien. Amazon was met name werkzaam in een technisch, door mannen gedomineerde wereld, en bijna drie kwart van de werknemers van Amazon was man. Het AI-model nam dit, heel netjes zoals van een AI-model verwacht wordt, mee in de voorspellingen voor potentiële kandidaten. Het gevolg was dat sollicitanten die door de selectie heen kwamen en op gesprek mochten komen met name mannen waren. Niet zozeer omdat vrouwen de gevraagde ‘skillset’ niet hadden, maar omdat men in het verleden met name mannen had aangenomen. Dus: garbage in = garbage out.
Uit de bovenstaande informatie, kun je een paar belangrijke leerpunten meenemen:
In de volgende blog ga ik in op een andere relevant onderwerp: het identificeren van risicogroepen. Dit is een veelgebruikte methodiek binnen de overheid. Denk bijvoorbeeld aan de recente gevallen bij de Belastingdienst en de Politie. Wat is nu precies de zin en onzin rondom het vaststellen van risicogroepen?
Diana Boertien
Data Analist en Adviseur
Deel dit met uw volgers
Op 11 maart publiceerde ik de introductie van mijn blogreeks over data en privacy. In deze volgende blog ga ik in op mogelijke valkuilen rondom data.
Een belangrijk verandering de afgelopen jaren, is de verandering in uitvoerders van de onderzoeken in het sociaal domein. Traditioneel werd er een onderzoek vanuit de overheid of zorginstelling geïnitieerd en veelal uitgevoerd door onderzoeksbureaus. Deze onderzoekbureaus legden de focus met name op wat de klant aangaf via een cliënttevredenheidsonderzoek. Cliënttevredenheidsonderzoeken bieden echter niet meer de informatie die nodig is om de service te verbeteren en de levens van cliënten te verbeteren. De focus verschoof daarom van een enquête waarin klanten worden bevraagd, naar de analyse van registraties over cliënten: Wat weten en kennen we (objectief) van de mensen in ons cliëntenbestand? De achtergrond hiervan is dat hetgeen mensen doen, meer informatie geeft dan wat ze zeggen. Meten is weten, zogezegd. Met de verschuiving van focus, kregen we ook andere uitvoerders. De vraag naar meer geavanceerde analyses leidde tot de vraag naar analisten met meer technische vaardigheden dan de traditionele onderzoekers.
Door een veranderende vraag en een veranderende uitvoerder is de focus van data-analyse meer komen te liggen op de technische skills en kwaliteiten. Het gaat hierbij om codering, het kennen van programmeertalen en verschillende machine learning algoritmes. Hier zit ook gelijk de crux. De zware focus op de techniek en theorie van algoritmes zorgt er namelijk voor dat de praktijk onderbelicht raakt. En dat terwijl onderzoek, met name op maatschappelijk gevoelige gebieden, niet alleen technische skills vergt. Juist met onderwerpen zoals het sociaal domein, waar de resultaten van onderzoek direct consequenties kunnen hebben voor de mensen die het betreft, is het essentieel om de context te begrijpen. Er moet kennis zijn van de context waarin data is verzameld, en welke gebreken hierin kunnen zitten.
Een algoritme is als een recept in de keuken. Het bevat instructies om tot een bepaald doel te komen. Bijvoorbeeld het maken van een aardappelsalade, of een set regels waarmee het weer kan worden voorspeld. Om een computer-algoritme te trainen maak je gebruik van informatie uit het verleden. Hierbij geldt een heel simpel principe: garbage in = garbage out. Bijna alle informatie die wordt gebruikt, heeft menselijk handelen in de basis. Of dit nu gaat om het selecteren van sollicitanten of het selecteren van mensen voor een controle. De data, juist data binnen het sociaal domein, hebben hierdoor mogelijk te maken met vooroordelen op het gebied van sekse, leeftijd, etnische achtergrond of misschien zelfs zoiets als woonwijk. Daarnaast kunnen er blinde vlekken zijn. Is je data bijvoorbeeld een goede afspiegeling van de doelgroep? En hoe verhoudt zich dit tot de rest van de samenleving? De antwoorden op deze vragen zijn cruciaal voor je algoritme.
De Amazon – Artificial Intelligence recruiting tool geeft een perfect voorbeeld van hoe het gebruik van algoritmen verkeerd kan gaan, wanneer je niet weet hoe je data in elkaar zit. De wens van Amazon was vrij simpel. Ze wilden niet meer handmatig door honderden CV’s gaan om zo de beste sollicitanten te selecteren, maar dit proces geautomatiseerd laten verlopen door gebruik te maken van Artificial Intelligence (AI).
In 2014 heeft Amazon ingezet op het ontwikkelen van dit model. Het AI-model werd getraind door de patronen te ontdekken in de CV’s van huidige medewerkers van de laatste 10 jaar. Op basis van deze kenmerken uit het verleden, ging het voorspellen welke mensen het beste zouden passen bij Amazon. Er werd hierin een belangrijk detail over het hoofd gezien. Amazon was met name werkzaam in een technisch, door mannen gedomineerde wereld, en bijna drie kwart van de werknemers van Amazon was man. Het AI-model nam dit, heel netjes zoals van een AI-model verwacht wordt, mee in de voorspellingen voor potentiële kandidaten. Het gevolg was dat sollicitanten die door de selectie heen kwamen en op gesprek mochten komen met name mannen waren. Niet zozeer omdat vrouwen de gevraagde ‘skillset’ niet hadden, maar omdat men in het verleden met name mannen had aangenomen. Dus: garbage in = garbage out.
Uit de bovenstaande informatie, kun je een paar belangrijke leerpunten meenemen:
In de volgende blog ga ik in op een andere relevant onderwerp: het identificeren van risicogroepen. Dit is een veelgebruikte methodiek binnen de overheid. Denk bijvoorbeeld aan de recente gevallen bij de Belastingdienst en de Politie. Wat is nu precies de zin en onzin rondom het vaststellen van risicogroepen?
Diana Boertien
Data Analist en Adviseur
Scamander
Bernhardstraat 1
3433 EL Nieuwegein
Algemeen: 030-6029000
KvK : 30 15 16 09, Utrecht
E-mail: info@scamander.com
Scamander
Bernhardstraat 1
3433 EL Nieuwegein
Algemeen: 030-6029000
KvK : 30 15 16 09, Utrecht
E-mail: info@scamander.com
Copyright Scamander 2024
Copyright Scamander 2024