Van de week sprak ik mijn collega Wouter Schmidt die zeer deskundig is in predictive analytics. Hij wees mij op de term EDA, hetgeen staat voor Explanatory Data Analysis.
Die term kende ik nog niet. En bij verdere studie blijkt dat deze al geruime tijd bestaat. Ik vond een heel handig document waarin met voorbeelden wordt uitgelegd hoe je EDA in de praktijk brengt.
Vooral hoe je relaties tussen variabelen kan afleiden, en dat je daar ook de mist mee in kan gaan. En wanneer je moet kiezen voor regressie. En heel aansprekend vind ik het voorbeeld waarmee je variabelen kan clusteren, en dan vervolgens redundante variabelen kan verwijderen. Dat maakt het werk voor een data scientist een stuk eenvoudiger.
En als je er echt in wilt bekwamen, dan is EDA for almost anyone een aanrader.