Op 27 November vond de Data Science Summit plaats in het Frits Philips Muziekgebouw in Eindhoven. Dit evenement werd georganiseerd door het Data Science Center van de Technische Universiteit Eindhoven. Dit centrum combineert de kennis van de allerbeste wetenschappers en studenten van meer dan dertig onderzoeksgroepen.
“Computers are incredibly fast, accurate, and stupid; humans are incredibly slow, inaccurate, and brilliant; together they are powerful beyond imagination.” - Albert Einstein
Data Science Summit
De sleutel tot hun succes schuilt in de samenwerking van de onderzoekers met externe partijen. Om dit te bereiken worden er ontmoetingen, ideeën en projecten met elkaar gedeeld. Daarmee neemt de zichtbaarheid en transparantie toe, iets waar dit evenement ook toe bijdraagt op het Data Science vakgebied.
Meteen bij de opening van het evenement kwam ik erachter dat 50% van de bezoekers werkzaam is in onderzoek bijvoorbeeld bij een universiteit. En dat ik, werkzaam bij een CRM Marketing bureau, sterk in de minderheid was. Dit was tevens de indicatie voor het hoge (wetenschappelijke) niveau van dit evenement. Gelukkig sluit dit goed aan bij mijn kennis en bij mijn achtergrond als MSc in econometrie. Een achtergrond welke van toegevoegde waarde is in het dagelijks werk als Medior Marketing Data Analyst bij het Insights-team van Oxyma.
Op het vlak van Data Science aan de TU Eindhoven bestaan er diverse onderzoeksprogramma’s. Denk daarbij aan onderwerpen als: Quantified Self, Health Analytics, Internet of Data, Smart Manufacturing & Maintenance en Customer Journey. Dit waren ook de thema’s die aan bod kwamen tijdens het evenement.
Visual analytics
Daniel Keim van de Universiteit van Konstanz was de eerste keynote speaker. Hij liet de kracht van visual analytics zien: het ontgrendelen van de waarde van big data. Deze waarde schuilt niet alleen in de analyse, maar ook in de kennisoverdracht. Krachtige toepassing van visualisatie kan daarbij de sleutel zijn. In de praktijk zien wij dit vaak terug, zowel in de totstandkoming van performance dashboards als in het maken van infographics.
Volgens Daniel kan je niet zonder de rol van de mens: je realiseert de meeste waarde wanneer je de kracht van data combineert met de kracht van mensen. Enkele voorbeelden van big data toepassingen die Daniel liet zien: netwerk beveiliging, fraudedetectie en business analytics. Vooral het laatste thema spreekt ons aan. We herkennen ons in het voorbeeld van de visualisatie van de feedback van klanten, op basis van sentiment, de gebruikte termen (eerste en tweede dimensie na PCA), gemiddelde lengte van een zin, de Simpson’s index én de Hapax Legomenon. Door de toepassing van verschillende methoden ben je in staat klantgroepen te vormen door de analyse van de beschikbare data.
Quantified self & health analytics
Een andere interessante presentatie had als onderwerp Quantified Self en Health Analytics. Arno Knobbe en Aarnout Brombacher gaven inzage in hun studie naar data-mining en data analytics van data afkomstig van topsporters. In hun studie hebben ze onder andere de data van Kjeld Nuis en Sven Kramer gebruikt.
Verrassend en tegelijk inspirerend was de uitkomst dat men de studie was gestart onder de voorwaarde dat men de gezondheid van de Nederlandse bevolking in het algemeen zou gaan monitoren. Men vond al snel uit dat veel gezondheidsstudies onderhevig zijn aan bias, omdat ze zich baseren op de agenda’s en dagboeken van de deelnemers. Maar juist deze deelnemers vertoonden voorbeeldgedrag: om van bank naar bed te bewegen, liep men alsnog een (extra) ronde van 4 kilometer.
Een andere uitdaging schuilt in de toestemming voor het gebruik van de data van mensen. Als je bij voorbaat al zegt dat je technieken zal gaan inzetten waarmee alles gemeten kan worden, dan kunnen deelnemers in de weerstand raken. Er kan twijfel over het rechtmatig gebruik van data optreden.
Een belangrijke les is daarom: wees creatief en constructief in het verzamelen van goede informatie en laat je niet beperken.
Aanvullend onderzochten ze een model waarmee de effectiviteit van trainingen gemeten kan worden. Daaruit kwam naar voren dat iedere variabele U-shaped is. Dat wil zeggen dat het in theorie non-lineair is (threshold model of quadratic), terwijl in de praktijk maar een fragment van deze U-shape van ieder individu is. Hoe ga je hiermee om? En hoe vind je het optimum voor ieder individu?
Reinder Haakma & Paulo Serra presenteerden een andere case binnen health analytics. Zij hebben een Bayesiaans model (state space) ingezet op data, gegenereerd middels een device op de pols (photo plethysmography). Met als doelstelling het detecteren van hartritmestoornissen. Het was vooral interessant hoe je de inzichten communiceert. Hoe leg je een arts uit dat je model functioneert, terwijl je geen p-waarde hebt, omdat je een Bayesiaans model gebruikt? Met andere woorden, denk aan de manier van communiceren aan de eindgebruiker of opdrachtgever als je technieken inzet welke moeilijk te interpreteren zijn.
Machine learning
De laatste sessie en presentatie was van Jan Veldsink en Mykola Pechinizkiy, over customer journeys. Ze presenteerden een case van de Rabobank wat Machine Learning modellen inzet om geautomatiseerd klantinzichten te genereren. Eén van de voorbeelden bevatte fraude detectie. Vooral in de financiële sector is het belangrijk om predictive analytics op een verantwoorde wijze in te zetten. Daarom hebben ze een werkwijze ontwikkeld wat gebaseerd is op een reeks aan waarden: rechtvaardigheid (bewust van discriminatie), verantwoording (nauwkeurigheid en garanties), vertrouwen (privacy en veiligheid) en transparantie (interpreteerbaarheid en waarheid). Zodoende ontwikkelen ze geavanceerde en verantwoorde predictive analytics, welke informatie blootlegt die verborgen zit in heterogene data. Terwijl het ook voldoet aan de eisen van wet- en regelgeving en tegemoet komt aan de belangen van de consumenten.
Voor mij was dit een interessant en inspirerend evenement, waarin ik veel nieuwe inzichten heb gekregen. Vanuit mijn perspectief als Medior Marketing Data Analyst bij Oxyma begrijp ik volkomen de uitdagingen zoals gepresenteerd in de verschillende cases. Ik ben vooral geïnspireerd om dit om te zetten in de opdrachten voor onze klanten en bij het ontwikkelen van nieuwe modellen en proposities in de wereld van CRM en marketing bij Oxyma, a Merkle company.