De uitdagingen van data projecten

‘Het werken met data is niet een puur technisch vraagstuk’

Vrijwel elke grote tot middelgrote organisatie ziet data tegenwoordig als een asset; een bedrijfsmiddel met enorm economisch potentieel. Veel organisaties investeren daarom in de mensen en middelen om data science toe te kunnen passen.

Toch lijkt het alsof deze investeringen, bijvoorbeeld in de vorm van een ‘datalab’, vaker niet dan wel renderen. Sterker nog, de meeste data science projecten komen niet verder dan het stadium van een proof of concept. Slechts een klein percentage van de data-producten leveren ‘actionable-insights’ op, worden daadwerkelijk gebruikt of halen überhaupt de eindstreep. Met als gevolg teleurstelling op meerdere fronten: de business ziet investeringen die niet renderen en het data-science team raakt gedemotiveerd door producten die niet gebruikt worden.

Men is dan geneigd meer tijd energie te stoppen in het tweaken van het bestaande product. Echter, onderliggend wordt onvoldoende ingezien dat de succesvolle inzet van data binnen je organisatie grotendeels een niet-technisch vraagstuk is. Datagedreven werken vergt aanpassing van de organisatiecultuur, sponsorschap en het juist beleggen van rollen en verantwoordelijkheden binnen je organisatie. Weet je ook aan deze knoppen te draaien, dan zul je zien dat data de beloftes echt waar kan maken.

Daarnaast vind ik dat het tijd is voor een veel realistischere houding ten opzichte van de beloftes van data en data-science. Grote beloftes en buzzwords doen het werkveld eerder kwaad dan goed. Voordat we verder gaan is het goed om kort stil te staan bij de complexiteit van het werken met data.

"Aan de basis van succesvol datagedreven werken ligt een zeer nauwe samenwerking tussen business en techniek".
Hette Cornelisse
Consultant data & AI Next Ground

Waarom slagen data projecten vaker niet dan wel?
Allereerst zit dit in het aard van het beestje; veel data-projecten zijn exploratief. Hierbij is op voorhand niet duidelijk welk inzicht geproduceerd kan worden en wordt er logischerwijs nog niet goed nagedacht over de praktische toepassing van deze inzichten. Men noemt het dan ook niet voor niets data science. Een gemiddeld data-science project is relatief onvoorspelbaar; je kunt van een machine-learning model bijvoorbeeld niet zeggen dat het voor 50% klaar is. Dit is een cruciaal onderscheid ten opzichte van software-ontwikkeling.

Essentieel voor een geslaagd data-project is ook, niet geheel verrassend, de aanwezigheid van voldoende kwalitatief goede data. Logisch, zonder goede data begin je niets. Het project komt in dit geval niet van de grond of toont resultaten waar de eindgebruiker niet op durft te vertrouwen.

De grootste uitdagingen in het datagedreven werken zijn in mijn ogen vaak de niet-technische uitdagingen. Aan de basis van het datagedreven werken staat namelijk een zeer nauwe samenwerking tussen business en techniek. Veel organisaties maken hierin fouten die het werken met data onnodig moeilijk maken. Ik zet een paar veel voorkomende valkuilen op een rij:

#1 Het data-team opereert solistisch of ‘hangt onder IT’

Veel organisaties zien het werken met data met name als een technische aangelegenheid. Begrijpelijk, want veel van de initiële investeringen voor het werken met data zijn technisch van aard. Denk bijvoorbeeld aan inrichten een state-of-the art analyse omgeving (Azure, AWS) of licenties op datavisualisatie-software (Tableau, PowerBI). Vervolgens moet het pas opgerichte data-team ergens in de organisatie worden ondergebracht. Er wordt dan dikwijls gekozen om het team binnen de staande IT-organisatie onder te brengen. Vaak omdat de initiële sponsor of de meest data-savvy personen zich hier bevinden. Een valse start?
Door data onder te brengen bij IT zal het team onherroepelijk op afstand van de business opereren. Het wordt voor de schaarse data scientists op die manier ontzettend lastig voldoende domeinkennis op te doen of een netwerk binnen de organisatie op te bouwen. Dit is cruciaal voor het vinden van goede use cases. Bovendien ligt het initiatief voor het werken met data dan vrijwel altijd bij het data-team (zie ook punt drie). Met het onderbrengen van het data-team bij IT is de kans op communicatieproblemen groot. Een team op afstand, met te weinig kennis van business, spreekt niet dezelfde taal als de business waarin het opereert. Overkomelijk, maar dit kost tijd.

Tenslotte zie ik een risico dat het data science team geassocieerd zal worden met de IT-afdeling van je organisatie: het favoriete gespreksonderwerp bij menig koffie-automaat. Dit maakt het voor het team erg lastig om de organisatie in te gaan. Het team moet omgaan met vooroordelen en zal daarnaast door de organisatie vooral gevraagd worden voor automatisering. Met andere woorden; het team staat al met 1-0 achter.

Advies:
Verweef data-science zoveel mogelijk met de business van je organisatie. Bijvoorbeeld door data-science competenties zoveel mogelijk decentraal binnen de organisatie te beleggen. Kies je er als organisatie voor om data-science te toch te centraliseren, zorg er dan voor dat binnen het team domeinkennis beschikbaar is. Bijvoorbeeld door per afdeling verschillende personen aan te wijzen met affiniteit voor het werken met data en deze te koppelen aan de specialisten uit je data-team. Door multidisciplinaire teams op te richten zal het een stuk eenvoudiger worden om data effectief in te zetten voor je business uitdagingen en ambities.

"Een team op afstand spreekt niet dezelfde taal als de business waarin het opereert."

#2 Het ontbreken van een visie & strategie: ‘start with why’

Vaak leeft er enorm enthousiasme voor het werken met data. Men ziet de potentie en vindt het belangrijk dat er binnen de organisatie ‘minder vanuit de onderbuik’ wordt geredeneerd. Een nobel streven maar helaas te vaag. Idealiter is de visie voor je data-team hetzelfde of op zijn minst een afgeleide van de bedrijfsstrategie. Hoe gaat data onze doelen helpen verwezenlijken?

Is het doel om als bedrijf de beste dienstverlening tegen de laagste prijs in de markt te zetten; dan zou het data-team zich kunnen richten op het verhogen van efficiëntie en optimaliseren van de interne bedrijfsvoering. Het is nog beter om heel concreet te weten welk inzicht jouw organisatie écht verder gaat helpen. Wat weet je nu nog niet en welk proces zou veel efficiënter kunnen? Met andere woorden; welke informatiebehoefte leeft er binnen je organisatie en waarom? Te vaak wordt met data-analyse dan wel data science gestart, met slechts een grote belofte als drijfveer. Zonder een heldere visie en afgebakende doelen kan je investering nooit renderen.

Advies: Start met een heldere informatiebehoefte in plaats van met een middel (data science). Het klinkt heel simpel maar het lijkt alsof hier vaak aan voorbij wordt gegaan.

"Met alleen een hamer ben je geneigd ieder probleem als spijker te zien".
Abraham Maslow

#3 Data-science als oplossing voor alle businessproblemen

Bij een ondoordachte investering in data science zul je zien dat elk business probleem als een data science probleem gezien wordt. Dit terwijl complexe data science vaak helemaal geen juiste, dan wel proportionele oplossing kan bieden voor het vraagstuk. Je bent ongetwijfeld bekend met de volgende uitspraak van Abraham Maslow: ‘met alleen een hamer ben je geneigd ieder probleem als spijker te zien’.

Vaak genoeg heb ik gezien dat er werd gewerkt aan complexe modellen voor haast irrelevante business problemen. Er wordt gespeurd naar use cases waarop data science toegepast kan worden, dit terwijl organisaties een heel andere informatiebehoefte hebben.

Advies: Bezint eer ge begint. Data science is enorm boeiend, maar heb je het wel nodig? “We moeten iets met Artificial Intelligence” hoor je vaak in organisaties. In de meeste gevallen is een dergelijke oplossing niet proportioneel of realistisch en het de investering niet waard. Begin dus altijd bij een concrete informatiebehoefte en ga dan pas op zoek naar een passende technische oplossing.

"Redeneer altijd vanuit het einddoel, je oplossing zal vanzelf pragmatischer & doelmatiger van worden".

#4 Blindstaren op datakwaliteit

Tuurlijk, data moet van goede kwaliteit zijn. Garbage in, garbage out. Maar de eisen die aan datakwaliteit gesteld worden, dienen in verhouding te zijn aan het beoogd gebruik hiervan. Vraag je een leek naar data kwaliteitseisen dan is de kans groot dat hij/zij vindt dat informatie 100% moet kloppen. Ga je dit nastreven dan kom je onherroepelijk uit op een pakket maatregelen waar je jarenlang mee zoet bent en die je mogelijk van alle vrijheid beroven.

Is datakwaliteit een issue binnen je organisatie en wil je deze verhogen, kijk dan naar het uiteindelijke doel dat je hebt. Een klassieke Business Intelligence rapportage over financiën of personeelszaken vraagt een andere aanpak dan wanneer je op basis van een tekstanalyse een globale indruk wil hebben van de vragen die klanten stellen. Twee heel verschillende vragen met andere kwaliteitseisen. Dit inzicht raakt overigens ook aan de verschillende takken van sport binnen het werkveld dat we data noemen; BI t.o.v. data science.

Advies: Wanneer datakwaliteit een issue is binnen jouw organisatie streef dan niet altijd naar een 10+, het risico dat je verzandt in energie-slurpende data kwaliteitsprogramma’s is groot. Redeneer altijd vanuit het einddoel, je oplossing zal vanzelf pragmatischer & doelmatiger van worden. Deze houding stelt je organisatie ook in staat sneller te innoveren met data. Laat de informatiebehoefte van de business leidend zijn bij het opstellen van kwaliteitseisen en ga niet altijd voor data die vanuit techniek 100% klopt.

Conclusie
Natuurlijk zijn er veel meer valkuilen te bedenken, maar de bovenstaande selectie laat zien dat het werken met data lang niet altijd een technisch vraagstuk is. De uitdagingen liggen vaak juist niet in de techniek. Deel je mijn observaties of zie je juist hele andere uitdagingen? Ik ben benieuwd naar jouw mening, suggesties en jouw ervaringen met het bovenstaande.

Hette Cornelisse
December 2022

Meer weten over dit opiniestuk?

Hette Cornelisse is consultant bij Next Ground en heeft als product owner veel ervaring opgedaan op het vlak van datagedreven werken & data science. Hij heeft enkele jaren gewerkt als Product Owner bij het Ministerie van Buitenlandse zaken en was werkzaam op verschillende plekken binnen de Rijksoverheid. Sinds oktober 2022 versterkt hij Next Ground op het vlak van Data & AI. Dit artikel schreef hij op persoonlijke titel en op basis eigen ervaring en na consultatie van opdrachtgevers van Next Ground.