Het WK Voetbaldata

Maar goed dat de rekenmodellen er niks van bakten. Fraaie datavisualisaties gaven Nederland weinig kans en voorzagen op z’n best een gelijkspel tegen Spanje, maar de onwaarschijnlijke 5-1 overwinning door Oranje geeft zonneklaar de beperkte houdbaarheid aan van zulke voorspellingen.

The New York Times: Spain was asking for trouble against The Netherlands

Toch worden zulke kansberekeningen gretig opgepikt, al hebben ze met datajournalistiek weinig te maken. Een groot sportevenement is voer voor visualisaties en andere data-uitspattingen, dat is van alle tijden. 32 landen treden in Brazilië aan voor een toernooi van 64 wedstrijden. Dat levert een hele berg data op. Alleen al de wedstrijd tussen Spanje en Nederland inspireerde tot verschillende visualisaties, zoals bij The New York Times: Spain was asking for trouble against The Netherlands. Het ziet er fraai uit. Maar wat zegt zo’n analyse-visualisatie nou eigenlijk? De visualisatie van het Spaanse balcontact in de eerste helft ziet er vooral druk uit; bovendien vielen de meeste Nederlandse doelpunten nou uitgerekend in de tweede helft. Wat geldt voor veel WK-visualisaties: ze vormen een aardige illustratie vanaf de zijlijn, maar verschaffen zelden een nieuw inzicht.

Robben zou 37 km/u hebben geklokt, aldus de NOS. Volgens de FIFA-stats is zijn topsnelheid 31 km/u

Eén van de statistiekjes uit de wedstrijd roept juist vragen op. Arjen Robben zou in het sprintduel met de Spaanse verdediger Ramos – op weg naar de 5-1 – maar liefst 37 km/u hebben gerend. Daarmee zou hij zijn eigen oude record van 30 km/u hebben verpulverd. Bewijs voor de waarneming is een animatie die bij de NOS is te zien, waarin de sprint over 8,5 meter wordt geklokt . Uit het cijferoverzicht van de FIFA blijkt die topsnelheid van 37 km/u niet: daarin staat dat Robben 64 keer gesprint heeft en een topsnelheid van 31 km/u noteerde. Nog snel, en snel genoeg gelukkig. Verschillen in meet- of rekenmethodes in ogenschouw genomen, geeft één van beide een vertekend beeld.

Google publiceert zoektrends rond het WK

Dat de FIFA wedstrijd- en spelersdata vrijgeeft, valt te prijzen. Maar de manier waarop niet. Onder het kopje Match Facts staan de statistieken verzameld in een serie losse pdf-bestanden, een gruwel voor data-analisten. In de pdf-bestanden zitten tabellen opgesloten, die je weer kunt bevrijden en naar Excel omzetten met bijvoorbeeld Cometdocs. Zie bijvoorbeeld dit voorbeeld van een testje dat Medialab uitvoerde met de tracking stats van het Nederlands elftal: pdf-origineel en omgezet naar xls.

Maar waarom moet het zo ingewikkeld worden gemaakt? Tijdens de Olympische Spelen in London vroeg The Guardian aan het IOC of uitslagen vrijgegeven zouden worden in een open data-formaat. Het antwoord dat de redactie kreeg: “Can you please clarify what you mean by “open data”? Zelfs basale informatie als informatie over de deelnemers zat verpakt in een website die bewust moeilijk te scrapen viel. The Guardian vroeg de organisatie om de gegevens, maar kreeg ze niet. De redactie moest het maar handmatig van de site kopiëren en plakken, aldus het IOC, en dat deed ze vervolgens. Er zijn particuliere initiatieven om WK-data toegankelijk te maken. Maar er valt nog een wereld te winnen.

Meer lezen:

New York Times: The beautiful data set

Data-analyse Spanje-Nederland bij The Huffington Post

Google publiceert zoek- en surfgedrag rond het WK

Historische data op Github

Data geschiedenis WK-toernooien

La Nación: La Selección Nacional emociona a Costa Rica con triunfo

Laat wat van je horen

*