Andrew Lehren

Track record: Onderzocht voor The New York Times de Wikileaks-cables. Droeg bij aan Pulitzer Prize-winnende serie over foute Chinese chemicaliën in westerse medicijnen. Schreef onderzoeksverhalen over bedrog bij de New Yorkse marathon.

DOOR HENK VAN ESS

“Wij journalisten zijn vóór alles verhalenvertellers,” zegt Andrew Lehren. Of het nu gaat om mooie anekdotes vinden of om het tonen van the bigger picture: als journalisten geen data gebruikten konden ze geen patronen laten zien, geen overzicht tonen. Dat neemt allemaal niet weg dat data een gereedschap zijn, en dat je die op het juiste moment moet gebruiken. “Er zijn veel geweldige verhalen die je kunt vertellen zonder data. Maar wanneer je ze wel gebruikt en je ziet mogelijkheden, vraag je dan af: hoe gebruik ik mijn bronnen op de meest zinvolle manier? Dat vraagt creatief denken van ons: het creatieve denken dat iedere journalist doet. Wat valt je op, wat is opmerkelijk? Voor datajournalistiek moet je je nieuwsgierigheid en volharding inzetten.”

De data kunnen je behoorlijk van je doel afleiden, weet Lehren. “Je kunt soms zo gericht zijn op de techniek dat je het journalistieke belang uit het oog verliest. Terwijl dat is wat je als journalist to the table brengt: wij vinden de feiten in data die mensen anders niet zouden kennen, wij vinden de mooie anekdotes, het grotere verband. Wees zorgvuldig, stel veel vragen, zoek de verhalen die we zonder data niet zouden kunnen vertellen.

In een onderzoek naar fraude bij de New Yorkse marathon  (zie onze video hieronder) ontdekte Lehren dat er waarden ontbraken in de dataset die hij van de marathonorganisatie had gekregen.  Er waren marathonlopers die op sommige plekken in de marathon niet gesignaleerd waren. Dat kon twee oorzaken hebben. Eén: de mat waar ze overheen liepen had de chip in hun schoenen niet geregistreerd. Een computerfout. Maar bij sommige mensen was op meerdere plekken in de race de chip niet gesignaleerd, terwijl hun finish wél geregistreerd was. Lehren: “Bij het bedrijf dat de chipregistratie regelt, zeiden ze: als iemand vijf matten mist, maar wel de finish haalt, vinden we het verdacht.”

 Lehren wilde weten wat er aan de hand was. Een minder voor de hand liggende dataset hielp hem verder. “Marathonlopers worden gefotografeerd. Je kunt online je rennersnummer invoeren en foto’s zien van jezelf op verschillende punten in de race. Fotografen staan daar permanent foto’s te maken. Met andere woorden: als iemands chip geen verbinding maakte met de matten, zouden er wel gewoon foto’s van hem gemaakt moeten zijn.” Veel van de renners die op meerdere plekken ‘onzichtbaar’ waren in de dataset van de organisatie, maar wel gefinisht waren, bleken ook niet gefotografeerd te zijn.

 Een dataset is volgens Andrew Lehren goed vergelijkbaar met een persoon die je interviewt. “Bijna iedere bron heeft blind spots. Hij of zij weet sommige dingen uit de eerste hand, maar andere dingen weet hij niet. Misschien waagt hij een gok op basis van wat hij uit de tweede hand weet, misschien zegt hij eerlijk dat hij het niet weet. Zo is het ook met datasets: ze weten sommige dingen heel goed, andere dingen niet zo goed.” Het is dus zaak de set eerst goed te testen. Hoe compleet zijn de kolommen? Zijn alle namen ingevuld? Lehren onderscheidt twee soorten checks: controle van interne en externe validiteit. Interne validiteit is: is alles ingevuld? Wat externe validiteit is, legt hij uit aan de hand van zijn serie artikelen over de marathon in New York. “Het leek alsof alle marathons in de dataset stonden, maar was dat ook echt zo? Dat controleerde ik aan de hand van andere bronnen. Ik nam nieuwsberichten door, belde de organisatie van de marathon en vroeg of de aantallen van de renners klopten. Waren er inderdaad 45.628 renners geweest, hoeveel waren er gestart, hoeveel waren er geëindigd? Ik vroeg ze: hebben jullie op de een of andere manier mensen buiten de lijst gehouden, waarvan ik niet weet dat ze ontbreken?” 

 Een ander voorbeeld van ontbrekende waarden in data. Terwijl hij moorden in de Verenigde Staten onderzocht, viel Andrew Lehren iets op. In de database die hij bekeek was een veld waarin stond aangegeven of een slachtoffer was gedood met een politiewapen. Volgens de database was dat geen enkele keer voorgekomen. Lehren: “Natuurlijk wisten we dat dat niet kon kloppen. Als je zoiets ziet, ga je vragen stellen. In dit geval belden we de FBI en zeiden: er ontbreken data, die willen we hebben.”  

Lehren pleit voor voorzichtigheid bij het trekken van conclusies uit data. ‘Je wilt altijd voorzichtig zijn bij het presenteren van absolute waarheden. Je bent een journalist die licht op een onderwerp schijnt: kijk, dit zijn de tientallen valsspelers bij de marathon die ik vond, dit zijn de bedrijven die volgens mijn gegevens ongereguleerde chemicaliën verkopen. Je beschrijft een wereld, maar die wereld is misschien niet de volledige wereld. Je moet altijd zorgen dat de lezer dat weet.’

Datajournalistiek kost tijd en geld, weet Lehren. Maar laat niemand zich daardoor weerhouden: er zijn ook een heleboel verhalen waar je niet veel tijd voor nodig hebt en die zich goed lenen voor verloren momenten tussendoor. “Als je een paar vrije halfuurtjes hebt, bekijk je eens wat overheidsgegevens, je vraagt een database van subsidiegegevens aan. Natuurlijk, er ligt veel druk op ons journalisten. We moeten stukken maken to feed the beast, we moeten publiceren. Maar je hebt genoeg momenten waarop je toch al nadenkt over nieuwe verhalen, die kun je goed gebruiken om iets uit te zoeken.”
Journalistieke houding

Lehren begon als journalist bij kleine regionale kranten. ‘Ik zie mezelf nog steeds als een verslaggever die vecht om de verhalen te vinden die niet verteld worden. Vasthoudendheid en graven leer je bij een kleine krant.’ Wat niet betekent dat hij bij de New York Times niet meer hoeft te graven, benadrukt hij. ‘Mensen hebben soms het idee dat we bij de Times alle goede verhalen toegespeeld krijgen. Dat is niet waar.’
Over de Wikileaks cables: ‘Toen we het materiaal bekeken werd ons duidelijk dat het van belang was voor het Amerikaanse volk. Onze taak was uit te vinden wat mensen echt moesten weten.’
Tegen wettelijke en ethische vraagstukken loopt hij naar eigen zeggen doorlopend aan. Heiligt het doel de middelen? ‘Ik stel mezelf steeds weer bepaalde vragen. Wat is het publieke belang van dit verhaal, en: biedt deze manier van werken me de mogelijkheid aandacht te besteden aan iets dat anders nooit door het publiek begrepen zou kunnen worden?’

Een van de visualisaties waar Andrew Lehren het meest trots op is, is die over de dood van Amerikaanse soldaten in Afghanistan en Irak. Lehren bouwde met collega’s een database bestaand uit data over de dood van deze soldaten, op basis van data die verkregen was met dank aan de Amerikaanse wet FOIA (freedom of information act). Uit de data kon afgeleid worden wie er onder vijandige omstandigheden overleed en wie niet, maar ook of een soldaat overleed door een IED (geïmproviseerd explosief). Door datavisualisaties te maken konden de journalisten uitvinden op welk moment, in beide oorlogen, voor het eerst de meerderheid van de Amerikaanse soldaten die overleden, stierf door IEDs.

Een andere visualisatie die Andrew Lehren erg sterk vond gaat over de Olympische Spelen. “In 2004 hoorde ik van een meneer die skiede voor Spanje genaamd Johann Mühlegg. Ik was nieuwsgierig hoe iemand met zo’n naam voor Spanje kan uitkomen.” Het bleek dat Mühlegg eerst in Duitsland had geskied maar toen besloot van land te veranderen. Lehren: “Blijkbaar is het mogelijk om voor een ander land dan je eigen geboorteland te sporten en er zijn een heleboel atleten die dat doen.” Lehren maakte een visualisatie die de betekenis van die bevinding toont: de visualisatie laat zien dat de US zonder atleten uit andere landen nooit op de tweede plaats zou zijn geëindigd: de deelname van zoveel buitenlandse atleten heeft invloed op de resultaten.” 

De visualisaties van de New York Times worden door de grafische afdeling gemaakt, al dan niet in overleg met de journalisten. Andrew Lehren is bij visualisaties die bij zijn verhalen gemaakt worden vaak wel betrokken, maar doorgaans alleen door mee te denken. Het is vaak een groepsproces. Een van de sterkste en meest interactieve visualisaties waar Lehren bij betrokken was, is die van moorden in New York City. Deze visualisatie kwam tot stand door een samenwerking tussen de grafische afdeling, de ‘news interactive’ afdeling en enkele experts in gebruiksfunctionaliteiten. Zelf droeg Lehren vooral bij door mee te denken over wat de visualisatie moest kunnen.

Voor eigen gebruik maakt Lehren zelf regelmatig visualisaties, vaak al aan het begin van de voorbereidingen voor een artikel of productie. Het brengt namelijk vaak informatie boven die hij nog niet gezien had. In een documentaire die hij voor zender NBC maakte over racial profiling verdiepte hij zich in het beleid van de politie om zwarte Amerikanen aan te houden. De politie hield vaak African Americans aan om ze vervolgens een bon te geven voor ‘non-moving violations’: geen gordel dragen, geen rijbewijs bij zich dragen. “Bonnen voor non-moving violations gaan bijna altijd naar zwarte mensen.” Het werd een belangrijk verhaal toen bekend werd dat een jonge zwarte man in Cincinnati herhaaldelijk werd aangehouden zonder aanwijsbare reden. “Om te kunnen verdedigen dat ze hem aanhielden, gaven ze hem steeds een bon voor dergelijke kleine overtredingen.” De man werd later neergeschoten en overleed na weer zo’n aanhouding.

Uit het onderzoek van Lehren en zijn collega’s bleek dat de politie in veel verschillende steden op deze manier aan racial profiling deed. Lehren maakte kaarten en diagrammen van de data die hij vond. “Die visualisaties waren cruciaal voor het stellen van de juiste vragen en voor het maken van het verhaal.”

 

Moet je erg techy zijn om data te visualiseren? De meeste journalisten zijn geen sterren in programmeren. In hun geval is het nuttig om bevriend te raken met iemand die dat wel is. Maar ook voor de niet zo techy verslaggever is er veel te leren. Andrew Lehren: “Er zijn een heleboel congressen waar je de laatste tools kunt leren gebruiken. Ik ga nog regelmatig naar training seminars. Zo blijft het een uitdaging, er is zo veel te leren. Ook in Nederland zijn er steeds meer trainingen voor journalisten, zoals bij de VVOJ"

 Soms is de neiging van nieuwsorganisaties om data gauw online te gooien groot. Zonde, zegt Lehren, want vaak ontneem je de lezer daarmee veel mogelijkheden. “Ik heb meerdere keren databases van auto-ongelukken online gezien. Vaak kun je daarin wel een lijst ongelukken zien, en misschien kun je aangeven in welke periode je geïnteresseerd bent, maar je kunt geen patronen zien. Je kunt niet vinden op welke plaatsen de meeste ongelukken plaatsvinden of op welke plaatsen vaak een specifiek soort ongeval plaatsvindt.” Natuurlijk is het mooi om data met je lezers te delen, zegt Lehren, “maar als ik zulke dingen zie vraag ik me soms af waarom we de moeite nog nemen. Als je mensen niet écht iets kan vertellen, vind ik het de moeite niet waard.”

 

DE TOOLS VAN LEHREN:

 Lehren gebruikt voor zijn werk Excel en Google spreadsheets. “Google Spreadsheets is handig om te delen met andere verslaggevers, zeker als zij ook goed zijn met spreadsheets.” Google Spreadsheets heeft een aantal functionaliteiten die Excel mist, maar dat geldt andersom ook. Excel heeft bijvoorbeeld een vrij verkrijgbare toevoeging, Node Excel, die handig is voor de analyse van social networks. Voor het managen van databases gebruikt hij Sequel server, My Sequel, Even Access en Fox Pro. Kaarten maken doet hij vooral in Arc Map, statistisch werk in SPSS en soms in R. Lehren: “Maar die programma’s veranderen steeds, dus ik zou zeggen: hecht niet teveel aan het programma, het gaat om de tool.” 

Lehren on data journalism (Skype interview)

Investigation marathon cheaters (Skype interview)

Investigating chinese chemicals (Skype interview)

Ga nu zelf aan de slag met het materiaal van Andy Lehren

Je hebt nodig:

  1. Een spreadheatprogramma zoals Excel (PC/Mac), Numbers (Mac) of Open Office (PC/MAC)
  2. Het bestand marathon2.csv (om sorteren te leren) en marathonbig.zip (voor data analyse)

Een dataset is volgens Andrew Lehren goed vergelijkbaar met een persoon die je interviewt. “Bijna elke bron heeft blinde vlekken, ook een database"

Meer van Andrew Lehren in Handboek datajournalistiek.

Laat wat van je horen

*