Verslag UJ2012: datajournalistiek: veel gegevens, snel verhaal

Kenniscentrum

Titel: Datajournalistiek: veel gegevens, snel verhaal
Docent: Heinze Havinga
Datum: 12 mei 2012, 15.15-16.15 uur

Tekst: Guusje Tromp

Freelance programmeur Heinze Havinga is een van de initiatiefnemers van het project Regiohack, een initiatief van De Twentsche Courant Tubantia, De Stentor en Saxion Hogescholen. Met behulp van data proberen programmeurs, internetkenners en studenten inzichten te geven en feiten boven tafel te krijgen. En deze ook nog eens journalistiek aantrekkelijk te presenteren.

Datajournalistiek heeft, mede door het televisieprogramma Nederland van boven, en de inzet van datajournalistiek bij Nu.nl en RTL Nieuws een populariteitsboost gekregen. Hoewel datajournalistiek zelf niets nieuws is, zijn de technieken om te verzamelen en visualiseren wel in vogelvlucht gekomen. Veel redacties hebben dan ook het gevoel er ‘iets mee te moeten doen’.

Maar voordat ze die mooie datajournalistieke scoop kunnen brengen, moeten flink wat stappen gezet worden, zo blijkt uit de presentatie van Heinze. Eigenlijk is een uurtje dan ook veel te kort om de geheimen van de datajournalistiek uit de doeken te doen. Toch doet Heinze een dappere poging aan de hand van een voorbeeld over de verhouding tussen het aantal leerlingen en leraren in het basisonderwijs.

Allereerst zocht Heinze naar data over het onderwijs. De dataset ‘leerlingen naar gewicht’ vond hij op data.duo.nl, net als de sets ‘Onderwijspersoneel in FTE’ en ‘hoofdvestigingen van basisscholen in Nederland.’

De datasets heeft Heinze opgeschoond met het programma Refine. Zo heeft hij bijvoorbeeld de niet-lesgevende personeelsleden gefilterd. In Excel werden de gegevens vervolgens gecombineerd en in Google Fusion Tables samengevoegd met het adressenbestand.

Nu de gegevens opgeschoond en gecombineerd zijn, kan de visualisatie gemaakt worden. Heinze gebruikt hiervoor de toolbox Tableau. Dankzij het gebruik van de visualisatie ‘scatterplot’ blijkt dat er een duidelijke trend is tussen de verhouding FTE’s en leerlingen.

Hoewel het een prachtige visualisatie is geworden, geeft Heinze ons nog wel wat tips mee. Zo zal er altijd een verschil zijn tussen de data en de werkelijkheid, en zeggen data op zichzelf niet zoveel. Pas wanneer je iemand uitleg of interpretatie kunt laten geven bij de data, heb je het verhaal.

Verder geeft Heinze de aanwezige journalisten de tip om dataprojecten samen te doen met programmeurs en statistici, om op tijd fouten in de data te ontdekken en weg te filteren.
Wie de presentatie met alle datajournalistieke tools van Heinze Havinga nog eens terug wil lezen, kan kijken op de website www.regiohack.nl.