Titel: Follow the data
Datum: 18 april 2015
Trainer: Dimitri Tokmetzis, De Correspondent
Verslag: Job van der Meer
Dimitri Tokmetzis werkt bij De Correspondent en maakt vooral verhalen door het verzamelen en analyseren van data. Hij maakte zich de datajournalistiek, het werken met Excel en programmeren, zelf eigen.
Tokmetzis is ooit als regiojournalist begonnen bij het Utrechts Nieuwsblad en heeft onder andere gewerkt bij NRC Handelsblad. Bij de Correspondent krijgt hij meer tijd om onderzoek te doen en een verhaal te maken.
Over zijn Utrechtse tijd, en dus aan alle lokale en regionale journalisten, zegt hij:
‘Als je iemand een weekje kan vrijmaken voor een onderzoek is dat mooi. Het levert namelijk ook veel op aan verhalen.’
Maar ook nu bij de Correspondent moet je keuzes maken wat je wel en wat je niet onderzoekt, zegt hij.
Waarom datajournalistiek? Data zijn een extra (en zeer grote) bron voor ons als journalist. Er zijn ook veel meer data dan we weten.
Tokmetzis noemt vijf soorten datajournalistiek
- Tellen en turven (meer of minder dan = nieuws)
- Dataporno (prachtige visualisaties die vooral laten zien wat met data te doen is, zoals snowfall, veel kosten maar vaak niet veel meer dan vooral mooi zijn)
- Data driven journalism (wat Tokmetzis doet. Data verzamelen, analyseren en daar een verhaal uit halen)
- Forensisch werk
- Techniek als medium
Tokmetzis gaat daarna vooral in op data driven journalism
Hij ziet vier fases in die vorm van datajournalistiek:
- Data vinden
- Data gebruiken. (Omdat verschillende organisaties hun data verschillend ordenen moet je data vaak schoonmaken voordat je ze kunt combineren en gebruiken)
- Visualiseren van data
- Analyseren van data
Voor deze verschillende fases zijn verschillende computerprogramma’s die helpen om automatisch grote aantallen data te verwerken.
Data vinden en verzamelen
Data vind je in e-mails, rapporten, excelsheets, jaarverslagen. Handig zoeken met Google is al een begin om die te vinden, maar ook databanken als KvK, Kadaster en archieven zijn een optie.
Er zijn programma’s om data uit documenten te halen. Ze herkennen namen, getallen.
– http://www.opencalais.com/
– https://www.documentcloud.org
Uit deze data zijn weer gemene delers te vinden. Namen die in die documenten veel voorkomen, verbindingen tussen getallen, enz.
Met die verzamelde en geordende data is verder te zoeken. Zo kan bijvoorbeeld op naam gezocht worden in www.opencorporates.org, de database waar gegevens zijn te vinden van veel Kamer van Koophandels over heel de wereld.
Data halen uit een website waar veel data achter zit is te doen met een scraper. Dat vraagt wat programmeerwerk. Met een programma als www.outwit.com kan dat.
Tokmetzis geeft het voorbeeld van een onderzoek naar de pornowereld waar hij van 13.000 websites de eigenaren heeft opgezocht op www.whois.org.
Dat is handmatig niet te doen. Scrapen is geautomatiseerd data binnenhalen. Vergelijkbaar werk voor zo’n scraper is het ophalen van data uit bijvoorbeeld Funda, als je wilt weten wat de huizenmarkt en huizenprijzen doen, of bijvoorbeeld uit Marktplaats als je uit wilt zoeken wat er nu eigenlijk in je regio wordt aangeboden.
Wie twitterverkeer wil verzamelen kan vooruit met het programma DMI-tcat: https://github.com/digitalmethodsinitiative/dmi-tcat
Data visualiseren
Eenmaal de data verzameld ga je visualiseren. Dat kan bijvoorbeeld netwerken opleveren waarmee je kunt zien welke relatie de data tot elkaar hebben. Daarvoor zijn programma’s als Gephi http://gephi.github.io/ handig. Dit helpt je om de gegevens te analyseren en vanuit die gegevens aan je journalistieke verhaal te gaan werken.
Tokmetzis geeft voorbeelden van eigen onderzoek naar wie er nu eigenlijk de grootste verdiener is aan de pornowereld (verzamelde en analyseerde gegevens 13.000 pornowebsites.
Hij kwam tot 100 vooral Canadese bedrijven en één groot bedrijf dat een kwart van de markt heeft). Ook ontdekte hij wat er met je data gebeurt als je een vlucht boekt naar Los Angeles. Eveneens kwam hij erachter wie er de spelers waren in een Twitterruzie die bij de rechtbank eindigde vanwege laster (hij stopte 1.2 miljoen tweets in een database om te analyseren).
En toen hij een week iemands metadata volgde zag hij al snel dat dit een schat aan gegevens oplevert over die persoon. Hij achterhaalde zelfs e-mailadressen en op internet gelekte wachtwoorden voor een aantal social media.
Het levert hem ook wel eens kritiek op, vertelt Tokmetzis. Zijn manier van verzamelen of de manier waarop een onderzoek is opgezet. Daarover zegt hij dat hij veel samenwerkt met academici om te checken of hij de gevonden gegevens goed analyseert.
Wat Tokmetzis dan ook benadrukt is, dat je met je data alleen nog geen verhaal hebt. Het is het begin van je journalisteke werk waarbij je het verhaal gaat maken achter je cijfers. Daarvoor moet je weer op onderzoek, mensen spreken, checken. Het mooie van je geanalyseerde data is dat je feiten kunt neerleggen.
Wie meer wil lezen over deze materie raadt Tokmetzis het boek ‘Linked’aan, van Albert Laszlo Barabasi.