Titel: Data Bootcamp voor gevorderden
Datum: 06 november 2014
Tijd: 11:00-18:00
Spreker: David Donald
Aantal aanwezigen: 8
Verslag: Emilie De Clerck
David Donald, data editor bij Investigative Reporting Workshop, probeert in dit bootcamp de aanwezigen wegwijs te maken in de beginselen van SQL. Die afkorting staat voor Structured Query Language, de taal waarin computers communiceren met hun server. Alle data waarmee je aan de slag gaat, bevindt zich in een database (een verzameling van één of meer tabellen) op die server.
Via SQL kan een datajournalist een vraag (ook wel query genoemd) stellen aan de server over de database. ‘Een database is eigenlijk niets meer dan een bron en afhankelijk van hoe goed je query is, krijg je goede of slechte resultaten en vind je een journalistiek verhaal’, vertelt Donald.
De eerste database die Donald onderzoekt, is er eentje over waterdammen in de Amerikaanse staat Ohio. Via een query vraagt hij welke dammen gelabeld staan als “high hazard” dammen.
De eerste belangrijke les van de dag: je kan er niet zomaar van uitgaan dat ‘high hazard’ ‘bouwvallig’ of ‘in slechte staat’ betekent. ‘Je weet niet wat high hazard kan betekenen en je mag ook niet zomaar uitgaan van dingen.
Dus wie bel je dan? ‘A dam inspector’, grapt Donald in zijn Amerikaans dialect, pun intended. Die inspecteur leert je dat ‘high’ slaat op de grootte van de groep mensen die getroffen zouden worden als de dam zou doorbreken.
Het gaat over de impact, en niet de waarschijnlijkheid, wat initieel gedacht werd. In deze fase vind je dus (nog) geen journalistiek verhaal. Data vertllen geen verhaal op zich, je moet een ‘data dictionary’ hebben, of contact leggen met iemand die je kan uitleggen wat de velden in de data beteken.
De query wordt aangevuld met nieuwe code, zodat alleen de dammen die al vijf jaar niet gecontroleerd werden, te zien zijn. Verder is het ook interessant om de oudere dammen te onderzoeken, gezien deze vermoedelijk in slechtere staat zijn.
Als resultaat krijgen we verschillende dammen van meer dan vijftig jaar oud, die minstens vijf jaar geleden voor het laatst gecontroleerd werden. Op dit punt kan je die oudste dammen gaan bezoeken met de ‘dam inspector’ en creëer je je journalistiek verhaal.
Bij de tweede database legt Donald uit hoe je gegevens van twee verschillende tabellen samen kunt doorpluizen.
De database van dienst bestaat deze keer dus uit twee tabellen: eentje waarin staat hoeveel geld bepaalde Amerikanen uit Tennessee doneerden aan senatoren, en een tweede tabel met gegevens van die senatoren, zoals de partij waartoe ze behoren.
Deze tweede tabel is noodzakelijk om de eerste nuttig te kunnen gebruiken, want in de eerste tabel, waarin de bedragen van de donaties staan, worden niet de echte namen van de senatoren gebruikt, maar slechts hun ID-nummers.
Wanneer je de twee tabellen bij elkaar brengt op basis van de ID-nummers, zie je als resultaat perfect wie hoeveel geld kreeg van wie. Nu kun je opnieuw verder gaan zoeken: je kan de totale donaties per kandidaat opzoeken, je kan kijken welke inwoner aan welke kandidaat uitzonderlijk veel geld doneert of je kan donaties per partij optellen.
Je kan nog veel meer dingen doen met SQL: je kan bijvoorbeeld uit twee tabellen zelf een nieuwe tabel maken of tabellen die niet ontworpen zijn om samen te gebruiken, toch samen onderzoeken.
Er zijn ook nog tal van mogelijkheden die Donald David niet heeft uitgelegd omwille van tijdsgebrek. David, die zichzelf als autodidact SQL heeft aangeleerd, heeft dan ook nog één laatste raad voor wie zijn nieuwe vaardigheden niet wil verliezen: morgen opnieuw starten met oefenen. ‘You get online, you research, you learn.’