Filmsubsidies – deel 1: aan de slag

Welke regisseurs kregen de afgelopen jaren de grootste financiële steun van het Nederlandse Filmfonds? Aan welke films werden de hoogste bedragen toegekend? En welke producenten sleepten de meeste subsidies in de wacht? Vragen die met data zijn te beantwoorden. Zoals de online database van het Nederlandse Filmfonds. Maar je moet er nog wel even mee aan de slag. Maar je moet er nog wel even mee aan de slag.

Om te beginnen: dit is een oefening. Er zijn andere – en misschien betere of snellere – manieren om de financiële verantwoording van het Filmfonds in te zien. Bijvoorbeeld via het jaarverslag, al is het meeste recente exemplaar alweer van 2012, en dus even geleden. De database van toewijzingen is beter bijgewerkt en loopt van januari 2011 tot dit jaar. Bovendien is het jaarverslag een online doorbladerbare pdf, die wel te downloaden is maar dan moet je inloggen op ISUU. En pdf’s zijn een onbruikbaar bestandformaat om gegevens te sorteren of te fileren, tenzij je de gegevens weet om te zetten naar bijvoorbeeld Excel. Ook daar is gereedschap voor, maar dat levert vaak rommelige bestanden op.

Het overzicht van toegewezen bijdragen op de site van het Filmfonds

Het online overzicht op www.filmfonds.nl bevat 1.563 records records, toekenningen, verdeeld over 79 pagina’s. Die gaan we scrapen met Outwit Hub.

De scrapelijst maken

Te scrapen urls opzoeken
1. Ga naar http://www.filmfonds.nl/toegewezen
2 Onderaan zie je paginanummering. Open de 2e pagina in nieuw venster voor de precieze url. Die verschijnt in de adresbalk van de browser en luidt:

http://www.filmfonds.nl/toegewezen?page=2&order=datum&sort_type=desc&highlight=1

Alleen het eerste deel van de url is relevant

http://www.filmfonds.nl/toegewezen?page=2

De rest zijn extra parameters die we niet nodig hebben.

Testen: http://www.filmfonds.nl/toegewezen?page=2 werkt

3. Hoeveel pagina’s zijn er?
Ga onderaan naar Laatste pagina. Je komt uit op pagina 79, 1.563 treffers in totaal, en 20 per pagina.

4. Open Excel (of Google Spreadsheet).
Je hebt drie kolommen nodig
De eerste bevat steeds: http://www.filmfonds.nl/toegewezen?page=
De tweede bevat het paginanummer, dus 1, 2, 3, etc, tot en met 79
De derde bevat een formule waarmee je de eerste en tweede kolom aan elkaar plakt. Die formule luidt:

=A1&””&B1

(NB: De formule is te simpel begrijpen: A1 en B1 zijn uiteraard de cellen. Wat er tussen de dubbele aanhalingstekens staat, komt ook tussen de twee waarden in de samenvoeging te staan. In dit geval staat er niets tussen (zelfs geen spatie), en dus wordt de inhoud van de twee cellen tegen elkaar aan geplakt.
Zou je drie cellen aan elkaar moeten plakken, dan luidt de formule: =A1&””&B1&””&C1)

Als de urls zijn samengevoegd, kopieer je die kolom en plak je hem in een lege kolom ernaast als waarden (Plakken Speciaal) om de formule eruit te halen. Die kolom met waarden kopieer je naar een leeg werkblad en dat sla je op als html-bestand. Dit is de lijst met urls om te scrapen.

Volgende: 2-een scraper maken


De belangrijkste elementen worden ook geïllustreerd in bovenstaande Medialab-video.

Laat wat van je horen

*