Filmsubsidies – deel 2: scraper maken

Welke regisseurs kregen de afgelopen jaren de grootste financiële steun van het Nederlandse Filmfonds? Aan welke films werden de hoogste bedragen toegekend? En welke producenten sleepten de meeste subsidies in de wacht? Vragen die met data zijn te beantwoorden. Zoals de online database van het Nederlandse Filmfonds. Maar je moet er nog wel even mee aan de slag. Deel 2: de scraper maken.

Ga in Outwit Hub naar Scrapers en open een resultatenpagina om de broncode te bekijken. De informatie per toewijzing staat in blokjes alsvolgt in de html-code:

<tr >
<td class=”selectable”>World Cinema Amsterdam 2014</td>
<td class=”selectable”>Stichting Amsterdams Filmhuis</td>
<td class=”selectable”></td>
<td class=”selectable”></td>
<td>Filmactiviteiten</td>
<td>Festival</td>
<td>15.000</td>
<td>31-3-2014</td>
</tr>
<tr >
<td class=”selectable”>Carnotstraat 17</td>
<td class=”selectable”>Memphis Film & Television V.O.F.</td>
<td class=”selectable”>Klara van Es</td>
<td class=”selectable”>Klara van Es</td>
<td>Documentaire</td>
<td>Minoritaire coproductie i.s.m. VAF</td>
<td>50.000</td>
<td>28-3-2014</td>
</tr>

Normaal gesproken geef je in Outwit per veld (per kolom in de database) aan welke unieke marker voor en achter de data staan. In dit geval zijn er geen unieke markers te geven voor een veld, maar wel voor een ‘blokje’ met gegevens: voor alle velden die bij één film horen.

De marker before is: <tr >
<td class=”selectable”>

De marker after: </tr>

Nu zou alles in één veld terecht komen, maar gelukkig heeft Outwit een handige extra optie: de separator, iets om de data te scheiden. In dit geval blijkt </td> te volstaan. Even een test en ja, elke film komt in een eigen rij en alle gegevens per film komen keurig in aparte kolommen terecht. Precies zoals we het willen hebben.

Een voorbeeld van de scrape-resultaten in Outwit Hub

Open de scrapelijst met urls in Outwit en ga links in het menu naar Tables. Selecteer de hele lijst met urls via control-a (of command-a op een Apple) en kies (via de rechter muisknop) voor Fast Scrape, en vervolgens de scraper die je hebt gemaakt.

Resultaten in Outwit Hub

Je krijgt standaard een melding of je de scrape-instellingen wilt aanpassen. Dat kan de moeite waard zijn. Soms is het vriendelijk voor de server om een paar seconden in te lassen tussen elke te scrapen url, of een kwestie van eigenbelang: sommige servers gooien je eruit als er te veel verzoeken in een te korte tijd worden afgevuurd. Maar dat is lang niet altijd nodig en als je duizenden urls te scrapen hebt en het een heel tijdrovende klus zou worden, moet je even spelen met de instellingen om een goede balans te vinden.

Volgende: 3-draaitabellen
Vorige: 1-aan de slag

Laat wat van je horen

*