Archiveren van de website en sociale media van Studio ORKA

Theatergezelschap Studio ORKA droeg hun archief over aan het Letterenhuis naar aanleiding van de stopzetting van hun werking. Het archief omvat onder andere een website en verschillende socialemedia-accounts.

Probleemstelling

Studio ORKA wilde bij de overdracht van hun archief garanderen dat alle informatie over hun theaterstukken, samen met het visuele materiaal, bewaard zou blijven. Deze informatie bevond zich op hun website. Daarnaast drukten ze de wens uit om hun sociale media accounts over te dragen.

Methode en resultaten

Website

Aangezien de website uitgebreide beschrijvingen van de voorstellingen bevatte, besloot de archivaris om met dit materiaal te beginnen. Aanvankelijk werd een poging ondernomen om het proces te automatiseren met behulp van een webcrawler-applicatie, om de gehele website te scannen en op te slaan. Dit gebeurde met Heritrix, een veelzijdige webcrawler die vaak wordt gebruikt voor dergelijke taken. Voor deze specifieke toepassing, waarbij het cruciaal was dat elke link correct werd vastgelegd, bleek deze optie problematisch: sommige links werden opgeslagen, terwijl andere ontbraken of niet correct werkten. Dit maakte de resultaten onbetrouwbaar en onvolledig. Daarom werd afgestapt van Heritrix en geopteerd voor Archive WebPage, waarbij handmatig alle links op de website van Studio ORKA werden doorlopen om de volledige website op te slaan in zowel het WARC- als WACZ-formaat (Web ARChive).

Het WARC-formaat slaat niet alleen de HTML-pagina’s op, maar ook alle bijbehorende bestanden zoals afbeeldingen, video's en scripts, zodat de website later volledig interactief blijft. Het WACZ-formaat is een gecomprimeerde (zipped) versie met extra metadata, waardoor de gearchiveerde website eenvoudiger te openen is en dynamische content, zoals video's en formulieren, correct wordt bewaard.



Deze WACZ bestanden kunnen op verschillende manieren bekeken worden. Online zijn er diverse tools beschikbaar om WARC/WACZ-bestanden te raadplegen. ReplayWeb.page bleek de beste keuze, aangezien de bijbehorende tool werd gebruikt om de website te archiveren. Daarnaast biedt de tool de mogelijkheid om gearchiveerde websites lokaal te openen en te verkennen. Dit is een eenvoudig proces: je laadt de WARC/WACZ-bestanden in Archive WebPage, klikt op de links die je wilt bekijken, en de website verschijnt met alle functionele knoppen intact. Meer info hierover kan je vinden via de handleiding van Archive WebPage.




Sociale media

Naast de website werden de Facebook- en Instagramaccount van Studio ORKA gearchiveerd. META, het moederbedrijf van beiden, biedt ingebouwde opties waarmee gebruikers hun accounts kunnen archiveren en alle data op een gebruiksvriendelijke manier kunnen exporteren.

Op Facebook/Instagram werd via de privacy-instellingen van het account van Studio ORKA de data aangevraagd en gedownload. De gedownloade data omvat alle posts/berichten die Studio ORKA ooit heeft geplaatst, geliked of gedeeld, aangevuld met andere activiteiten van het account die META zelf vastlegt. Er werd in het geval van Studio ORKA gekozen voor een volledige archivering. Daarnaast is er een optie om zelf te kiezen wat je wil archiveren en wat niet.



Bij het downloaden van de data is er de mogelijkheid om het gewenste outputformaat kiezen: JSON-formaat of HTML-formaat. De overzichtelijkste optie was HTML, wat een quasi-representatie van de websiteversie van Facebook/Instagram van Studio ORKA opleverde. Deze representatie is geen exacte kopie qua design, maar de content is wel 1:1.



De data werd ook gedownload in het JSON-formaat, wat de betere optie is als je data wil analyseren of gegevens wil importeren in andere systemen. Hier staat tegenover dat de weergave minder overzichtelijk is.



Auteur: Ghaith Al-Ani (Letterenhuis)

Deel dit artikel:            

TRACKS is een samenwerking tussen deze partners: