Websites archiveren: hoe en waarom?

De meeste organisaties hebben al een of meer websites versleten. Bij de overgang naar een nieuwe website stellen organisaties zich de vraag hoe ze de oude kunnen archiveren. Vaak bevat zo’n oude website interessante gegevens die niet meer relevant zijn voor de nieuwe, maar die wel een historische waarde hebben voor de organisatie. Wat is dan de eenvoudigste manier om die informatie te archiveren?

Waarom moet je jouw website archiveren?

Nog niet zo heel lang geleden bestonden websites enkel uit statische HTML-pagina’s. Dit zijn eenvoudige tekstpagina’s met een opmaak die de webbrowser kan omvormen tot een webpagina. Om deze websites te archiveren, volstond het om het mapje met de bestanden naar je eigen computer te kopiëren. Recente websites maken echter gebruik van een Content Management Systeem (CMS). Dit is een databank waarin de website-informatie wordt beheerd en waarin webpagina’s samengesteld worden op het ogenblik dat ze geopend worden. Dit maakt de website dynamisch, maar ook veel moeilijker om te archiveren.

In deze tool bespreken we hoe zo’n (dynamische) website op een eenvoudige manier digitaal gearchiveerd kan worden. De website zal opnieuw statisch gemaakt worden en offline opgeslagen worden in een vorm waarin ze op lange termijn bewaard kan worden. Net zoals bij e-mails is het digitale bij websites een essentiële eigenschap die bewaard moet worden. Zonder digitale bewaring zou je de "look & feel" en de ervaring om door de website te surfen missen.[1]

Hoe?

Analyseer je website

Maak eerst een analyse van je website. De keuze voor een archiveringsmethode is afhankelijk van het type, de inhoud en de elementen van je website.

Er bestaan grofweg drie types van websites:

  • statische websites met vaste inhoud;
  • dynamische websites waarbij de inhoud gehaald wordt uit het deep web[2]

een tussenvorm van die twee.

Statische websites bestaan uit een aantal aan elkaar gekoppelde pagina’s en zijn meestal in HTML opgemaakt. Er kunnen zich links met afbeeldingen of links naar andere websites in bevinden. Alle bestanden zijn in een hiërarchische mappenstructuur op de webserver gestockeerd.

Een dynamische website is een website die samengesteld wordt op het moment dat ze geopend wordt. Hierbij hebben de pagina’s zelf geen inhoud. Die worden gevuld met inhoud die zich in een achterliggende databank bevindt, zoals bij een CMS. Door middel van cookies wordt specifieke gebruikersinformatie op de computer van de gebruiker bewaard. Zo kan de browser de inhoud van een webpagina aanpassen aan de persoonlijke voorkeuren van de gebruiker. De meeste websites zijn een tussenvorm van statisch en dynamisch.[3]

Bekijk daarnaast uit welke inhoud en elementen je website bestaat. Bevat je website veel links naar andere websites? Maakt je website gebruik van externe diensten, zoals kaarten van Google Maps, filmpjes op YouTube of foto’s die op een online fotoservice staan? Zijn er geanimeerde of interactieve beelden en knoppen? Al deze elementen bepalen of het archiveren van websites complex is. Vaak zijn ze moeilijker te bewaren. Bepaalde functionaliteiten kan je verliezen, zoals het afspelen van Flash-animaties[4] of elementen waarvoor plug-ins[5] geïnstalleerd moeten worden. Interactieve elementen kunnen in gearchiveerde websites niet meer werken, net zoals bestanden die van een andere website opgehaald worden.

De mate waarin je website archiveerbaar is, kan gemeten worden op archiveready.com. Indien je nieuwe websites ontwikkelt, probeer er dan in de mate van het mogelijke voor te zorgen dat ze later eenvoudig archiveerbaar zijn.

Leg doelstellingen vast

Daarnaast is het belangrijk om een aantal duidelijke doelstellingen te formuleren voor je een archiveringsmethode kiest. Die keuze houdt namelijk een aantal overwegingen in. Een eerste betreft wat van de website vastgelegd moet worden bij archivering: de volledige website, inclusief de externe webpagina’s waarnaar je website verwijst, of enkel het domein van je eigen website? Een tweede overweging betreft de frequentie waarmee de onderdelen gearchiveerd moeten worden.[6]

Het vastleggen van webpagina’s houdt een aantal uitdagingen in die voortvloeien uit hun speciale karakter. Websites hebben een erg vluchtig karakter omdat ze regelmatig geactualiseerd en aangepast worden. Bovendien is de presentatie van een webpagina op het scherm afhankelijk van de interactie met de gebruiker (o.a. webbrowser, persoonlijke instellingen en voorkeuren). Webpagina’s zijn tevens sterk met elkaar verweven: ze zijn aan elkaar gekoppeld, worden soms op meerdere servers gehost of halen informatie uit externe services of websites op.[7]

Je zal dus moeten bepalen wanneer je je website gaat archiveren en hoe je de te archiveren website afbakent. Ga je enkel de website capteren als hij offline gehaald wordt, jaarlijks, of bij iedere update? Wordt enkel de website van je eigen domein of ook alle pagina’s waarnaar verwezen wordt gearchiveerd? Bij het archiveren van websites zal je moeten accepteren dat er steeds leemten zullen zijn.

Bewaar de essentiële kenmerken van je website

Door de vluchtigheid van het medium en de personalisatie bij webpagina’s is authenticiteit een moeilijk begrip bij het archiveren van websites. Toch kunnen een aantal essentiële eigenschappen gedefinieerd worden[8]:

  • Context: dit zijn gegevens die aanduiden wat de relatie van de website tot de archiefvormer is. Je kan dit o.m. bewaren door beschrijvende metadata over je website vast te leggen.
  • De inhoud waaruit je website bestaat: tekst, foto’s, video’s, kaarten, etc. Sommige elementen, zoals informatie die van externe diensten opgehaald worden (bv. YouTube, Google Maps en Flickr), zijn moeilijk te archiveren. Documenteer daarom de externe diensten die je website gebruikt.
  • Structuur: dit geeft de relatie weer tussen de website en zijn onderdelen. De meeste websites hebben een sitemap[9] die de structuur van de website toont. Je kan deze eigenschap bewaren door de originele structuur van je website (d.i. de originele structuur van de webpagina’s van je website op de webserver) te bewaren en de relaties tussen de verschillende webpagina’s te behouden.
  • Look & feel: bij een website is niet enkel de inhoud, structuur en context belangrijk, maar ook de "look & feel" is een essentieel component die bewaard moet worden. Documenteer daarom steeds de technische omgeving waarin je website gemaakt is: bv. de CMS-software die je gebruikt, de plug-ins die je website nodig heeft om bepaalde componenten weer te geven en de serverconfiguratie. Registreer ook de periode waarin je website online was. Dit geeft een beeld van de gebruikte HTML-versie, de software en de versies van browsers waarin de website getoond kan worden. Op basis van deze informatie kan een reconstructie van de website gemaakt worden.
  • Websites kunnen ook specifiek gedrag en functionaliteiten hebben, zoals animaties, interactieve elementen en hyperlinks. Daarvoor registreer je ook de technische omgeving van je website. Functionaliteiten kan je verliezen bij het kiezen van een bepaalde archiveringsmethode.

Essentiële kenmerken worden bewaard zodat een getrouwe reconstructie van de website mogelijk is en de website binnen zijn context gearchiveerd wordt. Op de website van eDAVID kan je een document vinden met een lijst van alle metadata die bewaard dienen te worden. Sla dit document op als een gestructureerd tekstbestand (bv. als XML-, CSV- of Excel-bestand) en bewaar dit samen met de gearchiveerde website in het digitale archief. Hou ook alle bijkomende documentatie over je website bij. Dit kan van pas komen indien emulatie in de toekomst nodig zou zijn.

Door te documenteren welke plug-ins de website gebruikt kan je de website met bv. emulatie reconstrueren en vermijd je dat bepaalde elementen niet meer geopend kunnen worden. Archiveer een website steeds voor je hem offline haalt en van de webserver verwijdert. Dit geeft je de mogelijkheid om na het archiveren kwaliteitscontrole uit te voeren en te controleren of alle essentiële eigenschappen bewaard zijn.


Bewaar de website duurzaam

Voor de preservering van websites gelden de algemene regels met betrekking tot duurzame bewaring. Zorg steeds dat je goede back-upprocedures gebruikt en dat je van je bestanden verschillende back-ups hebt die op verschillende (geografische) locaties bewaard worden. Bewaak de integriteit van je gearchiveerde website door checksums te gebruiken en de bestanden periodiek te controleren.

Een uitdaging voor de langetermijnbewaring van websites zijn de grote hoeveelheid aan bestandsformaten die op websites geplaatst kunnen worden. Het is complex om deze te migreren naar duurzame bestandsformaten omdat de relatie tussen webpagina en bestand op deze manier verbroken kan worden. Onderzoek wijst echter uit dat websites hoofdzakelijk gestandaardiseerde formaten gebruiken, zoals HTML, JPEG en MP3, waardoor dit probleem te relativeren valt.

Een oplossing voor deze uitdaging is om websites te archiveren in het WARC-formaat[10]. Dit is een standaardformaat om verschillende digitale bronnen met metadata in één archiefbestand op te slaan. In deze tool kan je een eenvoudige en iets complexere, maar minder tijdsintensieve, methode vinden om websites te archiveren in het WARC-formaat.[11]

Archiveringsmethodes

In dit deel worden drie archiveringsmethodes besproken:

Elke methode heeft haar gebreken. Je kan daarom een aantal methodes combineren om ieder aspect van je website te bewaren.


Auteur: Nastasia Vanderperren (meemoo) m.m.v. Joris Janssens

  1. F. Boudrez, Archiveren van websites: een kwestie van waardering en ‘capture’, p. 5.
  2. Het deep web is het deel van het web dat niet toegankelijk is voor zoekmachines, zoals databanken die afgeschermd worden door middel van wachtwoorden. De databank achter een CMS-systeem is een onderdeel van het deep web. Zie: https://nl.wikipedia.org/wiki/Deep_web.
  3. Boudrez, Archiveren van websites: een kwestie van waardering en ‘capture’, p. 7.
  4. Flash is software van Adobe en werd o.m. gebruikt om animaties, webvideo’s en webapplicaties te maken en websites aan te kleden. Je hebt een Flash Player plug-in nodig op je webbrowser om deze bestanden af te spelen. Zie: https://nl.wikipedia.org/wiki/Adobe_Flash.
  5. Een plug-in of invoegtoepassing is een uitbreiding van een computerprogramma. In een webbrowser wordt het gebruikt om speciale informatie op een website te kunnen laten zien, zoals flash-animaties.
  6. Boudrez, Archiveren van websites: een kwestie van waardering en ‘capture’, p. 5.
  7. Boudrez, Archiveren van websites: een kwestie van waardering en ‘capture’, p. 7.
  8. Boudrez, Archiveren van websites: een kwestie van waardering en ‘capture’, p.7.
  9. Een sitemap, soms siteplan, is een pagina of document waarin links naar alle pagina's van een website staan. Dit is een handig hulpmiddel voor bezoekers en zoekmachines om bepaalde pagina's te vinden op een site. Zie: https://nl.wikipedia.org/wiki/Sitemap.
  10. Voor meer info, zie Wikipedia
  11. M. Pennock, Web-archiving, p.15-16

TRACKS is een samenwerking tussen deze partners: