Aanbevolen bestandsformaten om je digitaal archief leesbaar te houden

Je digitaal archief is goed gebackupt. Of staat alles in de cloud? Prima, je hebt al je digitale bestanden nog. Krijg je ze nog open? Hopelijk is je affiche ook in een ander formaat te vinden dan in dat PageMaker-bestand uit 1994 waar geen software meer voor ter beschikking is. Je leest het goed, een digitaal archief bewaart zich niet vanzelf.

Het probleem van digitale obsoletie

Digitale obsoletie ontstaat wanneer een bestand zou oud is dat de software om het te openen niet meer beschikbaar is, tenzij je overgaat tot een (tijdsintensief) stukje digitale archeologie. Ook als de software nog bestaat, is de kans reëel dat recentere versies van de software de bestanden van oudere versies anders weergeven.

De duurzaamheid van software wordt bepaald door:

  • de mate van backward compatibility: hoe goed kan een nieuwe versie van de software bestanden van oudere versies nog lezen?
  • de complexiteit van de software: hoe complexer de software, hoe moeilijker het is om backward compatibility te garanderen.
  • de verspreiding ervan op de markt of de community: een grote markt zorgt ervoor dat er meer software is om bestanden te lezen.
  • de open documentatie ervan: als de broncode raadpleegbaar is, kunnen programmeurs software blijven ontwikkelen om het bestandsformaat te lezen. Door het gebruik van open bestandsformaten verklein je het risico dat je afhankelijk wordt van bepaalde technologieën of leveranciers.

Het bestandsformaat bepaalt op welke manier de informatie in een computerbestand gecodeerd is. Het wordt vaak aangegeven door middel van een extensie in de bestandsnaam. Een codec is een stuk soft- of hardware dat toelaat data te coderen en decoderen of te comprimeren en decomprimeren. Om een overzicht te krijgen van de bestandsformaten die aanwezig zijn in je digitaal archief kan je DROID gebruiken.

Andere bedreigingen

Voor beeld- en videobestanden kan er op termijn een probleem met compressie ontstaan. Zo worden foto’s massaal in JPEG opgeslagen terwijl dat formaat met een intensief compressiealgoritme werkt. Je ziet het niet meteen met het blote oog, maar het geeft wel problemen wanneer je de foto migreert naar een nieuw formaat. Dit doe je bv. wanneer je de foto importeert in een beeldverwerker als Photoshop.

Hou ook rekening met het probleem van bestanden die naar elkaar refereren. Een InDesign-bestand bevat bijvoorbeeld niet de afbeeldingen, maar verwijst naar de afbeeldingen die elders staan op je schijf. Wanneer de bestanden worden verplaatst, dan gaat de connectie verloren.

Hoe kies je het juiste bestandsformaat?

Een digitaal archief leesbaar houden is in essentie het continu migreren van oude bestanden naar de actuele bestandsformaten (wat we noemen: een "migratiestrategie"), of het nabootsen of emuleren van een oude computeromgeving op de actuele computeromgeving, zodat oude software nog kan draaien (wat we noemen: een "emulatiestrategie").

Beide strategieën zijn op termijn erg complex. De beste garantie om je digitaal archief leesbaar te houden is om van bij de creatie van een document voor een open en goed gedocumenteerd bestandsformaat te kiezen. Je kan ook op meerdere paarden wedden door bv. van complexe 3D-modellen ook afbeeldingen of pdf's te bewaren.

Hieronder vind je een overzicht van tips per bestandstype.

Tekstverwerkingsdocumenten

Voorbeelden: DOC, DOCX, ODT, TXT, RTF

Tekstverwerkingsdocumenten worden best opgeslagen in ODT, of, wanneer het document niet meer moet worden gewijzigd, in pdf. Vanuit Word is het tegenwoordig eenvoudig om bestanden op te slaan in ODT of PDF. Kies in dit laatste geval niet voor de "print-to-pdf"-functie. Deze is minder kwaliteitsvol dan de "publiceren-" of "exporteren-"functie. Kies ook steeds voor het archiveringsprofiel van pdf: PDF/A. Een dergelijk archiveringsprofiel kan in Word gekozen worden bij de instellingen voor pdf-opslag. Bestanden in de nieuwste versie van Word (DOCX-bestanden) opslaan in het originele formaat is geen ideale oplossing, al zijn de risico's momenteel erg laag.

ODT

ODT (Open Document Text) is de opensourcevariant van DOC en DOCX. Het is een open formaat voor opgemaakte tekst en krijgt daarom de voorkeur.

PDF

PDF-bestanden kunnen (op middellange termijn) gewoon in het PDF-formaat worden bewaard. Zorg ervoor, indien mogelijk, dat iedere pdf die wordt aangemaakt binnen het bureau wordt opgeslagen in een archiveringsprofiel van pdf (bij voorkeur PDF/A, of in geval van bouwtekeningen PDF/E)

Raster images

Voorbeelden: TIFF, JPEG, GIF, PNG, PSD, BMP

Een rasterafbeelding of bitmap is een afbeelding in digitale vorm, waarbij van elke pixel de kleur wordt vastgelegd. Het nadeel van een rasterafbeelding is dat bij het vergroten de afzonderlijke pixels zichtbaar zullen worden. Voor het bewerken van rasterafbeeldingen zijn er bitmapprogramma's. De tegenhanger van een rasterafbeelding is de vectorafbeelding.

Een voorbeeld van een rasterafbeelding is een opname met een digitale camera die het beeld opneemt met een beeldchip, die een raster van pixels bevat.

TIFF

Algemeen wordt TIFF aangeraden als duurzaam bewaarformaat voor raster images. Er wordt bij afbeeldingen best geen gebruik gemaakt van compressie. Gebruik van (lossy) compressie zorgt er immers voor kwaliteitsverlies bij bewerkingen van het beeld. Zorg er daarom voor dat foto's met artistieke waarde, gebruikt voor communicatie en presentatie, aangeleverd en opgeslagen worden in ongecomprimeerde TIFF.

Er zijn verschillende TIFF-profielen. Uncompressed baseline IBM TIFF v6.0 wordt als de meest duurzame beschouwd. Zorg ervoor dat er als kleurruimte gebruik gemaakt wordt van een RGB-profiel, als het kan AdobeRGB of ecirgb-v2. Ook Photoshopbestanden krijgen best een equivalent in TIFF, maar blijf het originele bestand met layer-informatie bewaren wanneer je dit nog verder wilt bewerken.

JPEG

Voor foto's die worden gemaakt ter documentatie van een voorstelling of publieksevent, is het geen probleem om JPEG te gebruiken. Gebruik geen exotische of obsolete formaten, zoals BMP (Bitmap).

PNG

PNG is een open beeldformaat dat gebruik maakt van lossless compressie (waarbij geen beeldinformatie verloren gaat). PNG wordt gebruikt voor online publicaties en presentaties in hoge kwaliteit of voor logo’s en grafieken.

2D Vector images

Voorbeelden: AI, SVG, EPS

Een vectorafbeelding is een grafische voorstelling die opgebouwd is uit eenvoudige meetkundige objecten, zoals punten, lijnen, krommen, polygonen e.d. Complexe vormen ontstaan door combinaties van deze basisvormen. De afbeelding wordt beschreven door de formules van de objecten. Daardoor laten vectorafbeeldingen zich tot elk gewenst formaat vergroten zonder dat er kwaliteitsverlies optreedt. Dit in tegenstelling tot een raster- of bitmapafbeelding, waarbij individuele pixels van het digitale canvas los worden ingekleurd. De resolutie voor de gekozen schaal ligt dan vast, als gevolg waarvan de afbeelding wazig of blokkerig wordt bij vergroting.

In de beschrijving van een vectorafbeelding kan bijvoorbeeld staan dat er een cirkel van een bepaalde kleur en grootte over een tekst heen moet worden getekend. Van zowel de tekst als de cirkel komt de absolute grootte niet vast te liggen, alleen de onderlinge verhouding. Vectorafbeeldingen kunnen dankzij deze flexibiliteit op willekeurige grootte afgebeeld worden terwijl de resolutie (de informatiedichtheid) gelijk blijft.

SVG

Algemeen wordt SVG aangeraden als duurzaam bestandsformaat voor vectoriële tekeningen. Zorg daarom steeds voor een SVG-equivalent van definitieve vector-images.

Tekstbestanden

Voorbeelden: TXT

Tekstbestanden kunnen gewoon als tekstbestand bewaard worden. Let op, tekst kan op verschillende manieren gecodeerd worden (bv. ANSI, ASCII en UTF-8). Probeer er in de mate van het mogelijke voor te zorgen dat tekstbestanden in UTF-8 worden gecodeerd.

Presentatiebestanden

Voorbeelden: PPT, PPTX

Deze bestanden kunnen op middellange termijn in hun oorspronkelijke formaat worden bewaard. Een duurzamer formaat is PDF, dus migreer voltooide presentaties naar dit formaat. PPT is ondertussen verouderd. Zorg er daarom voor dat PPT-bestanden ook een equivalent hebben in PPTX of pdf. Kies voor PDF/A.

Spreadsheets of rekenbladen

Voorbeelden: XLS, XLSX, ODS

Er is binnen de archiefgemeenschap geen sluitende oplossing voor spreadsheetbestanden. XLSX en ODS worden wel als voldoende duurzaam beschouwd. XLS is verouderd. Het verdient de aanbeveling om belangrijke XLS-spreadsheets in het archief te identificeren en een equivalent te creëren in ODS en XLSX.

Videobestanden

Voorbeelden: AVI, FLV, MOV, MPEG-1, MPEG-2, MPEG-4, SWF, WMV

Video's duurzaam bewaren is een taak van specialisten. Wanneer je echter video's bestelt, kan je van de leveranciers eisen dat ze hun video's aanleveren in duurzame formaten. MKV is in principe het meest duurzame formaat voor de opslag van video. Ook MXF, AVI en MOV zijn duurzame formaten. Bestandsformaten voor audio en video zijn slechts containers voor de video- en audiostreams. Het is ook belangrijk om te bepalen hoe video en audio dienen te worden geëncodeerd. Binnen de archief- en erfgoedsector wordt algemeen de FFV1-codering gekozen. Voor audiostreams wordt aangeraden deze te coderen in LPCM. Zorg ervoor dat zowel het bestandsformaat als de video- en audiostream niet zijn gecomprimeerd. Dit leidt vaak tot grote bestanden (voor FFV1: 45-50 GB per uur video!!), dus pas het vooral toe bij waardevolle video's, waarin veel geld geïnvesteerd is.

Voor minder belangrijke video's kunnen lagere kwaliteitsnormen in acht worden genomen. De videocodec’s h.262 en h.264 worden bijvoorbeeld veel gebruikt in het MP4-formaat. Een goed overzicht voor het duurzaam opslaan van videobestanden is na te lezen op SCART

Audiobestanden

Voorbeelden: AC3, AIFF, MP3, WAV, WMA

Belangrijke audiobestanden sla je het beste op in het WAV-formaat. Ook FLAC en AIFF gelden als duurzame formaten. Maak gebruik van LPCM voor de codering van het geluidssignaal. MP3 kan gebruikt worden als raadplegingsformaat of voor minder belangrijke audiobestanden, bv. wanneer je audiobestanden via je website wil ontsluiten.

Mailbestanden

Voorbeelden: PST, MBOX, MSG

Mails kunnen op verschillende manieren worden bewaard. Indien volledige mailboxen worden bewaard kan best worden geopteerd voor het MBOX-formaat. Het is echter aan te raden om belangrijke mails met hoge informatieve waarde voor het project ook apart op te slaan in het projectdossier. Hiervoor kan best het EML-formaat dienen. Sla bijlagen ook steeds apart op van de e-mail. Gmail beschikt over functies om e-mails te exporteren of op te slaan in EML en MBOX. Outlook maakt gebruik van applicatieafhankelijke formaten, zoals PST en MSG, die niet duurzaam zijn. Om Outlook-mailboxen op te slaan, kan daarom best gebruik worden gemaakt van een e-mailclient als Thunderbird (zie tool Hoe archiveer je e-mails?).

Websites

Websites zijn in wezen dynamische informatiegehelen, die voortdurend veranderen. Alle informatie capteren kan dan ook maar door op gezette tijdstippen snapshots te nemen van je website, ongeveer zoals the Internet Archive dat doet (archive.org). Let wel: het is niet voldoende om enkel te vertrouwen op the Internet Archive. De snapshots van deze dienst zijn zelden volledig. Bovendien is het relatief eenvoudig om deze zelf aan te maken. Een snapshot van een website is een "statische kopie" van alle HTML-pagina's waaruit de website bestaat, samen met alle afbeeldingen, style sheets enz. Het systeem waarop de website draait (vaak een content management systeem als Drupal of Wordpress) wordt in zo'n geval niet mee gearchiveerd. Het archiveringsformaat voor websites is WARC. In de tool Hoe archiveer je websites? vind je strategieën voor het opslaan van websites.

De mate waarin je websites effectief kunt archiveren, is vaak afhankelijk van de technologie die wordt gebruikt. Flash-code is bijvoorbeeld erg moeilijk om te archiveren. De mate waarin je website archiveerbaar is, kan gemeten worden op archiveready.com. Indien je nieuwe websites ontwikkelt, probeer er dan in de mate van het mogelijke voor te zorgen dat ze later eenvoudig archiveerbaar zijn.

Databases

Databases bestaan in verschillende vormen en functies. Een databank archiveren gaat er in essentie om dat de informatie in de database geëxporteerd wordt in een vorm, zodat deze in een nieuwe database kan worden geïmporteerd. Vaak gaat het om Excel-tabellen, CSV-bestanden of XML-bestanden, maar ook andere databestanden zijn mogelijk. Belangrijk is dat er goed gedocumenteerd wordt hoe de databank in elkaar zat. Dezelfde opmerking geldt hier als bij websites: bouw databases zo op, dat de informatie er gemakkelijk uitgehaald kan worden in vormen die eenvoudig in andere databanken kunnen worden geïmporteerd.

2D CAD

Voorbeelden: DWG, DXF, VWX, DGN

2D-CAD-bestanden kunnen het best worden opgeslagen in een formaat dat algemeen gebruikt en makkelijk te openen is. Voor CAD-tekeningen in 2D is dit meestal DWG of DXF. Voor architecten die geen gebruik maken van Autodesk-producten is het aangeraden om tekeningen met een uitgewisselde en gepubliceerde status in DWG of DXF op te slaan. Zorg dat bestanden die naar elkaar refereren (zoals xref's of plotstyle-bestanden) bij elkaar staan (via AutoCAD kan dit bv. worden gerealiseerd via de etransmit-functie). In veel gevallen worden tekeningen in 2D-CAD ook naar pdf omgezet. Blijf deze pdf’s behouden. Niet alleen hebben ze een juridische waarde, de duurzaamheid van PDF is momenteel veel groter dan die van enige CAD-bestand. PDF's worden op dit moment meestal via de plot- of printfunctie gecreëerd. Programma's als AutoCAD en Vectorworks voorzien echter in de mogelijkheid om tekeningen rechtstreeks te exporteren naar pdf. De pdf's kunnen in dat geval meer informatie bevatten, de kans op fouten bij pdf-creatie verkleint en het geeft ook meer controle aan de tekenaar over welke elementen nu precies in de tekening moeten komen. Kies voor PDF/A of PDF/E.

3D CAD

Voorbeelden: DWG, DXF, VWX, DGN, SKP, 3DM

CAD-bestanden kunnen het best worden opgeslagen in een formaat dat algemeen gebruikt en makkelijk te openen is. Voor CAD-tekeningen in 3D is een dergelijk formaat echter nauwelijks voorhanden. Bewaar 3D-modellen daarom in hun oorspronkelijke formaat, maar documenteer wel de software en de versie van de software waarmee het bestand is gemaakt en documenteer ook de system requirements ervan. Er zijn immers gevallen bekend waarbij een 3D-CAD-bestand anders wordt weergegeven na een versie-update van de software. Om technische 3D-modellen uit te wisselen en te publiceren werpt IFC zich steeds meer op als de industriestandaard. IFC is open gedocumenteerd en duurzaam, maar hou er rekening mee dat de vertaalslag van 3D-model naar IFC steeds een zeker verlies inhoudt.

3D modeling files

Voorbeelden: 3DS, VRML, X3D, U3D, BLEND

De variatie in 3D modeling files is te groot om algemene uitspraken te doen over hun preservatie. X3D en U3D zijn duurzame bestandsformaten, maar deze bestanden zijn niet geschikt als duurzaam formaat voor alle 3D-modellen. Bewaar daarom net als voor 3D-CAD de bestanden in hun oorspronkelijke formaat, met documentatie van de oorspronkelijke software. Vaak worden 3D-modellen gemaakt om andere documenten te produceren, zoals renders in 2D. Voor dergelijke documenten gelden dezelfde aanbevelingen als voor beeldbestanden. In sommige gevallen is een 3D-model geen bestand, maar een executable, zoals bij modellen in Unity. Documenteer in dat geval zeker de system requirements van de executable. Het is een goede optie om 3D-scènes te documenteren via snapshots of video's (bv. schermopnames).

Bladmuziek

De aangeraden formaten voor het bewaren van digitale bladmuziek zijn PDF/A, TIFF of MusicXML. Het formaat waar je voor kiest is afhankelijk van het beoogde gebruik.

PDF/A en TIFF zijn goede formaten voor het bewaren en lezen van documenten. Je behandelt deze net zoals je eender welk ander document in pdf of afbeelding in TIFF zou bewaren. MusicXML is een open formaat dat het mogelijk maakt om bladmuziek te noteren en te bewerken. Dit betekent dat je de informatie die achter de noten genoteerd staat, bewaart en eenvoudig kan aanpassen. Dit is wel minder handig voor het lezen en uitvoeren van muziek. In dat geval kan de partituur best worden opgeslagen naar PDF/A of TIFF.


Auteur: meemoo en VAi

TRACKS is een samenwerking tussen deze partners: