Capteren van data van 3,5-inch diskettes van House for Electronics Arts (HeK)
In mei 2018 kreeg PACKED vzw van HeK (House for Electronic Arts)[1] de vraag om data te capteren van 3,5-inch diskettes. Het ging om de digitale kunstwerken Raoul A. Pictor cherche son style (1993)[2] van Hervé Graumann en Über Sehen (1993)[3] van Studer / Van den berg. In totaal waren dit negen high density diskettes waarvan sommige voor Mac en andere voor Windows gemaakt waren. HeK beschikte niet over de juiste leesapparatuur om de data te capteren. PACKED vzw werkte een workflow uit om de data van de diskettes te halen. Diskettes zijn fragiele dragers. Als de dragers te beschadigd zijn, is de kans reëel dat de leesapparatuur de dragers niet meer kan lezen en de kunstwerken verloren gaan.
Inhoud
Probleemstelling
Diskettes zijn gegevensdragers met een capaciteit van 80 kB (de eerste generatie) tot 2,88 MB (de laatste generatie) waarop door middel van magnetisme gegevens worden opgeslagen. Ze waren alomtegenwoordig in de jaren tachtig tot de opkomst van de cd-r en USB-stick eind jaren negentig/begin jaren 2000.
Diskettes bestaan in verschillende soorten en varianten die niet compatibel zijn. Vele types vereisen een eigen leestoestel, waarmee andere types diskettes niet kunnen worden beschreven of gelezen.[4] Diskettes kunnen verschillen in o.m.:
- grootte: de eerste diskettes, uitgevonden in de late jaren zestig door IBM, hadden een diameter van 8 inch. Voor de homecomputermarkt werd er midden jaren zeventig de 5,25-inch diskette op de markt gebracht. Vanaf 1988 werd de 3,5-inch diskette het meest populaire medium voor dataopslag. Daarnaast bestonden ook nog diskettes van 2, 2,5, 3, 3,25 en 4 inch, maar die zijn nooit volledig doorgebroken.
- het aantal tracks en sectoren: gegevens worden op diskettes geordend in tracks en sectoren. Tracks zijn concentrische ringen rond het centrum van de diskette waartussen ruimte gelaten wordt. In die ruimte wordt niet geschreven. Sectoren zijn blokken die bestaan uit een constante grootte (uitgedrukt in bytes) en die elk een identificatienummer krijgen zodat het besturingssysteem de gegevens op de diskette kan terugvinden. Diskettes kunnen verschillen in het aantal tracks per kant[5], het aantal tracks per sector, het aantal tracks per inch en het aantal bytes per track.
- het aantal beschrijfbare kanten: er bestaan single-sided (één kant) en double-sided (beide kanten) diskettes. Een diskettelezer die enkelzijdige diskettes kan lezen, kan niet noodzakelijk dubbelzijdige diskettes lezen en omgekeerd.
- densiteit: dit gaat over de efficiëntie waarmee data op een magnetische drager opgeslagen kan worden. Hoe hoger de densiteit, hoe meer data op een diskette bewaard kan worden. Een grotere densiteit werd verkregen door o.a. verbeteringen aan de codering voor de opslag van data, de magnetische kracht waarmee data weggeschreven kan worden en het gebruikte materiaal. Er bestaan single density (SD of 1D), double density (DD of 2D), quad density (QD of 4D), high density (HD), extra-high density (ED) en triple density (TD) diskettes.
- logisch formaat: het logisch formaat is het schema dat bepaalt hoe de data weggeschreven wordt op de drager. De meest voorkomende formaten zijn FM (voor single density diskettes die DOS geformatteerd zijn), MFM (voor double density diskettes die DOS geformatteerd zijn en high density diskettes) en GCR, dat bestaat in een Applevariant en een Commodorevariant. Daarnaast heb je ook nog aparte formaten voor o.a. Atari en Amiga.
Het gevolg van al die verschillen is dat bijvoorbeeld een 3,5-inch diskettestation niet iedere 3,5-inch diskette kan lezen.
De vele varianten maken het een uitdaging om data van diskettes te capteren. De diskettelezers met een USB-aansluiting die je tegenwoordig nog kan aankopen, zijn meestal enkel in staat om high density diskettes van 1.44MB te lezen. Dat was namelijk het meest populaire formaat vanaf midden jaren negentig. Bovendien zijn diskettes fragiele dragers. Ze zijn gevoelig voor stof, condensatie en temperatuurschommelingen. Ze mogen ook niet in de buurt van magneten of magnetische apparaten worden bewaard. Beschadiging kan ze onleesbaar maken en het afhalen van de data bemoeilijken of zelfs onmogelijk maken.
Status
De inhoud van de negen 3,5-inch diskettes werd gecapteerd. De bestanden werden van de disk image gehaald, geïdentificeerd en op een hedendaagse gegevensdrager bewaard.
Methode
Om de data te capteren, beslisten we om disk images te maken. Disk images zijn bit-voor-bitkopieën van de diskettes. Niet enkel de bestanden op de drager worden ermee bewaard, maar ook alle systeeminformatie. Op die manier wordt de informatie op de drager zo compleet mogelijk gekopieerd en blijft de kopie zo dicht mogelijk bij het origineel. Daarna kun je de bestanden van de disk image halen en ze identificeren. Disk images kunnen gemaakt worden met software die checksumcontrole doet op de bron (de inhoud van de originele disk) en de disk image (de kopie van de originele disk).[6] Dat verzekert je dat er geen fouten gebeurd zijn bij het maken van de disk image, en dat de disk image een identieke kopie is van het origineel.
De gekopieerde dragers werden opgenomen in een rekenblad met de volgende kolommen:
- UI (unieke identifier): voor aanmaak van de unieke identifier vertrokken we van de code die de instelling aan het kunstwerk gegeven had. Daaraan voegden we vervolgens voor iedere drager een doorlopende nummering van drie cijfers toe die startte bij 1 (001). Bijvoorbeeld de unieke identifier 2008_199_001 verwijst naar de eerste drager die behandeld werd van het kunstwerk met nummer 2008/199.
- Instelling: de naam van het museum, m.n. HeK.
- Dragertype: het type van de diskette. Bij HeK waren dit 3,5-inch DS HD diskettes[7].
- Dragerformaat: het logische formaat van de diskette. In het geval van de high density diskettes van HeK was dit formaat MFM.
- Informatie op de drager: alle informatie op het label op de diskette.
- Functioneel? Als de disk image geopend en de bestanden eraf gehaald konden worden, dan werd de diskette als functioneel beschouwd.
- Foutloos gekopieerd? Dit veld duidt aan of er een disk image gemaakt kon worden zonder dat de diskimagesoftware aangaf dat er fouten waren tijdens het lezen van de drager.
- MD5 checksum: van iedere disk image werd een MD5-checksum gemaakt. Deze checksums wordt gebruikt om de integriteit van het bestand te controleren.
- Notities: in deze kolom werd relevante informatie over de drager opgenomen, bv. het was een lege diskette, niet alle bestanden konden van de diskette gehaald worden of de foutmeldingen die we kregen wanneer we de disk image wilden openen.
Om te vermijden dat onze computer bestanden zou wegschrijven op de externe dragers, maakten we gebruik van write blockers. 3,5-inch diskettes beschikken over een write blocker op de drager die de diskette alleen-lezen maakt. Dit is de schuifknop in de linkerbenedenhoek. Daarnaast maakten we ook gebruik van een hardwarematige write blocker. Dit is apparatuur die vermijdt dat een computer gegevens kan schrijven op de aangesloten drager.
Disk images maken
Bij het testen van een leestoestel met USB-aansluiting stelden we vast dat deze de 3,5-inch high density diskettes van HeK kon lezen. We gebruikten de software Guymager[8] om van de diskettes een disk image te maken. Guymager is open source software die gebruikt wordt om bij forensisch onderzoek disk images van bewijsmateriaal te maken. Bij forensisch onderzoek is het belangrijk dat de data ongewijzigd gecapteerd wordt, en met Guymager kan dit. Guymager beschikt over verschillende functies om te controleren of het kopiëren ongewijzigd gebeurd is. Ook bij digitale preservering is het belangrijk dat gegevens ongewijzigd bewaard worden. Een ander voordeel aan Guymager is dat er automatisch metadata van het captatieproces gecreëerd en weggeschreven wordt in een tekstbestand, zoals o.m. de checksums van zowel de drager als de disk image.
De software wordt zo ingesteld dat er een MD5-checksum gecreëerd wordt en dat de MD5-checksum van de disk image en de originele drager vergeleken wordt om te verzekeren dat de disk image en de drager identiek zijn. We kozen Linux dd raw image als bestandsformaat omdat dit een open formaat is dat door alle besturingssystemen ondersteund wordt. Expert Witness Format is een propriëtair formaat en kan slechts met een beperkt aantal toepassingen geopend worden.
Op deze manier konden we van de negen diskettes een identieke kopie maken.
Bestanden van disk images exporteren
Een disk image is geen bestand dat je zomaar kan openen om gegevens te raadplegen. Het verschilt van het kopiëren van bestanden van één locatie omdat in een disk image niet enkel de bestanden van de drager, maar ook alle systeeminformatie bewaard wordt. Een disk image is voor een computer dan ook gelijk aan een externe schijf of drager die ingelezen moet worden. Om de bestanden en de mappen van een disk image te lezen of te gebruiken, moet je de disk image aansluiten of mounten op je computer. Dat kan risicovol zijn omdat sommige besturingssystemen (onzichtbare) bestanden wegschrijven op de aangesloten opslagmedia. Ook is het soms niet mogelijk om een disk image te mounten omwille van zijn bestandssysteem. Bestandssystemen zijn softwarematige indelingen van een opslagmedium (bv. een harde schijf of een externe drager) dat het besturingssysteem gebruikt om de data op het medium weer te geven als bestanden en om ze te kunnen gebruiken in applicaties. Er bestaan zowel bestandssystemen die enkel op een bepaald besturingssysteem gebruikt kunnen worden als bestandssystemen die op meerdere besturingssystemen toegankelijk zijn.[9] Zo kan het bijvoorbeeld gebeuren dat een disk image van een (externe) schijf die geformatteerd werd voor Windows niet geopend kan worden op een Mac-computer, of omgekeerd.
Om ervoor te zorgen dat HeK toegang had tot de bestanden op de disk image, werden de bestanden geëxporteerd en geïdentificeerd. Om ons te verzekeren dat we de disk images niet wijzigden en dat we alle bestanden - ook verborgen bestanden - zouden kunnen exporteren, maakten we gebruik van software. Vooraleer we met de software aan de slag konden gaan om bestanden van de disk images te exporteren, dienden we te weten welk bestandssysteem de disk images hadden. De keuze voor een tool is namelijk afhankelijk van het bestandssysteem. Die informatie is ook nodig in het geval je de bestanden zou willen openen in een emulatieomgeving. Op basis van het bestandssysteem kan de geschikte emulatieomgeving gekozen worden.
Bij het exporteren werden steeds volgende acties uitgevoerd:
- Het bestandssysteem werd bepaald
- Een indexbestand werd gemaakt met een overzicht van alle bestanden op de disk image
- De bestanden werden van de disk image gehaald
- De bestandsformaten van de bestanden werden geïdentificeerd. Deze stap is noodzakelijk om te weten met welke software je de bestanden moet openen (indien de computer dit zelf niet automatisch vindt).
Bestandssysteem bepalen
Voor diskettes die gebruikt zijn in MS-DOS/Windows en Classical Macintosh zijn de meest gebruikte bestandssystemen FAT12[10] en HFS[11]. FAT is een bestandssysteem dat ontwikkeld werd voor MS-DOS en Windows, waarvan FAT12 specifiek voor diskettes gebruikt werd. Het wordt breed ondersteund, o.a. door bijna alle moderne besturingssystemen (Windows, Mac en Linux). HFS is een obsoleet bestandssysteem dat ontwikkeld werd door Apple en gebruikt werd voor diskettes en harde schijven. HFS disk images kunnen enkel gelezen worden op Mac (zowel klassieke Macintosh als de moderne OS X/macOS).
Om het bestandssysteem te bepalen, gebruikten we Disktype. Dat is een command line tool die gebruikt kan worden in UNIX-omgevingen zoals Linux of Mac, of via Cygwin[12] op Windows, om bestandssystemen van een disk of disk image vast te stellen. Met het commando disktype image.img > disktype.txt schreven we de info weg in het tekstbestand disktype.txt voor de disk image met naam image.img (zie screenshot).
We stelden op deze wijze vast dat zeven disk images FAT12 als bestandssysteem hadden. De andere twee hadden HFS als bestandssysteem.
Om bestanden van disk images met het FAT12 bestandssysteem te halen, gebruikten we Bitcurator Disk Image Access Tool. Bitcurator[13] is een gespecialiseerde versie van Ubuntu die bestaat uit een verzameling van forensische tools om te helpen bij het preserveren van data op externe dragers. Bitcurator Disk Image Access Tool is software waarmee je alle bestanden op een disk image kunt zien en exporteren, inclusief verwijderde bestanden.
Bitcurator Disk Imge Access Tool kan geen disk images met het bestandssysteem HFS gebruiken. Voor HFS bestaat er een gelijkaardige software, HFSExplorer. Ook hiermee je alle bestanden (inclusief verborgen) kunt exporteren met behoud van de originele metadata zoals laatste bewerkingsdatum.
Met deze software konden we van alle diskettes de bestanden van de disk images exporteren.
Bestanden identificeren
Nadat alle bestanden van de disk images gehaald werden, konden ze geïdentificeerd worden. Hiervoor werd DROID gebruikt. DROID identificeert bestanden op twee manieren. Enerzijds door de bestandsextensie, anderzijds door een code die opgeslagen is in de bitstream van een bestand. Het gebruikt hiervoor de PRONOM-databank. DROID slaagde er niet in om alle bestanden te identificeren. Dit komt doordat in het HFS-bestandssysteem (de klassieke Mac-omgeving) bestanden geen extensie hadden of omdat bestanden verkeerde extensies hadden. Als DROID de interne code van een bestand niet kent, en enkel een bestand kan identificeren op basis van de extensie, dan is het voor DROID onmogelijk om deze bestanden te herkennen.
Besluit
Gegevens op obsolete dragers zijn fragiel en dreigen te verdwijnen, o.m. doordat de leesapparatuur zeldzaam wordt, maar ook omdat de dragers verouderen waardoor ze niet goed meer gelezen kunnen worden. Daarom moeten ze zo snel mogelijk naar een hedendaagse gegevensdrager overgebracht worden. Met behulp van een diskettelezer met USB-aansluiting, een write blocker en software zoals disktype, Guymager, HFSExplorer en Bitcurator konden we alle negen diskettes overzetten naar een hedendaagse gegevensdrager.
Wanneer je zelf in je archief een diskette vind, contacteer ons dan vooraleer je zelf pogingen doet om de drager te lezen. Bezorg ons alle informatie die je hebt over de drager, zoals de periode waarin ze gebruikt werd, de computer waarop de drager gebruikt werd (Mac of Widows/MS-DOS) en een foto van de drager. Dit maakt het voor ons makkelijker om de drager te identificeren en te bepalen welke strategie we moeten gebruiken om de gegevens van de drager af te halen.
Auteur: Nastasia Vanderperren (Meemoo)
- ↑ Voor meer informatie, zie http://www.hek.ch/en.html
- ↑ Voor meer informatie, zie http://www.hek.ch/en/collection/collection-single/collection/raoul-a-pictor-cherche-son-style.html
- ↑ Über Sehen is een screensaver. Zie http://www.studervandenberg.ch/works.html
- ↑ Een niet-exhaustieve lijst van types diskettes: https://en.wikipedia.org/wiki/List_of_floppy_disk_formats
- ↑ Het meest voorkomende aantal tracks is 40 of 80.
- ↑ Zoals Guymager, Isobuster, FTK imager en Disk Utility
- ↑ DS staat voor double sided, HD voor high density.
- ↑ http://guymager.sourceforge.net/
- ↑ Voor meer informatie, zie https://nl.wikipedia.org/wiki/Bestandssysteem.
- ↑ Voor meer informatie, zie https://en.wikipedia.org/wiki/File_Allocation_Table#FAT12.
- ↑ Voor meer informatie, zie https://en.wikipedia.org/wiki/Hierarchical_File_System.
- ↑ Cygwin is een verzameling van vrije hulpprogramma's bedoeld om Unix-programma's op de meeste versies van Microsoft Windows te draaien, https://nl.wikipedia.org/wiki/Cygwin.
- ↑ Voor meer informatie, zie https://bitcurator.net/bitcurator