Archiver des sites web : comment et pourquoi ?

Il est probable que votre organisation ait changé de site web à un moment ou à un autre, ou que son contenu ait été modifié de manière significative. Cependant, les anciennes versions de votre site web peuvent avoir une valeur historique. Il est donc judicieux d'archiver votre site web de temps à autre.
Grâce à cet outil, vous apprendrez :

  • Pourquoi archiver votre site web et quand le faire ?
  • Comment procéder à l'archivage de votre site web ?

La plupart des organisations ont déjà utilisé un ou plusieurs sites web. Lors de la transition vers un nouveau site web, les organisations se demandent comment archiver l'ancien. Souvent, cet ancien site web contient des données intéressantes qui ne sont plus pertinentes pour le nouveau site, mais qui ont une valeur historique pour l'organisation. Quel est donc le moyen le plus simple d'archiver ces informations ?

Pourquoi devez-vous archiver votre site web ?

Il n'y a pas si longtemps, les sites web se composaient uniquement de pages HTML statiques. Il s'agit de simples pages de texte avec une mise en page, que le navigateur peut transformer en page web. Pour archiver ces sites web, il suffisait de copier le dossier contenant les fichiers sur son propre ordinateur. Les sites web récents utilisent toutefois un CMS (Système de gestion de contenu). Il s'agit d'une base de données qui gère les informations du site web et compile les pages dès leur ouverture. Cela rend le site web dynamique, mais aussi beaucoup plus difficile à archiver.

Dans cet outil, nous verrons comment un tel site web (dynamique) peut être facilement archivé numériquement. Le site web sera rendu statique et stocké hors ligne sous une forme permettant de le conserver à long terme. Comme pour les e-mails, le numérique dans les sites web est une propriété essentielle à préserver. Sans préservation numérique, vous perdriez le "look & feel" de la navigation sur le site web.[1]

Comment ?

Analysez votre site web

Tout d'abord, procédez à une analyse de votre site web. Le choix de la méthode d'archivage dépend du type, du contenu et des éléments de votre site web.

Il existe, grosso modo, trois types de sites web :

  • les sites web statiques, dont le contenu est fixe ;
  • Les sites web dynamiques; dont le contenu est extrait du deep web[2]
  • une forme entre les deux.

Les sites web statiques se composent d'un certain nombre de pages connectées et sont généralement formatés en HTML. Ils peuvent contenir des liens avec des images ou des liens vers d'autres sites web. Tous les fichiers sont stockés dans une structure de dossiers hiérarchique sur le serveur.

Un site web dynamique est un site qui est composé au moment où il est ouvert. Dans ce cas, les pages elles-mêmes n'ont pas de contenu. Elles sont remplies de contenu situé dans une base de données sous-jacente, comme dans un CMS. Les cookies stockent des informations spécifiques sur l'ordinateur de l'utilisateur. Cela permet au navigateur d'adapter le contenu d'une page aux préférences personnelles de l'utilisateur. La plupart des sites web sont une forme intermédiaire entre statique et dynamique.[3]

En outre, il est nécessaire d'examiner le contenu et les éléments de votre site web. Votre site contient-il de nombreux liens vers d'autres sites ? Votre site utilise-t-il des services externes, tels que des cartes Google Maps, des vidéos YouTube ou des photos sur un service de photos en ligne ? Y a-t-il des images et des boutons animés ou interactifs ? Tous ces éléments déterminent la complexité de l'archivage des sites web. Ils sont souvent plus difficiles à conserver. Vous risquez de perdre certaines fonctionnalités, comme la lecture d'animations Flash[4] ou d'éléments nécessitant l'installation de plug-ins[5]. Les éléments interactifs peuvent cesser de fonctionner dans les sites web archivés, de même que les fichiers récupérés sur un autre site.

Le degré d'archivage de votre site web peut être mesuré sur archiveready.com (disponible en anglais). Si vous développez de nouveaux sites web, essayez, dans la mesure du possible, de faire en sorte qu'ils soient facilement archivables par la suite.

Fixez des objectifs

En outre, il est important de fixer des objectifs clairs avant de choisir une méthode d'archivage. Ce choix implique un certain nombre de considérations. La première concerne la partie du site web qui doit être capturée lors de l'archivage : l'ensemble du site, y compris les pages externes vers lesquelles votre site web renvoie, ou seulement le domaine de votre propre site web ? Une deuxième considération concerne la fréquence à laquelle les composants doivent être archivés.[6]

L'enregistrement de pages web pose un certain nombre de problèmes liés à leur nature particulière. Les sites web sont très éphémères car ils sont régulièrement mis à jour et modifiés. En outre, la présentation d'une page à l'écran dépend des interactions de l'utilisateur (y compris le navigateur, les paramètres personnels et les préférences). Les pages sont également très interconnectées : elles sont liées les unes aux autres, sont parfois hébergées sur plusieurs serveurs ou extraient des informations de services ou de sites externes.[7]

Vous devrez donc décider quand archiver votre site web et comment délimiter le site à archiver. Allez-vous seulement archiver le site lorsqu'il est mis hors ligne, une fois par an, ou à chaque mise à jour ? Allez-vous archiver uniquement le site web de votre propre domaine ou également toutes les pages qui y sont référencées ? Lorsque vous archivez des sites web, vous devez accepter qu'il y ait toujours des lacunes.

Conservez les caractéristiques essentielles de votre site web

En raison de la volatilité du support et de la personnalisation des pages web, l'authenticité est un concept difficile à cerner lors de l'archivage de sites web. Néanmoins, certaines propriétés essentielles peuvent être définies[8] :

  • Le contexte : Ce sont des données qui indiquent la relation entre le site web et son créateur. Vous pouvez préserver cela, entre autres, en enregistrant des métadonnées descriptives sur votre site web.
  • Le contenu qui constitue votre site web : textes, photos, vidéos, cartes, etc. Certains éléments, comme les informations extraites de services externes (ex. YouTube, Google Maps et Flickr), sont difficiles à archiver. Par conséquent, documentez les services externes utilisés par votre site web.
  • La structure : montre la relation entre le site web et ses composants. La plupart des sites web ont un plan de site[9] qui montre la structure du site web. Vous pouvez préserver cette propriété en conservant la structure originale de votre site (c'est-à-dire la structure originale des pages de votre site sur le serveur) et en préservant les relations entre les différentes pages.
  • Look & feel : dans le cas d'un site web, non seulement le contenu, la structure et le contexte sont importants, mais le "look & feel" est également un élément essentiel qui doit être préservé. Par conséquent, documentez toujours l'environnement technique dans lequel votre site web a été créé : par exemple, le logiciel CMS que vous utilisez, les plug-ins dont votre site web a besoin pour afficher certains composants, ainsi que la configuration du serveur. Notez également la période pendant laquelle votre site a été en ligne. Cela donne une idée de la version HTML utilisée, du logiciel et des versions des navigateurs dans lesquels le site web peut être affiché. Sur base de ces informations, il est possible de reconstruire le site web.
  • Les sites web peuvent également avoir un comportement et des fonctionnalités spécifiques, tels que des animations, des éléments interactifs et des liens hypertextes. Pour cela, vous devez également enregistrer l'environnement technique de votre site. Vous pouvez perdre certaines fonctionnalités en choisissant une méthode d'archivage particulière.

Les caractéristiques essentielles sont préservées afin qu'une reconstruction fidèle du site web soit possible et que le site soit archivé dans son contexte. Sur le site web eDAVID, vous trouverez un document (en néerlandais) contenant une liste de toutes les métadonnées à conserver. Enregistrez ce document sous la forme d'un fichier texte structuré (ex. un fichier XML, CSV ou Excel) et conservez-le avec le site web archivé dans les archives numériques. Conservez également toute documentation supplémentaire concernant votre site. Cela pourrait s'avérer utile si une émulation était nécessaire à l'avenir.

En documentant les plug-ins utilisés par le site web, vous pouvez reconstruire le site avec, par exemple, une émulation, et éviter que certains éléments ne puissent plus être ouverts. Archivez toujours un site web avant de le mettre hors ligne et de le retirer du serveur. Cela vous permet d'effectuer un contrôle de qualité après l'archivage et de vérifier si toutes les propriétés essentielles ont été préservées.

Conservez le site web durablement

Pour la préservation des sites web, les règles générales concernant la préservation durable des archives numériques s'appliquent. Veillez à toujours utiliser de bonnes procédures de back-up et à disposer de plusieurs back-ups de vos fichiers stockés à différents endroits (géographiques). Contrôlez l'intégrité de votre site web archivé en utilisant des checksums et en vérifiant les fichiers régulièrement.

Le grand nombre de formats de fichiers qui peuvent être placés sur les sites web constitue un défi pour la préservation à long terme des sites. La migration de ces formats vers des formats de fichiers durables est complexe car la relation entre la page et le fichier peut être rompue. Toutefois, les recherches montrent que les sites web utilisent principalement des formats standardisés, tels que HTML, JPEG et MP3, ce qui relativise le problème.

Une solution à ce problème consiste à archiver les sites web au format WARC[10]. Il s'agit d'un format standard permettant de stocker différentes ressources numériques avec des métadonnées dans un seul fichier d'archives. Dans cet outil, vous trouverez une méthode simple et une méthode légèrement plus complexe, mais moins chronophage, pour archiver des sites web au format WARC[11].

Méthodes d'archivage

Cette section aborde trois méthodes d'archivage :

Chaque méthode a ses défauts. Vous pouvez donc combiner plusieurs méthodes pour préserver tous les aspects de votre site web.


Auteurs : Nastasia Vanderperren (meemoo), en collaboration avec Joris Janssens

  1. F. Boudrez, Archiveren van websites: een kwestie van waardering en ‘capture’, p. 5.
  2. Le deep web est la partie du web qui n'est pas accessible aux moteurs de recherche, comme les bases de données protégées par des mots de passe. La base de données qui se trouve derrière un système CMS fait partie du deep web. Voir : https://fr.wikipedia.org/wiki/Web_profond.
  3. Boudrez, Archiveren van websites: een kwestie van waardering en ‘capture’, p. 7.
  4. Flash est un logiciel d'Adobe qui était utilisé, entre autres, pour créer des animations, des vidéos et des applications, et pour habiller les sites web. Pour lire ces fichiers, vous devez disposer d'un plug-in Flash Player sur votre navigateur. Voir : https://fr.wikipedia.org/wiki/Adobe_Flash.
  5. Un plug-in ou insert est une extension d'un programme informatique. Dans un navigateur, il est utilisé pour afficher des informations spéciales sur un site web, telles que des animations Flash.
  6. Boudrez, Archiveren van websites: een kwestie van waardering en ‘capture’, p. 5.
  7. Boudrez, Archiveren van websites: een kwestie van waardering en ‘capture’, p. 7.
  8. Boudrez, Archiveren van websites: een kwestie van waardering en ‘capture’, p.7.
  9. Un plan de site est une page ou un document contenant des liens vers toutes les pages d'un site web. C'est un outil utile pour les visiteurs et les moteurs de recherche pour trouver des pages particulières sur un site. Voir : https://fr.wikipedia.org/wiki/Plan_de_site.
  10. Pour plus d'informations (en anglais), voir Wikipédia
  11. M. Pennock, Web-archiving, p.15-16

Partager cet article:            

TRACKS est une collaboration entre ces partenaires :