Passer au contenu principal

Comment archiver une plateforme Go Vocal

Écrit par Ken Van Mechelen

Pourquoi as-tu besoin d'archiver ta plateforme ?

Pour des raisons de conformité ou juridiques, tu peux avoir besoin d'archiver ta plateforme Go Vocal et de stocker une copie de son contenu. Ce guide explique comment configurer votre outil d'archivage pour qu'il fonctionne correctement avec Go Vocal.

Pourquoi l'archivage nécessite-t-il une configuration supplémentaire ?

La partie frontale de Go Vocal est une application à page unique (SPA) construite avec JavaScript. La plupart des outils d'archivage du web utilisent un scraper qui visite chaque page et enregistre le code HTML. Toutefois, nombre de ces scrapeurs n'exécutent pas JavaScript - ou ne l'exécutent pas suffisamment - ce qui entraîne l'enregistrement de pages vierges.

Si c'est le cas avec votre logiciel de scraping, Go Vocal propose un service de pré-rendement qui peut servir du HTML statique entièrement rendu aux outils qui s'identifient comme des robots d'indexation (crawlers). Lorsque la plateforme détecte qu'une demande provient d'un outil d'archivage, elle :

  1. Servir une version HTML pure de la page au lieu de la SPA basée sur JavaScript.

  2. Contourne le gestionnaire de consentement des cookies, de sorte que le contenu réel de la page est visible sans interaction de l'utilisateur.

Comment configurer votre outil d'archivage

A. Obtenir des pages pré-tendues

Vous pouvez déclencher la version HTML pré-rendue de la plate-forme de deux manières.

Option 1 : Ajouter le paramètre URL _escaped_fragment_.

Configurez votre outil d'archivage pour qu'il ajoute _escaped_fragment_ comme paramètre de requête à toutes vos demandes. Par exemple :

<https://yourplatform.govocal.com/projects?_escaped_fragment_=>

Lorsque la plate-forme détecte ce paramètre, elle sert une version HTML entièrement rendue de la page.

Option 2 : Utiliser une chaîne User-Agent reconnue

Assurez-vous que votre outil d'archivage envoie un en-tête User-Agent reconnu par Go Vocal. Les outils d'archivage suivants sont actuellement pris en charge :

La correspondance entre User-Agent est insensible à la casse.

💡 Conseil : si votre logiciel d'archivage vous permet de définir une chaîne User-Agent personnalisée, le moyen le plus simple de la faire fonctionner est d'y inclure le nom de l'un des outils pris en charge ci-dessus.

Que se passe-t-il si mon outil n'est pas reconnu ?

Si votre outil d'archivage utilise une chaîne User-Agent qui ne figure pas dans la liste ci-dessus et que vous ne pouvez pas la modifier, utilisez plutôt l'option 1 - en ajoutant _escaped_fragment_ à vos URL de requête.

Si aucune des deux options ne fonctionne pour votre configuration, veuillez contacter le service d'assistance et nous pourrons envisager d'ajouter le User-Agent de votre outil à notre liste reconnue.

B. Couvrir tout le contenu destiné au public à l'aide de /sitemap.xml

La plateforme contient un certain nombre de contenus dynamiques, par exemple les boutons "Charger plus" dans les longues listes de projets ou d'entrées. Si votre outil d'archivage Web est configuré pour agir uniquement comme une araignée - ce qui signifie qu'il explore la plateforme en suivant simplement les liens internes - le contenu derrière ces éléments dynamiques ne sera pas découvert, car les boutons ne sont pas fonctionnels dans les pages pré-rendues.

Pour résoudre ce problème, assurez-vous que votre outil d'archivage utilise le fichier /sitemap.xml servi par votre plateforme. Il répertorie toutes les pages, pour que l'archive soit complète. La plupart des logiciels de scraping le font d'emblée, mais cela vaut la peine de vérifier.

Avez-vous trouvé la réponse à votre question ?