Waarom je je platform misschien moet archiveren

Het is mogelijk dat je om juridische redenen je Go Vocal platform moet archiveren en een kopie van de inhoud moet bewaren. In dit supportartikel wordt uitgelegd hoe je je archiveringstool zo configureert dat het correct samenwerkt met Go Vocal.

Waarom archivering extra configuratie vereist

De voorkant van Go Vocal is een single page application (SPA) gebouwd met JavaScript. De meeste archiveringstools gebruiken een scraper die elke pagina bezoekt en de HTML opslaat. Veel van deze scrapers voeren JavaScript echter niet uit - of niet volledig genoeg - waardoor lege pagina's worden opgeslagen.

Als dit het geval is voor je scraping software, dan biedt Go Vocal om dit op te lossen een prerendering service die volledig gerenderde, statische HTML kan serveren aan tools die zichzelf identificeren als crawlers. Als het platform detecteert dat een verzoek afkomstig is van een archiveringstool, dan wordt:

Een pure HTML-versie van de pagina in plaats van de op JavaScript gebaseerde SPA geserveerd.
De toestemmingsmanager voor cookies omzeild, zodat de werkelijke pagina-inhoud zichtbaar is zonder interactie van de gebruiker.

Hoe je je archiveringstool configureert

A. Vooraf gerenderde pagina's verkrijgen

Je kunt de vooraf gerenderde HTML-versie van het platform op twee manieren activeren.

Optie 1: Voeg de URL-parameter _escaped_fragment_ toe

Configureer je archiveringstool om _escaped_fragment_ als een query parameter toe te voegen aan al je verzoeken. Bijvoorbeeld:

<https://jouwplatform.govocal.nl/projects?_escaped_fragment_=>

Als het platform deze parameter detecteert, serveert het een volledig gerenderde HTML-versie van de pagina.

Optie 2: Gebruik een herkende User-Agent string

Zorg ervoor dat je archiveringstool een User-Agent header stuurt die door Go Vocal wordt herkend. De volgende archiveringstools worden momenteel ondersteund:

Archiefweb
Browsertrix
Common Crawl (CCBot)
Heritrix (ook gebruikt door Archive-It en veel nationale bibliotheken)
HTTrack
Internet Archive / Wayback Machine
MirrorWeb
Screaming Frog SEO Spider
PageFreezer
British Library web archive
Bibliothèque nationale de France web archive
dip Webarchief
Capsis

User-Agent matching is hoofdletter-ongevoelig.

💡 Tip: Als je archiveringssoftware je toestaat om een aangepaste User-Agent string in te stellen, dan is het instellen van deze string met de naam van een van de ondersteunde tools hierboven de eenvoudigste manier om het werkend te krijgen.

Wat als mijn tool niet wordt herkend?

Als je archiveringstool een User-Agent string gebruikt die niet in de bovenstaande lijst staat en je deze niet kunt wijzigen, gebruik dan in plaats daarvan optie 1 - voeg _escaped_fragment_ toe aan je verzoeken.

Als geen van beide opties werkt voor hoe jouw tool is ingesteld, neem dan contact op met support en dan kunnen we kijken of we de User-Agent van jouw tool kunnen toevoegen aan onze herkende lijst.

B. Alle openbare inhoud inzien met /sitemap.xml

Het platform bevat wat dynamische inhoud, bijvoorbeeld de knoppen "Toon meer" in langere lijsten met projecten of bijdragen. Als je archiveringstool is geconfigureerd om zich alleen als een spider te gedragen - dit betekent dat het het platform alleen verkent door interne links te volgen - zal de inhoud achter deze dynamische elementen niet worden ontdekt, omdat de knoppen niet functioneel zijn in de voorvertoonde pagina's.

Om dit op te lossen, moet je ervoor zorgen dat je archiveringstool gebruik maakt van het /sitemap.xml bestand dat wordt geserveerd vanaf je platform. Het somt alle pagina's op om het archief compleet te maken. De meeste scraping software doet dit standaard, maar het is de moeite waard om het te controleren.

Hoe archiveer je een Go Vocal platform