Waarom je je platform misschien moet archiveren
Het is mogelijk dat je om juridische redenen je Go Vocal platform moet archiveren en een kopie van de inhoud moet bewaren. In deze handleiding wordt uitgelegd hoe je je archiveringstool zo configureert dat het correct samenwerkt met Go Vocal.
Waarom archivering extra configuratie vereist
De voorkant van Go Vocal is een single page application (SPA) gebouwd met JavaScript. De meeste webarchiveringsprogramma's gebruiken een scraper die elke pagina bezoekt en de HTML opslaat. Veel van deze scrapers voeren JavaScript echter niet uit - of niet volledig genoeg - waardoor lege pagina's worden opgeslagen.
Als dit het geval is met je scraping software, dan biedt Go Vocal om dit op te lossen een prerendering service die volledig gerenderde, statische HTML kan serveren aan tools die zichzelf identificeren als crawlers. Als het platform detecteert dat een verzoek afkomstig is van een archiveringsprogramma, dan wordt:
Serveert een pure HTML-versie van de pagina in plaats van de op JavaScript gebaseerde SPA.
Omzeilt de toestemmingsmanager voor cookies, zodat de werkelijke pagina-inhoud zichtbaar is zonder interactie van de gebruiker.
Hoe je je archiveringstool configureert
A. Vooraf gerenderde pagina's verkrijgen
Je kunt de voorgetekende HTML-versie van het platform op twee manieren activeren.
Optie 1: Voeg de URL-parameter _escaped_fragment_ toe
Configureer je archiveringstool om _escaped_fragment_ als een query parameter toe te voegen aan al je verzoeken. Bijvoorbeeld:
<https://yourplatform.govocal.com/projects?_escaped_fragment_=>
Als het platform deze parameter detecteert, serveert het een volledig gerenderde HTML-versie van de pagina.
Optie 2: Gebruik een herkende User-Agent string
Zorg ervoor dat je archiveringstool een User-Agent header stuurt die door Go Vocal wordt herkend. De volgende archiveringstools worden momenteel ondersteund:
Common Crawl (CCBot)
Heritrix (ook gebruikt door Archive-It en veel nationale bibliotheken)
PaginaDiepvries
Het webarchief van de British Library
Bibliothèque nationale de France webarchief
dip Webarchief
Capsis
User-Agent matching is hoofdletter-ongevoelig.
💡 Tip: Als je archiveringssoftware je toestaat om een aangepaste User-Agent string in te stellen, dan is het instellen van deze string met de naam van een van de ondersteunde tools hierboven de eenvoudigste manier om het werkend te krijgen.
Wat als mijn gereedschap niet wordt herkend?
Als je archiveringstool een User-Agent string gebruikt die niet in de bovenstaande lijst staat en je deze niet kunt wijzigen, gebruik dan in plaats daarvan optie 1 - voeg _escaped_fragment_ toe aan je verzoek-URL's.
Als geen van beide opties werkt voor jouw installatie, neem dan contact op met support en dan kunnen we kijken of we de User-Agent van jouw tool kunnen toevoegen aan onze herkende lijst.
B. Alle openbare inhoud afdekken met /sitemap.xml
Het platform bevat wat dynamische inhoud, bijvoorbeeld de knoppen "Meer laden" in langere lijsten met projecten of ingangen. Als je webarchiveringsprogramma is geconfigureerd om zich alleen als een spider te gedragen - dit betekent dat het het platform alleen verkent door interne links te volgen - zal de inhoud achter deze dynamische elementen niet worden ontdekt, omdat de knoppen niet functioneel zijn in de voorvertoonde pagina's.
Om dit op te lossen, zorg je ervoor dat je archiveringstool gebruik maakt van het /sitemap.xml bestand dat wordt geserveerd vanaf je platform. Het somt alle pagina's op om het archief compleet te maken. De meeste scraping software doet dit standaard, maar het is de moeite waard om het te controleren.
