Naar de hoofdinhoud

Hoe archiveer je een Go Vocal platform

Geschreven door Ken Van Mechelen

Waarom je je platform misschien moet archiveren

Het is mogelijk dat je om juridische redenen je Go Vocal platform moet archiveren en een kopie van de inhoud moet bewaren. In deze handleiding wordt uitgelegd hoe je je archiveringstool zo configureert dat het correct samenwerkt met Go Vocal.

Waarom archivering extra configuratie vereist

De voorkant van Go Vocal is een single page application (SPA) gebouwd met JavaScript. De meeste webarchiveringsprogramma's gebruiken een scraper die elke pagina bezoekt en de HTML opslaat. Veel van deze scrapers voeren JavaScript echter niet uit - of niet volledig genoeg - waardoor lege pagina's worden opgeslagen.

Als dit het geval is met je scraping software, dan biedt Go Vocal om dit op te lossen een prerendering service die volledig gerenderde, statische HTML kan serveren aan tools die zichzelf identificeren als crawlers. Als het platform detecteert dat een verzoek afkomstig is van een archiveringsprogramma, dan wordt:

  1. Serveert een pure HTML-versie van de pagina in plaats van de op JavaScript gebaseerde SPA.

  2. Omzeilt de toestemmingsmanager voor cookies, zodat de werkelijke pagina-inhoud zichtbaar is zonder interactie van de gebruiker.

Hoe je je archiveringstool configureert

A. Vooraf gerenderde pagina's verkrijgen

Je kunt de voorgetekende HTML-versie van het platform op twee manieren activeren.

Optie 1: Voeg de URL-parameter _escaped_fragment_ toe

Configureer je archiveringstool om _escaped_fragment_ als een query parameter toe te voegen aan al je verzoeken. Bijvoorbeeld:

<https://yourplatform.govocal.com/projects?_escaped_fragment_=>

Als het platform deze parameter detecteert, serveert het een volledig gerenderde HTML-versie van de pagina.

Optie 2: Gebruik een herkende User-Agent string

Zorg ervoor dat je archiveringstool een User-Agent header stuurt die door Go Vocal wordt herkend. De volgende archiveringstools worden momenteel ondersteund:

User-Agent matching is hoofdletter-ongevoelig.

💡 Tip: Als je archiveringssoftware je toestaat om een aangepaste User-Agent string in te stellen, dan is het instellen van deze string met de naam van een van de ondersteunde tools hierboven de eenvoudigste manier om het werkend te krijgen.

Wat als mijn gereedschap niet wordt herkend?

Als je archiveringstool een User-Agent string gebruikt die niet in de bovenstaande lijst staat en je deze niet kunt wijzigen, gebruik dan in plaats daarvan optie 1 - voeg _escaped_fragment_ toe aan je verzoek-URL's.

Als geen van beide opties werkt voor jouw installatie, neem dan contact op met support en dan kunnen we kijken of we de User-Agent van jouw tool kunnen toevoegen aan onze herkende lijst.

B. Alle openbare inhoud afdekken met /sitemap.xml

Het platform bevat wat dynamische inhoud, bijvoorbeeld de knoppen "Meer laden" in langere lijsten met projecten of ingangen. Als je webarchiveringsprogramma is geconfigureerd om zich alleen als een spider te gedragen - dit betekent dat het het platform alleen verkent door interne links te volgen - zal de inhoud achter deze dynamische elementen niet worden ontdekt, omdat de knoppen niet functioneel zijn in de voorvertoonde pagina's.

Om dit op te lossen, zorg je ervoor dat je archiveringstool gebruik maakt van het /sitemap.xml bestand dat wordt geserveerd vanaf je platform. Het somt alle pagina's op om het archief compleet te maken. De meeste scraping software doet dit standaard, maar het is de moeite waard om het te controleren.

Was dit een antwoord op uw vraag?