Hvorfor du måske skal arkivere din platform

Af overensstemmelsesmæssige eller juridiske årsager kan det være nødvendigt at arkivere din Go Vocal-platform og gemme en kopi af dens indhold. Denne vejledning forklarer, hvordan du konfigurerer dit arkiveringsværktøj til at fungere korrekt med Go Vocal.

Hvorfor arkivering kræver ekstra konfiguration

Go Vocals frontend er en single-page applikation (SPA) bygget med JavaScript. De fleste webarkiveringsværktøjer bruger en scraper, der besøger hver side og gemmer HTML'en. Men mange af disse scrapere udfører ikke JavaScript - eller udfører det ikke fuldstændigt nok - hvilket resulterer i, at der gemmes tomme sider.

Hvis dette er tilfældet med din scraping-software, tilbyder Go Vocal en prerendering-tjeneste, der kan servere fuldt renderet, statisk HTML til værktøjer, der identificerer sig selv som crawlere. Når platformen opdager, at en anmodning kommer fra et arkiveringsværktøj, gør den det:

Serverer en ren HTML-version af siden i stedet for den JavaScript-baserede SPA.
Omgår cookie consent manager, så det faktiske sideindhold er synligt uden brugerinteraktion.

Sådan konfigurerer du dit arkiveringsværktøj

A. Indhentning af prærenderede sider

Du kan udløse den prerenderede HTML-version af platformen på en af to måder.

Mulighed 1: Tilføj URL-parameteren _escaped_fragment_.

Konfigurer dit arkiveringsværktøj til at tilføje _escaped_fragment_ som en forespørgselsparameter til alle dine forespørgsler. For eksempel:

<https://yourplatform.govocal.com/projects?_escaped_fragment_=>

Når platformen registrerer denne parameter, vil den servere en fuldt renderet HTML-version af siden.

Mulighed 2: Brug en anerkendt User-Agent-streng

Sørg for, at dit arkiveringsværktøj sender en User-Agent-header, der genkendes af Go Vocal. Følgende arkiveringsværktøjer understøttes i øjeblikket:

Arkivweb
Browsertrix
Fælles gennemsøgning (CCBot)
Heritrix (bruges også af Archive-It og mange nationale biblioteker)
HTTrack
Internetarkiv / Wayback Machine
MirrorWeb
Screaming Frog SEO Spider
PageFreezer
British Library webarkiv
Bibliothèque nationale de France webarkiv
dip Webarchief
Capsis

Matchning af brugeragenter skelner ikke mellem store og små bogstaver.

💡 Tip: Hvis din arkiveringssoftware giver dig mulighed for at indstille en brugerdefineret User-Agent-streng, er den nemmeste måde at få det til at fungere at indstille den til at omfatte navnet på et af de understøttede værktøjer ovenfor.

Hvad hvis mit værktøj ikke bliver genkendt?

Hvis dit arkiveringsværktøj bruger en User-Agent-streng, der ikke er på listen ovenfor, og du ikke kan ændre den, skal du i stedet bruge mulighed 1 - tilføje _escaped_fragment_ til dine forespørgsels-URL'er.

Hvis ingen af disse muligheder virker i din opsætning, så kontakt support, så vi kan se på, om vi kan tilføje dit værktøjs User-Agent til vores anerkendte liste.

B. Dækker alt offentligt tilgængeligt indhold ved hjælp af /sitemap.xml

Platformen indeholder noget dynamisk indhold, f.eks. knapperne "Indlæs mere" i længere lister over projekter eller input. Hvis dit webarkiveringsværktøj er konfigureret til kun at fungere som en spider - det betyder, at det udforsker platformen ved blot at følge interne links - vil indholdet bag disse dynamiske elementer ikke blive opdaget, da knapperne ikke er funktionelle på de forprogrammerede sider.

For at løse dette skal du sørge for, at dit arkiveringsværktøj bruger filen /sitemap.xml, der serveres fra din platform. Den viser alle sider for at gøre arkivet komplet. De fleste scraping-software gør det uden videre, men det er værd at tjekke.

Relaterede artikler

Sådan arkiverer du en Go Vocal-platform