Warum Sie Ihre Plattform möglicherweise archivieren müssen

Aus rechtlichen Gründen kann es erforderlich sein, dass Sie Ihre Go Vocal-Plattform archivieren und eine Kopie des Inhalts speichern müssen. In dieser Anleitung erfahren Sie, wie Sie Ihr Archivierungstool so konfigurieren, dass es korrekt mit Go Vocal funktioniert.

Warum die Archivierung eine zusätzliche Konfiguration erfordert

Das Frontend von Go Vocal ist eine mit JavaScript erstellte Single-Page-Anwendung (SPA). Die meisten Web-Archivierungstools verwenden einen Scraper, der jede Seite besucht und den HTML-Code speichert. Viele dieser Scraper führen jedoch kein JavaScript aus - oder führen es nicht vollständig genug aus - was dazu führt, dass leere Seiten gespeichert werden.

Wenn dies bei Ihrer Scraping-Software der Fall ist, bietet Go Vocal einen Prerendering-Service, der vollständig gerenderten, statischen HTML-Code an Tools liefert, die sich als Crawler identifizieren. Wenn die Plattform erkennt, dass eine Anfrage von einem Archivierungstool kommt, wird sie:

Liefert eine reine HTML-Version der Seite anstelle der JavaScript-basierten SPA.
Umgeht den Cookie-Zustimmungsmanager, so dass der eigentliche Seiteninhalt ohne Benutzerinteraktion sichtbar ist.

Wie Sie Ihr Archivierungstool konfigurieren

A. Abrufen von vorberechneten Seiten

Sie können die vorgerenderte HTML-Version der Plattform auf eine von zwei Arten auslösen.

Option 1: Fügen Sie den URL-Parameter _escaped_fragment_ hinzu

Konfigurieren Sie Ihr Archivierungstool so, dass es _escaped_fragment_ als Abfrageparameter an alle Ihre Anfragen anhängt. Zum Beispiel:

<https://yourplatform.govocal.com/projects?_escaped_fragment_=>

Wenn die Plattform diesen Parameter erkennt, liefert sie eine vollständig gerenderte HTML-Version der Seite.

Option 2: Verwenden Sie einen anerkannten User-Agent-String

Stellen Sie sicher, dass Ihr Archivierungstool einen User-Agent-Header sendet, der von Go Vocal erkannt wird. Die folgenden Archivierungstools werden derzeit unterstützt:

Archiefweb
Browsertrix
Allgemeines Kriechen (CCBot)
Heritrix (auch von Archive-It und vielen Nationalbibliotheken verwendet)
HTTrack
Internet Archiv / Wayback Machine
MirrorWeb
Screaming Frog SEO Spider
SeiteGefrierschrank
Webarchiv der Britischen Bibliothek
Webarchiv der Bibliothèque nationale de France
dip Webarchief
Capsis

Beim Abgleich der Benutzer-Agenten wird die Groß- und Kleinschreibung nicht berücksichtigt.

💡 Tipp: Wenn Ihre Archivierungssoftware die Möglichkeit bietet, einen benutzerdefinierten User-Agent-String festzulegen, ist es am einfachsten, wenn Sie den Namen eines der oben genannten unterstützten Tools angeben.

Was, wenn mein Tool nicht erkannt wird?

Wenn Ihr Archivierungstool eine User-Agent-Zeichenfolge verwendet, die nicht in der obigen Liste enthalten ist, und Sie diese nicht ändern können, verwenden Sie stattdessen Option 1, indem Sie _escaped_fragment_ an Ihre Anfrage-URLs anhängen.

Wenn keine der beiden Optionen bei Ihnen funktioniert, wenden Sie sich bitte an den Support, damit wir prüfen können, ob wir den User-Agent Ihres Tools in unsere anerkannte Liste aufnehmen können.

B. Abdeckung aller öffentlich zugänglichen Inhalte mit /sitemap.xml

Die Plattform enthält einige dynamische Inhalte, zum Beispiel die Schaltflächen "Mehr laden" in längeren Listen von Projekten oder Eingaben. Wenn Ihr Web-Archivierungstool so konfiguriert ist, dass es nur wie ein Spider agiert - das heißt, dass es die Plattform lediglich durch das Verfolgen interner Links erkundet - wird der Inhalt hinter diesen dynamischen Elementen nicht entdeckt, da die Schaltflächen in den vorberechneten Seiten nicht funktionsfähig sind.

Stellen Sie daher sicher, dass Ihr Archivierungstool die Datei /sitemap.xml verwendet, die von Ihrer Plattform bereitgestellt wird. Es listet alle Seiten auf, um das Archiv vollständig zu machen. Die meisten Scraping-Programme tun dies bereits von Haus aus, aber es lohnt sich, dies zu überprüfen.

Verwandte Artikel

Wie Sie eine Go Vocal-Plattform archivieren