Perché potrebbe essere necessario archiviare la tua piattaforma
Per motivi di conformità o legali, potrebbe essere necessario archiviare la piattaforma Go Vocal e conservare una copia del suo contenuto. Questa guida spiega come configurare il tuo strumento di archiviazione affinché funzioni correttamente con Go Vocal.
Perché l'archiviazione richiede una configurazione aggiuntiva
Il frontend di Go Vocal è un'applicazione a pagina singola (SPA) realizzata con JavaScript. La maggior parte degli strumenti di archiviazione web utilizza uno scraper che visita ogni pagina e salva l'HTML. Tuttavia, molti di questi scrapers non eseguono JavaScript - o non lo eseguono in modo sufficientemente completo - con il risultato di salvare pagine vuote.
Se questo è il caso del tuo software di scraping, Go Vocal offre un servizio di prerendering che può servire HTML statico completamente renderizzato agli strumenti che si identificano come crawler. Quando la piattaforma rileva che una richiesta proviene da uno strumento di archiviazione, si occupa di
Serve una versione HTML pura della pagina invece della SPA basata su JavaScript.
Bypassa il gestore del consenso dei cookie, in modo che il contenuto effettivo della pagina sia visibile senza l'interazione dell'utente.
Come configurare lo strumento di archiviazione
A. Ottenere pagine prerenderizzate
Puoi attivare la versione HTML prerenderizzata della piattaforma in due modi.
Opzione 1: aggiungere il parametro URL _escaped_fragment_
Configura il tuo strumento di archiviazione per aggiungere _escaped_fragment_ come parametro di query a tutte le tue richieste. Ad esempio:
<https://yourplatform.govocal.com/projects?_escaped_fragment_=>
Quando la piattaforma rileva questo parametro, servirà una versione HTML della pagina completamente renderizzata.
Opzione 2: Utilizzare una stringa User-Agent riconosciuta
Assicurati che il tuo strumento di archiviazione invii un'intestazione User-Agent riconosciuta da Go Vocal. Attualmente sono supportati i seguenti strumenti di archiviazione:
Crawl comune (CCBot)
Heritrix (utilizzato anche da Archive-It e da molte biblioteche nazionali)
PaginaCongelatore
Archivio web della British Library
Archivio web della Bibliothèque nationale de France
dip Webarchief
Capsis
La corrispondenza dell'User-Agent non fa distinzione tra maiuscole e minuscole.
💡 S uggerimento: se il tuo software di archiviazione ti permette di impostare una stringa User-Agent personalizzata, impostarla in modo da includere il nome di uno degli strumenti supportati sopra è il modo più semplice per farlo funzionare.
Cosa succede se il mio strumento non viene riconosciuto?
Se il tuo strumento di archiviazione utilizza una stringa User-Agent che non è presente nell'elenco precedente e non puoi cambiarla, utilizza invece l'opzione 1, aggiungendo _escaped_fragment_ agli URL di richiesta.
Se nessuna delle due opzioni funziona per la tua configurazione, contatta l'assistenza e potremo valutare se aggiungere lo User-Agent del tuo strumento alla nostra lista riconosciuta.
B. Copre tutti i contenuti rivolti al pubblico utilizzando /sitemap.xml
La piattaforma contiene alcuni contenuti dinamici, ad esempio i pulsanti "Carica di più" negli elenchi più lunghi di progetti o input. Se il tuo strumento di archiviazione web è configurato per agire solo come uno spider, ovvero per esplorare la piattaforma seguendo solo i link interni, il contenuto dietro questi elementi dinamici non verrà scoperto, poiché i pulsanti non sono funzionali nelle pagine prerenderizzate.
Per risolvere questo problema, assicurati che il tuo strumento di archiviazione utilizzi il file /sitemap.xml servito dalla tua piattaforma. Elenca tutte le pagine, per rendere l'archivio completo. La maggior parte dei software di scraping lo fa subito, ma vale la pena controllare.
