Ir al contenido principal

Cómo archivar una plataforma Go Vocal

Escrito por Ken Van Mechelen

Por qué puedes necesitar archivar tu plataforma

Por motivos de cumplimiento o legales, puede que necesites archivar tu plataforma Go Vocal y almacenar una copia de su contenido. Esta guía explica cómo configurar tu herramienta de archivo para que funcione correctamente con Go Vocal.

Por qué archivar requiere una configuración adicional

El frontend de Go Vocal es una aplicación de una sola página (SPA) construida con JavaScript. La mayoría de las herramientas de archivo web utilizan un scraper que visita cada página y guarda el HTML. Sin embargo, muchos de estos scrapers no ejecutan JavaScript -o no lo ejecutan lo suficiente-, lo que provoca que se guarden páginas en blanco.

Si éste es el caso de tu software de scraping, para solucionarlo, Go Vocal proporciona un servicio de prerendering que puede servir HTML estático totalmente renderizado a herramientas que se identifiquen como crawlers. Cuando la plataforma detecta que una petición procede de una herramienta de archivo, lo hace:

  1. Sirve una versión HTML pura de la página en lugar de la SPA basada en JavaScript.

  2. Evita el gestor de consentimiento de cookies, por lo que el contenido real de la página es visible sin interacción del usuario.

Cómo configurar tu herramienta de archivo

A. Obtener páginas prerenderizadas

Puedes activar la versión HTML prerrenderizada de la plataforma de dos maneras.

Opción 1: Añade el parámetro URL _escaped_fragment_.

Configura tu herramienta de archivo para que añada _escaped_fragment_ como parámetro de consulta a todas tus peticiones. Por ejemplo:

<https://yourplatform.govocal.com/projects?_escaped_fragment_=>

Cuando la plataforma detecte este parámetro, servirá una versión HTML completamente renderizada de la página.

Opción 2: Utiliza una cadena User-Agent reconocida

Asegúrate de que tu herramienta de archivo envía una cabecera User-Agent que sea reconocida por Go Vocal. Actualmente se admiten las siguientes herramientas de archivo:

La coincidencia de User-Agent no distingue entre mayúsculas y minúsculas.

💡 Consejo: Si tu software de archivo te permite establecer una cadena User-Agent personalizada, configurarla para que incluya el nombre de una de las herramientas admitidas anteriormente es la forma más sencilla de hacer que funcione.

¿Qué pasa si no se reconoce mi herramienta?

Si tu herramienta de archivo utiliza una cadena User-Agent que no está en la lista anterior y no puedes cambiarla, utiliza en su lugar la Opción 1: añadir _escaped_fragment_ a tus URL de solicitud.

Si ninguna de las dos opciones funciona en tu configuración, ponte en contacto con el servicio de asistencia y podremos estudiar la posibilidad de añadir el User-Agent de tu herramienta a nuestra lista reconocida.

B. Cubrir todo el contenido de cara al público utilizando /sitemap.xml

La plataforma contiene algunos contenidos dinámicos, por ejemplo los botones "Cargar más" en listas más largas de proyectos o entradas. Si tu herramienta de archivo web está configurada para actuar sólo como una araña -esto significa que explora la plataforma simplemente siguiendo enlaces internos-, no se descubrirá el contenido que hay detrás de estos elementos dinámicos, ya que los botones no son funcionales en las páginas prerrenderizadas.

Para solucionarlo, asegúrate de que tu herramienta de archivo utiliza el archivo /sitemap.xml servido desde tu plataforma. Enumera todas las páginas, para que el archivo esté completo. La mayoría de los programas de raspado lo hacen inmediatamente, pero merece la pena comprobarlo.

¿Ha quedado contestada tu pregunta?