ArchiveBox, una solución para crear nuestro propio Archive.org en miniatura y personalizado

La preservación de contenidos online es uno de los grandes desafíos de la actual sociedad digital: generamos una cantidad de información mayor que en ningún momento previo de la historia, pero gran parte de ella puede perderse al mismo endiablado ritmo en que la producimos.

Por eso han surgido iniciativas como Archive.org, que busca crear un repositorio de contenidos capaz de reflejar los cambios en el contenido de la WWW. Pero, ¿por qué conformarnos con un único repositorio centralizado cuando cualquier usuario podría crearse una versión reducida para salvaguardar los sitios web más relevantes para él?

Y como respuesta a dicha pregunta nació ArchiveBox, una solución de archivado autohospedada (es decir, que tendremos que instalar en nuestro propio equipo de trabajo o servidor) y desarrollada en Python (concretamente, requerirá que tengamos instalado Python 3.7 o superior) que podemos usar en sistemas:

Según sus instrucciones de uso (aquí tienes todo lo que necesitas para instalarlo y usarlo), “sólo se tarda unos 5 minutos en poner en marcha ArchiveBox”.

Y una vez instalado su funcionamiento es simple: le proporcionamos las direcciones URL de las páginas que deseamos archivar, y el propio software se encarga de guardarlo en el formato adecuado en relación con el contenido del sitio y a su propia configuración.

Así, para cada URL agregada, ArchiveBox guarda en disco varios tipos de instantánea HTML y capturas de pantalla en PNG y PDF, amén de los ficheros pertinentes en cada caso (comprimidos, multimedia, texto)… también es capaz de replicar repositorios GIT completos.

A eso se suma que podemos configurarlo para que extraiga las URLs automáticamente de otras fuentes, como los marcadores de nuestro navegador, un listado de feeds RSS, servicios como Pocket o Instapaper, las publicaciones guardadas de Reddit, etc.

Y una vez descargado, el contenido archivado es visualizable desde el navegador y navegable a través de las carpetas del sistema de archivos; también podemos gestionar (actualizar, suprimir, etc) dichos contenidos a través de la línea de comandos. De hecho, una vez instalado ArchiveBox, para agregar una URL al programa sólo necesitaremos ejecutar un comando como

$ archivebox add https://www.youtube.com/watch?v=M41k0SSfqa8


La noticia

ArchiveBox, una solución para crear nuestro propio Archive.org en miniatura y personalizado

fue publicada originalmente en

Genbeta

por
Marcos Merino

.