Nuestro plan para conservar las webs de hace años está fracasando: de Archive.org a los enlaces rotos de medio internet

Con la llegada de internet a la mayoría de los hogares, parecía que se iniciaba una época en la que cualquiera con una conexión tenía abierta una ventana al mundo repleta de información, cultura y ocio. Una biblioteca sin limitaciones espaciales donde albergar todo el conocimiento. Lugares como las hemerotecas corrían el riesgo de extinguirse en detrimento de servicios digitales online a los que acceder desde cualquier sitio y en cualquier lugar.

Nada más lejos de la realidad: como ya sucediera en Alejandría, toda esa información publicada y almacenada en la "biblioteca" de internet está desapareciendo sin necesidad de un incendio. Basta con el paso del tiempo. ¿Es buena idea confiar toda la información a nubes y servidores?

Error 404 Not found

Comprobarlo es muy fácil: solo tenemos que buscar información para documentar un artículo, preparar un trabajo para clase o resolver la típica disputa entre amigos que se salda googleando.

No hace falta irse muy lejos, basta con buscar algo que fuera actualidad hace algunos años. Pero veámoslo con un ejemplo. Como es más fácil encontrar estos fallos cuando no los buscas, probaremos suerte googleando "floppy disk". Google nos devuelve treinta y un millones de resultados.

Elegimos al azar una entrada que en teoría debería mostrarnos la evolución de las cinco décadas de vida del disquete, albergada en la siguiente ruta de la web Disk Trend: http://www.disktrend.com/5decades2.htm.

Lo que vemos a la izquierda es la información que debería salir y a la derecha, la que verdaderamente aparece.

Así que El dominio de la web ya no pertenece a Disk Trend, por lo que buscando información relativamente antigua podemos toparnos con páginas que nada tienen que ver con la entrada indexada.

Otra de las entradas, albergada en la web Linux Command (concretamente http://linuxcommand.org/man_pages/floppy8.html), en teoría debería repasar cómo ha ido variando la capacidad del disquete a lo largo de su historia. Lo que encontramos en realidad es un error 404.

Probamos de nuevo con más entradas de floppy disk en Google. Esta antigua entrada albergada en la web del Consejo Profesional de Ciencias Económicas de la Ciudad Autónoma de Buenos Aires (http://www.consejo.org.ar/aplicativos/preg_frecuentes_sifere.htm) debería explicar cómo el disquete se usaba para presentar la declaración de la renta en Argentina. Si haces click sobre el enlace, volverás a toparte con otro error 404.

Buscando información "antigua" es relativamente frecuente toparse con el famoso error 404. ¿Qué significa? Aquí tienes una guía básica con los principales errores que puedes encontrar navegando por internet en la que por supuesto, se encuentra el mítico "Error 404, not found".

Es bastante frecuente que los motores de búsqueda proporcionen entre sus resultados contenidos que ya no están disponibles en esa dirección. Esto se debe porque o bien porque la web original ha dejado de existir o el dominio dominio caducó y ya no fue renovado, por lo que ahora pertenece a otra persona.

Como no es posible saber si un contenido ha sido movido o eliminado, estos enlaces rotos seguirán disponibles en internet al alcance de todos durante un buen periodo de tiempo. Además, como tampoco se notifica al resto de páginas webs y blogs de esta incidencia, muchos de ellos pueden contener enlaces que dirigen a esta página que ya no se encuentra disponible.

Perdiendo las fuentes...¿y la fiabilidad?

Que las páginas web se pierdan es un problema en sí mismo que evidencia que el contenido de internet no va a estar ahí para siempre. Pero también es un problema cuando estas páginas se usan como fuente. Es el caso de Wikipedia, que confía en enlaces externos como referencias para aportar verificabilidad.

Siguiendo con el ejemplo del "floppy disk", ahora buscamos su entrada en inglés en la Wikipedia:

Como Wikipedia no es una fuente primaria, según la política de esta enciclopedia online todos sus artículos han de contener referencias suficientes para que pueda comprobarse "exactitud, precisión y neutralidad del artículo, y buscar más información sobre el tema", ya que todo su contenido debe haber sido publicado previamente en otro lugar.

Por eso en todos los artículos de Wikipedia hay unas referencias en el texto en forma de superíndice numérico que podemos consultar en la parte inferior de la entrada, accediendo a los artículos originales.

¿Recuerdas la entrada de Disk Trend del punto anterior que nos llevaba a una página que no tenía nada que ver? Resulta que es una de las referencias en las que se sustenta el artículo:

La autoridad de Wikipedia ha estado en tela de juicio desde el principio porque cualquiera puede modificarla a su antojo. Una medida que tiene su lado malo en cuanto a que no se requiere ningún conocimiento o rigurosidad para modificar artículos que son consultados cada día por millones de personas, pero que posibilita el conocimiento abierto y actualizado.

Pero Wikipedia es mucho más que el sitio de consulta más popular de internet: según investigadores del MIT, es capaz de influir y potenciar el conocimiento científico.

Sin embargo, este parecer podría cambiar cuando las referencias que sustentan la enciclopedia web de conocimiento abierto desaparezcan, algo que de hecho ya está sucediendo. Si no hay fuentes en las que respaldarse, ¿qué autoridad tendrá Wikipedia a largo plazo?

Iniciativas contra el olvido de internet: Archive.org

Afortunadamente, existen algunas iniciativas como Archive.org que intentan frenar el olvido de la red. La Wayback Machine es el acceso a un archivo digital del World Wide Web que, además de almacenar libros, películas, audios, software, programas de TV y conciertos, también se ha propuesto almacenar internet.

De este modo, el servicio permite a los usuarios ver versiones archivadas de páginas web a través de algo que ellos mismos denominan "el index tridimensional".

Este proyecto sin ánimo de lucro nació en 1996 en la antigua prisión de San Francisco de la mano del activista de internet Brewster Kahle y desde entonces ha crecido de forma potencial, pero, ¿serán capaces de almacenar todo internet? ¿dónde y cómo podrán hacerlo?

Aunque comenzó guardándose en cintas digitales, pronto resultó inviable, pasando de los racks PetaBox de Capricorn Technologies a un centro de datos de Sun Microsystems en California en 2009.

En aquel momento, la Wayback Machine contenía aproximadamente 3 petabytes de datos, experimentando un crecimiento de 100TB al mes. Actualmente, Wayback Machine contiene más de 334.000.000.000 páginas web y su ritmo de crecimiento sigue aumentando.

¿Cómo guardan internet?

Para descargar y almacenar internet, la fundación Archive.org ha desarrollado un software específico optimizado con inteligencia artificial que actúa como una red de arrastre de pesca en el fondo del mar, que en este caso es internet. Para hacerlo posible, ha contado con el apoyo de la Fundación Sloan, una filantrópica norteamericana centrada en la ciencia y la tecnología y Alexa, una firma que proporciona datos y análisis comerciales de tráfico web propiedad de Amazon.

Pero no lo guarda todo, solo el contenido accesible y público del World Wide Web, siguiendo dos protocolos que fueron muy populares en la década de los 90: la jerarquía Gopher y el sistema de tablón de anuncios Bulletin Board System.

La jerarquía Gopher permite trasladarse de un sitio a otro eligiendo una opción en el menú de una página, algo que hacemos sin darnos cuenta cuando pulsamos sobre un enlace. Por su parte, el BBS era la antesala de los foros actuales, permitiendo descargar software y datos, leer noticias, intercambiar mensajes con otros usuarios, crear zonas privadas... De este modo, el software rastrea cada uno de los enlaces del árbol de información contenido en una web, lo descarga y lo almacena.

Asimismo, este software sigue las normas del estándar de exclusión de robots, de modo que se queda solo con lo importante de una web, obviando información superflua o aquella información que los webmasters han querido mantener como privada.

La frecuencia de capturas varía según la página web y su tamaño. Existen varias listas de arrastre la Worldwide Web en la que se almacenan las páginas cada vez que se pasa esta red, un proceso que puede llegar a durar meses o años en función del tamaño.

¿Qué entra y qué se queda fuera?

Aunque su misión sea guardar todo el contenido accesible y público de la red, este software de arrastre no incluye toda la información disponible en internet, quedando fuera aquella cuyos datos son restringidos por la publicación o almacenado en bases de datos que no están accesibles públicamente.

Para evitar inconsistencias en páginas web que se han podido almacenar parcialmente, en 2005 la Fundación desarrolló Archive-It.org, una plataforma que permite a las instituciones y creadores de contenidos guardar voluntariamente sus colecciones para nutrir el archivo digital.

Como los dueños de las webs tienen la opción de elegir aparecer en la Wayback Machine, si cambian de parecer, el software aplica la decisión retroactivamente y borra todo lo que hubiera guardado.

De hecho, su forma de proceder plantea cuestiones legales en Europa por un posible infringimiento del Copyright si no existe permiso explicito. No es el único lugar donde han tenido problemas: en Estados Unidos la Cienciología se ha opuesto a que se almacene información relativa a su iglesia y no puede operar en China y Rusia está prohibida.

Sorprendentemente es la censura y no la falta de espacio el mayor problema de Archive.org

Y es que el tiempo corre en contra de internet y no solo es cuestión de desindexación o el error 404: también la manipulación, los ciberataques, la destrucción remota o física de información ponen en peligro la ingente cantidad de información de nuestra civilización.

Alternativas a Archive.org

Aunque Archive.org sea el proyecto más potente y con mayor extensión, no es el único. Otras como Archive.fo, Pagefreezer o competidor Screenshots permiten almacenar el contenido de webs y buscar cómo han ido variando su aspecto y su contenido.

A nivel educativo también se encuentra Perma.cc un servicio de almacenamiento web centrado en temática legal y académica fundado por la Harvard Library Innovation Lab en 2013.