El hombre que intenta capturar Internet antes de que desaparezca

Los sitios web del gobierno han sufrido cambios masivos desde que el presidente Donald Trump regresó al cargo.

Algunos de los cambios son rutinarios, como intercambiar al actual presidente y vicepresidente de sus predecesores en el sitio oficial de la Casa Blanca.

Pero otros cambios van mucho más lejos. Varios sitios, como USAID.gov, ReproductiveRights.gov y la versión en español de Whitehouse.gov, se han desconectado. Los sitios restantes se han eliminado de ciertos datos y terminología para cumplir con las órdenes ejecutivas de Trump dirigidas a la «ideología de género» y DEI.

Es una aceleración de un problema conocido como decadencia digital, o Linkrot. Grandes cantidades de Internet están desapareciendo a medida que los medios de comunicación se van, las empresas actualizan su infraestructura web o que las organizaciones eliminan la información que creen que ya no es valiosa o relevante. Un estudio reciente del Centro de Investigación Pew encontró que el 38 por ciento de las páginas web que existían en 2013 ya no están disponibles. Porque gran parte de nuestra cultura ahora sucede en línea, perder esas páginas significa perder parte del registro de nosotros mismos.

Mark Graham, director de The Wayback Machine, se unió a Sean Rameswaram en Hoy, explicado Para hablar sobre la decadencia digital, lo que su equipo está haciendo para combatir el problema en general y durante el segundo mandato de Trump, y por qué la preservación de Internet es tan importante.

A continuación se muestra un extracto de la conversación, editado por longitud y claridad. Hay mucho más en el podcast completo, así que escucha Hoy, explicado Donde sea que obtenga podcasts, incluidos los podcasts de Apple, Spotify y Stitcher.

Para las personas que tal vez hayan topado con su sitio web pero que realmente no saben lo que haces, ¿puedes darles una idea de las cosas que ustedes han guardado en 30 años?

¿Dónde empiezo? Es como entrar en una biblioteca muy grande y decir: «Muéstrame tu libro favorito».

El año pasado, hubo una gran noticia de que MTV News se cerró. El editor fundador escribió sobre esto en LinkedIn, y había muchos otros editores hablando de eso: “Dios mío, todos nuestros artículos se han ido. Están desaparecidos «. Y simplemente me metí casualmente en la conversación y fui: «Hola, um … revisa la máquina Wayback».

Eran como, ‘Dios mío, ustedes lo obtuvieron todo. ¿Qué hiciste?’ No hicimos nada Cuando el sitio cayó Porque hemos estado haciendo nuestro trabajo todo el tiempo. Hemos estado trabajando para archivar la web pública, como se publica, de manera continua continua. Si tenemos que comenzar a prestar atención a algo después de que se ha reducido, eso significa que nos arruinamos.

Entonces, ¿qué están haciendo ustedes antes de que estos sitios bajen para asegurarse de que las personas puedan averiguar de qué estaba cantando Everlast en 2004?

Establecemos nuestros rastreadores web y archivamos el software en una misión todos los días para identificar y descargar páginas web y recursos relacionados con la web. Traemos millones y millones de URL todos los días que son señales de dónde se publica un nuevo material en la web. Y nos aseguramos de archivar todas esas URL y todas las páginas web asociadas con esas URL.

Luego, miramos esas páginas e identificamos enlaces a otras páginas. Y luego vamos a aquellos páginas y las archivamos. Ahí es donde obtienes esta metáfora de gatear como una araña en esta web.

El resultado neto es que agregamos más de mil millones de URL archivadas a la máquina Wayback todos los días. Este material que se agrega a la máquina Wayback está indexado e inmediatamente está disponible para las personas que van a Web Dot Archive.org e ingresan una URL. Luego pueden ver un historial de archivos que tenemos de esa página web que estaba disponible en la URL en un momento dado.

«Ahí es donde obtienes esta metáfora de gatear como una araña en esta web».

Quiero hablar sobre los sitios web del gobierno, porque esa es la razón por la que tenemos esta conversación hoy. Creo que la mayoría de la gente probablemente piense que el gobierno se encargará de archivar sitios web del gobierno. Pero aquí estamos en una nueva administración y los sitios web están desapareciendo, volviendo en línea, y la gente está preocupada. Cuando usted, un archivero de Internet, vea esto, ¿cómo reacciona ante eso? ¿Es mejor o peor que los sitios web regulares no gubernamentales que se desconectan?

Bueno, como estadounidense, mis dólares de impuestos ayudan a pagar algunas de estas cosas y gran parte es un beneficio para las personas. Ciertamente, mi primera reacción es: eso podría no ser tan bueno.

Quiero subrayar que la Administración Nacional de Archivos y Registros también realiza el archivo y la Biblioteca del Congreso. Así que no es como si fuéramos el único juego en la ciudad. Pero por cualquier razón, parece que somos uno de los principales actores en el espacio de tratar de archivar gran parte de la web pública, incluidos, y en este momento, los sitios web del gobierno de los Estados Unidos y hacer que esos archivos estén disponibles en tiempo real.

¿Te sorprendieron la guardia baja cuando vio la nueva administración eliminando las páginas web, eliminando los sitios web?

En algunos aspectos, esto es normal y esperado. Es lo que sucedió, francamente, para cada administración en el tiempo que hemos estado trabajando en este esfuerzo. Quiero decir, mira, está bajo una nueva gestión, ¿verdad? No esperaría que el sitio web de Whitehouse.gov bajo ninguna nueva administración presidencial sea la misma que antes. Verá el BIOS de las personas que forman parte de la administración actual, la noticia de esa administración. Salimos de nuestro camino para tratar de anticipar la frecuencia en que las páginas web deben archivarse para que tengamos una buena oportunidad para obtener esos cambios.

Estás diciendo que el sitio Whitehouse.gov obviamente cambia la administración a la administración. Creo que hasta cierto punto las personas entienden que: la administración de Joe Biden probablemente no habría estado publicando San Valentín sobre la inmigración a su cuenta de Instagram hace un año. Pero lo que estamos viendo aquí son los sitios web que las personas necesitan, sitios web que registran información de salud pública que se desconectan, brevemente, permanentemente, qué tiene usted.

¿Es ese un grado diferente de borrar el registro histórico, o jugar con el registro histórico, de lo que hemos visto?

Eso es cierto. Es. Es diferente. Ciertamente es diferente en términos del número (de cambios), ¡aparentemente! Todavía estamos en las primeras etapas de esta administración, pero sí, diría que a primera vista, tienes razón. Históricamente, no hemos visto a los principales sitios web del gobierno de EE. UU. Desactivados como lo hicimos, por ejemplo, con respecto a USAID. Pero voy a dejar ese tipo de análisis a los demás, y realmente me concentraré en tratar de archivar el material.

Wayback Machine y el archivo de Internet se financian principalmente a través de donaciones: la generosidad de personas, instituciones, incluso gobiernos. ¿Será eso suficiente para archivar Internet en la medida en que las generaciones futuras desearán y necesitarán?

«Suficiente» es un término muy subjetivo. Como archivero, para mí, nunca es suficiente. No sé, y nadie sabe, qué será de uso, valor, importancia en el futuro, tal vez incluso el futuro cercano del mañana, y mucho menos el futuro muy lejano. Dado que millones de personas usan nuestro sitio a diario, recibimos muchos comentarios de ellas. Nos motiva, pero también nos ayuda a dirigirnos y nos inspira a tratar continuamente de hacer un mejor trabajo al ser la mejor biblioteca que podamos ser.

«Como archivero, para mí, nunca es suficiente».

Ustedes han estado en esto durante casi tres décadas. Ciertamente, has guardado muchas cosas. Ciertamente, muchas cosas han caído en las grietas. Me pregunto, ¿hay algo que se deslice a través de las grietas que podrían sugerir a nuestra audiencia lo que se pierde cuando no podemos archivar en la medida que queremos o necesitamos?

¡Está bien, tengo uno! Esto es solo en la historia reciente. Aparentemente, había una página en el sitio web de los CDC sobre la gripe para aves la semana pasada que solo estuvo en unos minutos, y nadie lo consiguió.

Y al perder esa página web fugaz, esa página web quizás menor, tal vez mayor sobre la gripe de aves en el sitio web de los CDC, ¿qué estamos perdiendo?

Bueno, estamos perdiendo parte de la historia, ¿verdad? Estamos perdiendo parte de nuestra comprensión de la evolución de posiblemente un problema de salud significativo. No sabemos a dónde va a ir esto. Supongo que ese es el otro punto, ¿verdad? Ahora no sabes lo que va a ser muy importante en el término a punto o a largo plazo.

En la época de Martin Luther, hubo furiosos debates. Gran parte de ese debate tomó la forma de cosas que fueron escritas en panfletos. Los panfletos en ese momento se consideraban de poco valor: la gente los leía y los compartían, pero no necesariamente los salvaron. Así que hoy, un erudito de la época, o alguien como yo, que es extrañamente curioso, lo que daría por una colección de esos folletos.

Usted está comparando, en cierto modo, un sitio web de los CDC con la Reforma Protestante. Pero creo que lo dices en serio, ¿no?

¡Sí! Porque no saber. Uno realmente no poder Conozca sin el beneficio de la larga visión histórica. Eso no es algo a lo que tengamos acceso hoy. ¿Por qué? Porque no tenemos una máquina en tiempo real.