Leyendo la nube: escenas de la vida en la era del Big Data

Por José Luis de Vicente

El 26 de Noviembre de 2009 el sitio web Wikileaks, un conocido servicio que se dedica a filtrar a través de Internet información confidencial, hizo público un conjunto de datos especialmente sensible[1]. Se trataba de un paquete de medio millón de mensajes privados procedentes de los servicios comerciales de mensáfonos y “beepers”, actualmente casi desaparecidos. Los mensajes, con varios años de antiguedad, circularon por las redes norteamericanas de telefonía el mismo día, una fecha cuya trascendencia reconocería cualquier ciudadano del planeta al instante: 11 de Septiembre de 2001.

Examinar el conjunto de datos liberado por Wikileaks es  muy educativo, porque muestra  el carácter híbrido de los datos que circulan por una infraestructura digital. Hay mensajes entre personas (“PLEASE CALL YOUR DAUGHTER INMEDIATELY”), pero también otros generados por sistemas para sus usuarios, así como mensajes incomprensibles para un humano, rastros de la comunicación invisible entre dos sistemas informáticos.

A lo largo de la mañana del 26 de Noviembre, Wikileaks recreó en tiempo real los acontecimientos del 11-S, haciendo públicos progresivamente los mensajes minuto a minuto. De manera improbable, los mensajes de desconcierto y horror que circularon por buscas y beepers en Septiembre de 2001 se reencarnan en un sistema de información que no existía el día del atentado: Twitter. Los usuarios de esta popular red de Microblogging escarban entre los miles de mensajes para desenterrar los más llamativos, y les añaden una etiqueta común para identificarlos, “#911txts”.

Cómo de costumbre, Wikileaks nunca reveló el origen de los datos ni el responsable de la filtración, pero gracias a él los historiadores del futuro poseerán un documento impagable: una crónica fechada segundo a segundo, desde miles de punto de vista y de carácter privado, del acontecimiento definitorio de los primeros años del siglo XXI.

Esta persistencia, en algún centro de datos gubernamental o de una compañía de telecomunicaciones, de medio millón de mensajes privados procedentes de una tecnología caduca, es un hecho netamente contemporáneo.  La generación de datos y su almacenamiento es una de las grandes industrias en auge, y  la actividad social cotidiana se ha convertido en uno de los mayores sectores que producen información archivable y preservable.

 

Big Data

“El Tsunami de Datos” es como se ha bautizado a a la percepción colectiva de que nuestra capacidad para generar y almacenar información se ha multiplicado exponencialmente en los últimos diez años, en órdenes difícilmente imaginables. El salto de magnitud que se produce entre el primer modelo de iPod lanzado al mercado en 2001 (5 Gigas de capacidad, espacio para 1200 canciones) y su equivalente en 2010 (160 Gigas, 40.000 canciones) es trasladable a todos los sistemas digitales que recogen, procesan y almacenan información.

Almacenar la información se ha vuelto tan sencillo que a la hora de decidir cuál es la manera más rentable de decidir la información que es valioso conservar y la que no,  la opción más barata es guardarla toda, para siempre, con la única barrera de las limitaciones políticas a la retención de de datos.  En una red social como Facebook, con más de 400 millones de usuarios, cada interacción individual, cada foto etiquetada o cada gesto expresado en un “me gusta esto” se preserva indefinidamente. [2]

Al cruzar un umbral determinado, el tamaño de un conjunto de datos nos sitúa en un mundo diferente. Cuando la unidad de medición es el Petabyte (un millón de gigas, o la cantidad de información procesada por los servidores de Google cada 72 minutos), nos situamos en un escenario nuevo para la metodología científica. En la era del Big Data los problemas para estructurar y representar la información son distintos, pero también lo son las conclusiones que podemos sacar de su análisis.

El Minado de Datos o Datamining -la detección de patrones de significado en estructuras de información- se ha convertido así en una técnica de interpretación de la realidad esencial. Colectivos como RYBN entienden la disponibilidad masiva de datos como una materia de trabajo que no se puede pasar por alto. En Antidatamining, las técnicas y herramientas que se emplean habitualmente en el análisis de datos financieros se ven subvertidas para generar una interpretación visual de procesos centrales en el funcionamiento sistémico de la economía global. Esta fascinación por los códigos visuales de las estructuras de datos está también en Still Living, una serie de instalaciones de Antoine Schmitt en el que se sublima el significante -tartas de proporción, líneas de evolución de resultados- al borrar toda referencia al significado.

 

La nube

Si tus mensajes de correo no se guardan en tu ordenador sino en una cuenta de Gmail; las canciones que escuchas se reproducen a través de Spotify o tus fotos están almacenadas en Flickr, tus datos viven en La nube. La Nube es la marca que la industria de Internet ha acuñado para referirse a aquellos servicios en que los datos no se almacenan en el ordenador del usuario, sino en servidores remotos accesibles al instante desde cualquer dispositivo. Pocas veces una metáfora había sido tan engañosa, porque la nube no es ni vaporosa ni intangible.

La infraestructura necesaria para mantener la nube en funcionamiento supone decenas de instalaciones industriales repartidas por todo el mundo, grandes naves que contienen centenares de procesadores, sistemas de almacenamiento e infraestructura eléctrica y de refrigeración. Compañías como Google, Facebook y Microsoft poseen numerosos datacenters en distintos países, aunque los datos precisos sobre su número y localización son confidenciales. Los datacenters son la arquitectura fabril de la sociedad de la información. Factorías de datos que intentan pasar desapercibidas, y sobre las que sus dueños prefieren evitar dar demasiados detalles.

Lo que si sabemos es que la Industria de la preservación y distribución de datos es uno de los sectores industriales en auge, y que su principal materia prima es la energía. Según la definición del periodista del New York Times Tom Vandervilt[3], un Data Center tiene más en común con una máquina que con un edificio al uso; la mayor parte de su contenido es infraestructura eléctrica que mantiene los equipos funcionando, e infraestructura de refrigeración que evita que se sobrecalienten.

Aunque sus dueños y diseñadores son los primeros interesados en optimizar el gasto energético de estas instalaciones, su consumo eléctrico es muy elevado. Se estima que la nube consume ya alrededor del 2 por ciento del gasto eléctrico mundial, superior a paises como Suecia. Alrededor del sesenta por ciento de esta energía se emplea en reducir la temperatura de los equipos.

En Helsinki, la Catedral Ortodoxa de Uspenski esconde bajo su suelo un refugio antiaéreo que pronto albergará un nuevo Data Center. En vez de intentar eliminar el calor que desprenden sus cientos de servidores en funcionamiento, la compañía finlandesa Academica está desarrollando un sistema de tuberías que capturará esta energía y la usará para alimentar la calefacción de un barrio residencial de mil viviendas[4]. Bajo la Catedral, los comentarios escritos en blogs, los pedidos a un sistema de venta online, las fotos de nuestras vacaciones, protegerán del frío a sus vecinos por la noche.

 

Yo, cuantificado

Nicholas Felton es un diseñador gráfico neoyorquino con un cierto seguimiento de culto en Internet. Todos los años, tras las vacaciones de Navidad, Felton elabora con preciosismo y cuidado extremo un documento que lanza a través de su Web: el Informe Feltron. El informe es un exhaustivo registro de las actividades de Nicholas a lo largo del año anterior; cuántas fotografías ha tomado, a qué restaurantes acude con más frecuencia, qué canciones han sonado más en su iPod. En 2009, decidió convertir la publicación en un estudio monográfico sobre sus encuentros con otras personas a lo largo del año[5].  Así, el Informe Feltron 2009 detalla que de las 1761 veces que Nicholas se encontró con algún familiar, amigo o compañero de trabajo, 255 veces sucedió en un restaurante y 60 en un museo, galería de arte o sala de conciertos. En las conversaciones que mantuvieron se mencionaron treinta películas distintas y 25 grupos de música. La marca de cerveza más consumida fue Stella Artois.

Nicholas Felton no está solo en su afición por registrar metódicamente sus actos. De hecho, ha surgido toda una economía de servicios y productos digitales cuyo objetivo es facilitar esta tarea a los que recopilan y analizan datos sobre si mismos. El pionero de la cultura digital Kevin Kelly es uno de ellos, y por eso mantiene el Blog The Quantified Self, un catálogo de “herramientas para conocer tu mente y tu cuerpo”. Allí se encuentran recursos como Fitday.com, un cuaderno de bitácora para los que hacen dieta en el que anotar sus progresos reduciendo su peso; My Every Move, una aplicación locativa para móviles con GPS que registra dónde estabas exactamente en cualquier momento concreto; Monthly.info, para facilitar a las mujeres la tarea de registrar los patrones del ciclo menstrual, o Bed.posted, en el que los usuarios pueden almacenar el cuándo, cómo y con quién de su vida sexual. Hasta Nicholas Felton ha probado suerte en esta industria de la auto-estadística lanzando Daytum, una start-up que pretende ofrecer una herramienta sencilla y flexible para ser Nicholas Felton.

Probablemente todo esto parece en el mejor de los casos excéntrico y en el peor maníaco. Pero sin hacer un esfuerzo expreso, todos los usuarios de la Web Social son ya en cierta medida Nicholas Felton. Sencillamente, externalizan, probablemente de manera inconsciente, esta tarea de cuantificar y medir los patrones de su vida cotidiana.

Bruce Shchneier, quizás el experto en seguridad informática más reconocido, explica cómo la generación de datos personales es una inevitabilidad de la omnipresencia de arquitecturas digitales.

Welcome to the future, where everything about you is saved. A future where your       actions are recorded (...) and your conversations are no longer ephemeral. A future   brought to you not by some 1984-like dystopia, but by the natural tendencies of   computers to produce data.

Data is the pollution of the information age. It’s a natural by-product of every      computer-mediated interaction. It stays around forever, unless it’s disposed of.[6]

Así, cuando añadimos contactos a nuestra cuenta de Facebook estamos dándole estructura a nuestra vida social. Cuando puntuamos positivamente una canción en un servicio de radio a la carta como Last.fm contribuimos a construir un modelo de nuestras preferencias musicales, un modelo que el sistema comparará con el del resto de los usuarios. Si detallamos en una cuenta de Dopplr los viajes que realizaremos en los próximos meses, el sistema calculará nuestra huella ecológica, pero también recogerá información sobre qué clase de personas visitan ciertas ciudades, y cuándo.

Lo que estamos haciendo es “parsear” nuestra vida cotidiana; darle un formato que las máquinas puedan entender. En la agregación de todos esas elecciones individuales y datos sueltos hay un probable valor. Examinar y analizar este gran almacen de procesos sociales podría, quizás, enseñarnos algo sobre todos nosotros.

En sus “mapas de conversaciones”, Warren Sack traza y representa las conexiones entre contribuciones individuales a una misma discusión que se producen en Internet. Sus visualizaciones conectan hilos con decenas de participantes que se extienden a través de blogs, grupos de USENET o listas de correo. Esta tarea cartográfica sirve para destacar que la web puede operar también como un espacio para lo público en el que “el público de la sociedad red pueda entenderse a si mismo como un cuerpo político”.

 

Sombras y huellas

“The consequences for the social sciences will be enormous: they can finally have    access to masses of data that are of the same order of magnitude as that of their    older sisters, the natural science”.

Bruno Latour. Beware, Your Imagination leaves digital Traces[7]

En la Bienal de Arquitectura de Venecia de 2006, el arquitecto Carlo Ratti presentó en público por primera vez una cartografía de Roma que mostraba una dimensión de la ciudad inédita. En “Roma en Tiempo Real” vemos marcas de dirección y zonas de color de distintas intensidades proyectadas sobre las calles, plazas y avenidas de la ciudad. Esas marcas muestran la actividad en la red de telefonía móvil de la ciudad a medida que sus ciudadanos se mueven por ella. Sus fluctuaciones muestran el ritmo del día a día, reflejado en la cap de transmisiones electromagnéticas que flotan sobre la ciudad. En un trabajo posterior, Ratti y su grupo de investigación en el MIT SENSEable City Lab[8] muestran la misma red durante el partido de fútbol más esperado, la final del Mundial de Fútbol 2006 que enfrentó a Italia y Francia. No es difícil leer el partido y el comportamiento de la ciudad como si fuese un organismo, a través de las variaciones de intensidad de llamadas: inexistentes durante los minutos de juego, numerosas en el descanso, altísima en el instante en que Zidane comete su famoso cabezazo a Mazzerati, y en el momento del triunfo italiano.

 

SENSEable City LAb y otras unidades de investigación similares están intentando probar la hipotesis que plantea Bruno Latour. Si nuestra actividad social cotidiana genera un rastro de datos, y estos rastros se almacenan, se preservan y se organizan, ¿qué podemos aprender sobre nuestros comportamientos colectivos y las leyes que subyacen bajo estos?

El proyecto Google Flu Trends[9], hecho público en noviembre de 2008 con una importante repercusión mediática, es una posible respuesta optimista. En esta iniciativa, investigadores que trabajan en el gigante de la búsqueda compararon los datos oficiales del Centro de Control de Enfermedades sobre la incidencia del virus de la gripe en cada ciudad de Estados Unidos, con las busquedas relacionadas con la gripe que los internautas realizan en Google. La comparativa mostraba que existía una correlación clara -los síntomas de la llegada de la gripe produce una explosión de búsquedas sobre la enfermedad -, pero también que los datos llegaban a Google dos semanas antes que a través de los canales oficiales. De esta manera, agregar a gran escala datos personales se revela como una metodología para hacer emerger un conocimiento colectivo inaccesible de otra manera.

Pero en el momento en que se preservan y se agregan datos personales, aparecen toda clase de preguntas inquietantes: quién los posee, para qué se utilizan, quién tiene derecho a acceder a ellos. Mientras Google defiende que es necesario ampliar los plazos legales de retención de datos para permitir investigaciones potencialmente valiosas como Google Flu Trends[10], en estados autoritarios como Dubai, las autoridades solicitan a los operadores de telefonía copias de los SMS de sus clientes para condenar a esposas infieles por atentar contra la moral pública[11].

Al cruzar un umbral determinado, estamos en un mundo diferente. Y si bien los activistas de los derechos en Internet libran una importante batalla por asegurar que la industria de la preservación de procesos sociales no trae consigo el fin de la privacidad, casi todas las preguntas sobre sus implicaciones a largo plazo están por contestar.

 


[1] Actualmente (marzo de 2010) los datos no están disponibles, ya que Wikileaks ha tenido que retirar la mayor parte de sus contenidos al no poder costear sus gastos de ancho de banda. El proyecto está buscando donaciones que le permitan cubrir sus gastos de mantenimiento.

[2] Recientemente, la revista online The Rumplus publicó una conversación con un empleado no identificado de Facebook. Se puede consultar en: http://therumpus.net/2010/01/conversations-about-the-internet-5-anonymous-facebook-employee/

De especial interés es el siguiente fragmento: “The Rumpus: On your servers, do you save everything ever entered into Facebook at any time, whether or not it’s been deleted, untagged, and so forth?

Facebook Employee: That is essentially correct at this moment. The only reason we’re changing that is for performance reasons. When you make any sort of interaction on Facebook — upload a photo, click on somebody’s profile, update your status, change your profile information —we definitely store snapshots, which is basically a picture of all the data on all of our servers. I want to say we do that every hour, of every day of every week of every month.”

[3] Vanderbilt, T. “Data Center Overload”, http://www.nytimes.com/2009/06/14/magazine/14search-t.html

[4] Pagnamenta, R. “Computer power provides heat for Helsinki”, http://business.timesonline.co.uk/tol/business/industry_sectors/natural_resources/article7022488.ece

[5] http://feltron.com/index.php?/content/2009_annual_report/

[6] Schneier, B. “Privacy in the Age of Persistence”, http://www.schneier.com/blog/archives/2009/02/privacy_in_the.html

[7] Accesible en http://www.bruno-latour.fr/poparticles/poparticle/P-129-THES-GB.doc Le agradezco a Fabien Girardin esta referencia.

[8] http://senseable.mit.edu/

[9] http://www.google.org/flutrends/

[10] Darren Waters, “Wiping Data Hits Flu Prediction” http://news.bbc.co.uk/2/hi/technology/8058084.stm

[11] “Airline Crew in Dubai Jailed for Sexting”  http://www.myfoxspokane.com/dpps/news/dpgoh-airline-crew-in-dubai-jailed-for-sexting-fc-20100318_6628380

el proceso como paradigma
23
Abr
2010
30
Ago
2010

Arte en desarrollo, cambio y transformación.

Sugerencias
el proceso como paradigma 23/04/2010

Arte en desarrollo, cambio y transformación.

Leer la exposición - Extinción Remota Detectada 23/06/2022 22:00

Empezamos Leer la exposición, actividad que invita a descubrir las exposiciones de LABoral Centro ...

Voluntari@s para proyecto de lectura colectiva 13/04/2010

LABoral está buscando colaboradores que quieran participar en el desarrollo de una de las piezas ...

Voluntari@s para proyecto de lectura colectiva 13/04/2010

LABoral está buscando colaboradores que quieran participar en el desarrollo de una de las piezas ...

Taller Seminario Interactivos? en el marco de la exposición el proceso como paradigma 08/04/2009

Una colaboración de LABoral y Medialab-Prado, del Área de Las Artes del Ayuntamiento de Madrid

Taller Seminario Interactivos? 08/04/2009 00:00

Una colaboración de LABoral y Medialab-Prado, del Área de Las Artes del Ayuntamiento de Madrid

La performatividad en el arte y la producción de presencia

Susanne Jaschko, comisaria de la muestra, Berlín

"El lenguaje de la información es cada vez más un lenguaje militarizado" "El lenguaje de la información es cada vez más un lenguaje militarizado"

Entrevistamos a Graeme Thomson & Silvia Maglioni por su exposición en "Llega un grito a través ...

Vivir Experiencias 04/11/2011 18:00

Muestra de Eco-Talleres de Gaia y Sophia en el ecoLAB. Charla y presentación el viernes 4 de ...

Reflexión sobre el nuevo paradigma de la era de internet

Por César Alierta. Presidente de Fundación Telefónica