La correlación engañosa:¿macrodatos o datos basura?

 

2016-03-09_6918k1hs214n9e7jpg

De acuerdo con un reciente informe de IBM, solo en los últimos dos años se han  generado el 90 por ciento de todos los datos digitales existentes, y se estima que el tráfico global mensual de datos de telefonía móvil asciende a algo así como 11.000 millones de gigabytes. Para explorar estas enormidades, todo el mundo habla ahora del tratamiento de los macro datos o big data, con frecuencia en unos términos apocalípticamente optimistas: una nueva verdad para las ciencias sociales, una forma superior de inteligencia, objetividad y análisis. 

Claro que hay también muchas voces que ponen en duda estas grandes promesas del análisis masivo y -más que una utopía- ven una peligrosa distopía en el manejo de millones de datos. Además, y esta es la tesis de mí entrada de hoy, big data significa  con frecuencia dirty data, de modo que la información sin utilidad real crece exponencialmente al mismo tiempo que su volumen: ese es precisamente su problema, demasiados datos no sirven. Salvo los más evidentes, claro.

Facebook y los 50 millones de datos

Los medios están dando  estas semanas una cobertura   enorme al escándalo de Facebook y la empresa Cambridge Analytica, que vuelve a revelar la vulnerabilidad  del usuario en las redes sociales, aunque también refleja  una cierta ingenuidad  sobre lo que ahora mismo  es capaz de ofrecer el análisis de datos masivos, que es sobre lo que quisiera reflexionar.

Por ejemplo, en un reciente artículo (“El algoritmo intolerante”)  Irene Lozano  dice que el algoritmo constituye el secreto mejor guardado de compañías como Facebook,  porque predice nuestro  comportamiento. Afirmación desde mi punto de vista algo naif,  salvo que se refiera a los comportamientos (mejor decir hábitos) más obvios y mecánicos. En su mayor parte, al menos en este momento, estas herramientas describen pero no predicen.

Peor es el caso de la esperada entrevista a  Christopher Wylie, ex director de investigación de Cambridge Analytica, la empresa  que filtró  vía Facebook  la información de millones  de  usuarios para la campaña de  Trump . El periodista (diario El País)  está ya entregado de antemano ante el personaje, al que define  como “fascinante. Un joven canadiense vegano y gay”. No sé  cuál es  el valor exacto  de estos atributos  en un científico social, pero  Wylie  en realidad nos cuenta que  su carrera se limita a haber sido un cool hunter o husmeador de tendencias. Un perfil  muy habitual  en el mundo de los estudios de mercado hace unos años,así que a lo largo de la entrevista nos deja opiniones tan poco sutiles como que la política y la moda son exactamente lo mismo -el problema está en exactamente- y que  “se puede pensar en Trump en términos de moda: yo lo veo igual que las sandalias Crocs”. Parece que ha descubierto el Marketing político más básico, el ex director de Cambridge Analytica.

41331522058765_703094_1522061119_sumario_normal_recorte1

Los macro datos prometen a científicos, gobiernos y grandes empresas hacer emerger de manera automática relaciones  hasta ahora ocultas entre todo tipo de variables.Ante tanto optimismo desatado, ha habido respuestas contundentes que han demostrado que, en bases de datos muy grandes, aparecen siempre correlaciones arbitrarias, no debidas necesariamente a la naturaleza de los datos, sino solo a su cantidad.

Mi propia experiencia  con todos  los estudios de “social Media ”  que he dirigido  me confirma  el peligro constante de caer en obviedades, en   datos que en realidad defraudan  muchas veces las expectativas de  los clientes,  y  en  la profesionalidad que requiere  analizar y   contextualizar adecuadamente miles de conversaciones para no llegar a conclusiones  falsas, erróneas  o incluso estúpidas.

La correlación engañosa

Correlación no implica causalidad. La correlación espúrea es bien conocida en las ciencias sociales. Significa engañosa o falsa y fue propuesta por primera vez por Karl Pearson para referirse a las correlaciones ilusorias.

Un ejemplo histórico que hoy nos resulta  improbable, fue la defensa que hicieron las tabacaleras ante la alta correlación entre cáncer y tabaco: los enfermos de cáncer fumaban para aliviar los dolores, argumentaban. Suena tan absurdo que pensamos que nadie puede caer en semejante trampa mental, pero está al orden del día en estos   análisis  macro.

El profesor Luque, del departamento de matemática aplicada y estadística de la Universidad Politécnica, nos remite incluso a algo tan gráfico como la explicación aportada por Tyler Vigen, estudiante de criminología de Harvard: Vigen ha desarrollado un programa que detecta automáticamente correlaciones entre conjuntos de datos de lo más variopinto. Un vistazo en su página web (tylervigen.com/spurious-correlations) pone en evidencia correlaciones absurdas, como la existente entre el gasto en I+D de EE.UU. y el número de suicidios por ahorcamiento, estrangulamiento o asfixia a lo largo de una década; o la tasa de divorcios en Maine y el consumo per cápita de margarina, también durante diez años.

Perfiles psicológicos válidos  a gran escala

Además de las falsas correlaciones, el  problema del  análisis de datos masivos que promete  todo tipo de cruce de variables sigue siendo el mismo: sin un marco o modelo teórico, no hay jerarquía en la atribución del peso de cada variable.

La generación de perfiles psicológicos es algo complejo,  no precisamente  nuevo en los estudios de mercado,  como prometen los big data. Y  no suele permitir más de seis o siete categorías aplicables  por muchos millones de perfiles que analicemos, además de no servir como referente general. Hace años que usamos  modelos  psicológicos, pero  varían enormemente  en función del tipo de mercado, que suelen ser multimodales. Es decir, que un perfil de segmentación  basado en agrupaciones motivacionales y psicológicas puede variar notablemente en un mismo individuo o consumidor dependiendo del tipo de consumo, proceso de decisión o contexto.

images (18)images (16)

Describir no es predecir

El responsable de Target Point, una de las empresas españolas dedicadas a vender la explotación de macro datos a partidos políticos, afirmaba triunfante  que la magia de Facebook es la capacidad de adaptar cada mensaje a un público muy segmentado. Por ejemplo: hombre, leonés mayor de 50 años, que simpatiza con líderes del PP (…) y escucha Pimpinela.

Cuando comenté esta frase a un amigo que lleva años analizando el comportamiento político en el centro de investigaciones sociológicas (CIS),obtuve una  gran risotada: “si vive en León y tiene más de 50 años lo más probable  es que vote al PP, para eso no necesito analizar centenares de miles de páginas de Facebook, aunque si las necesitaría si quisiera  colocarles un mensaje”.  Y es que lo que en realidad están haciendo la mayoría de estos gurús del big data  es trabajar sobre donde colocar los mensajes, y que estos parezcan no verdaderos, sino sencillamente verosímiles. Con frecuencia además, suelen  adaptar el mensaje a un segmento definido de un modo bastante pobre. Si Cambridge Analytica, Target Point o similares hubieran sido capaces de definir de verdad estos perfiles que dicen, muy probablemente  no necesitarían 50 millones de datos de la red social.

No es complicado construir modelos para saber qué probabilidad tienes de ser diabético, de votar por un partido o de estar comprando pan sin gluten….el problema en el comportamiento político- pero no solo-  es que aunque  los datos puedan ser infinitos no existe “un modelo”,  salvo el básico. Dicho de otro modo: en realidad hay muchos modelos para comportamiento político, pero ninguno que se verifique realmente. Es verdad que  se puede predecir cómo se va a comportar la gente mientras no cambie el comportamiento político, pero si cambia, todas las predicciones de las encuestas fallan. No hay más que ver cómo en estos años de crisis la gran mayoría de  las encuestas ha fallado. Y lo han hecho por la realidad incontestable de que los electores han cambiado su forma de comportarse. Con big data y sin ellos, al menos hasta el momento.