Todo el mundo miente - Seth Stephens-Davidowitz - E-Book

Todo el mundo miente E-Book

Seth Stephens-Davidowitz

0,0

Beschreibung

En un día promedio de principios del siglo xxi, los seres humanos que buscan en Internet acumulan ocho billones de gigabytes de datos. Esta asombrosa cantidad de información puede decirnos mucho sobre quiénes somos, los miedos, deseos y comportamientos que nos impulsan y las decisiones conscientes e inconscientes que tomamos. De lo profundo a lo mundano, podemos obtener un asombroso conocimiento sobre la psique humana que hace menos de veinte años parecía insondable. Stephens-Davidowitz nos ofrece información fascinante, sorprendente y a menudo graciosa, sobre temas que van desde la economía hasta la ética, los deportes, el sexo, etc. Todo ello extraído del mundo del big data. A partir de estudios y experimentos sobre cómo vivimos y pensamos realmente, el autor demuestra en qué medida todo el mundo es un laboratorio. Con conclusiones que van desde lo extraño pero cierto hasta lo provocador y lo perturbador, explora el poder de este suero de la verdad digital y su potencial más profundo, revelando sesgos profundamente arraigados en nosotros; una información que sin duda podemos utilizar para cambiar nuestra cultura. La influencia del big data se está multiplicando exponencialmente, y Stephens-Davidowitz nos desafía a pensar de una manera diferente sobre el mundo y la forma en que lo vemos.

Sie lesen das E-Book in den Legimi-Apps auf:

Android
iOS
von Legimi
zertifizierten E-Readern
Kindle™-E-Readern
(für ausgewählte Pakete)

Seitenzahl: 444

Veröffentlichungsjahr: 2019

Das E-Book (TTS) können Sie hören im Abo „Legimi Premium” in Legimi-Apps auf:

Android
iOS
Bewertungen
0,0
0
0
0
0
0
Mehr Informationen
Mehr Informationen
Legimi prüft nicht, ob Rezensionen von Nutzern stammen, die den betreffenden Titel tatsächlich gekauft oder gelesen/gehört haben. Wir entfernen aber gefälschte Rezensionen.



Desde que los filósofos especularon sobre la posibilidad de construir un «cerebroscopio», aparato mítico que proyectaría los pensamientos de una persona en una pantalla, los científicos sociales han buscado herramientas que permitieran sacar a la luz los mecanismos de la naturaleza humana. A lo largo de mi carrera como psicólogo experimental, se pusieron de moda y se olvidaron unas cuantas, y las he probado todas: escalas de calificación, tiempos de reacción, dilatación pupilar, neuroimagen funcional, incluso electrodos implantados en el cerebro de pacientes epilépticos que parecían muy bien dispuestos a participar de un experimento lingüístico mientras esperaban a tener convulsiones.

Sin embargo, ninguno de esos métodos proporciona una visión diáfana de la mente. Y además debemos optar. Los pensamientos humanos son un problema complejo; a diferencia de Woody Allen tras leer Guerra y paz a toda velocidad, no podemos solo concluir: «Iba sobre unos rusos». Pero es difícil analizar de manera científica el intrincado esplendor multidimensional de ese problema. Sin duda, cuando la gente se desahoga, aprehendemos la riqueza de sus monólogos interiores, pero el fluir de la conciencia no es un conjunto de datos ideal para someter a prueba una hipótesis. Al revés, si nos centramos en parámetros fáciles de cuantificar, como las reacciones personales a las palabras, o la respuesta de la piel a las imágenes, podemos compilar estadísticas, pero trituramos la compleja textura de la cognición para transformarla en un número único. Si bien las sofisticadas técnicas de neuroimagen pueden mostrarnos cómo se distribuye un pensamiento en un espacio tridimensional, no pueden decirnos en qué consiste ese pensamiento.

Como si no fuera problema suficiente tener que optar entre computabilidad y riqueza, los científicos de la naturaleza humana deben vérselas con la «ley de los pequeños números», el nombre que dieron Amos Tversky y Daniel Kahneman a la falacia de pensar que los rasgos de una población se ven reflejados en cualquier porción de ella, por pequeña que sea. Incluso los científicos más expertos en aritmética tienen intuiciones penosamente desacertadas sobre la cantidad de sujetos que se necesitan en un estudio para poder eliminar irregularidades aleatorias y hacer generalizaciones válidas sobre una población determinada, no hablemos ya del Homo sapiens. La cosa es aún más discutible cuando las muestras se obtienen por conveniencia, como cuando ofrecemos algo de dinero a nuestros estudiantes de primer curso.

Este libro versa sobre un modo completamente nuevo de estudiar la mente. Los big data o macrodatos de las búsquedas de internet y otras huellas en línea no constituyen un cerebroscopio, pero Seth Stephens-Davidowitz demuestra que ofrecen una visión sin precedentes de la psique humana. En la privacidad de sus teclados, la gente confiesa las cosas más peregrinas, a veces (como en los sitios de citas o de asesoramiento profesional) porque tienen consecuencias en la vida real, y otras precisamente porque no tienen consecuencias: se puede exponer un deseo o un temor sin riesgo de que una persona de carne y hueso se muestre consternada o cosas peores. En cualquier caso, la gente no solo aprieta un botón o gira un interruptor, sino que consigna trillones de secuencias de caracteres que detallan sus pensamientos en toda su vastedad explosiva y combinatoria. Mejor aún, deja estelas digitales en un formato que puede compilarse y analizarse fácilmente. Son personas de todas las profesiones. Pueden formar parte de experimentos no invasivos que varían los estímulos y tabulan las respuestas en tiempo real. Y proporcionan de buen grado esos datos en cantidades ingentes.

Todo el mundo miente es más que la demostración de un concepto. Una y otra vez, los descubrimientos de Stephens-Davidowitz subvirtieron las ideas preconcebidas que tenía sobre mi país y mi especie. ¿De dónde salió el inesperado apoyo a Donald Trump? En 1976, cuando Ann Landers preguntó a sus lectores si se arrepentían de haber tenido hijos y descubrió con sorpresa que una mayoría lo hacía, ¿la engañaba una muestra poco representativa y sesgada de quienes habían contestado a la encuesta? ¿Debe culparse a internet de la crisis de fines de la década de 2010 que, de manera redundante, se ha dado en llamar «filtro burbuja»? ¿Cómo se desencadenan los delitos de odio? ¿Busca la gente chistes para alegrarse? También, aunque me gusta creer que nada me impacta, me impactó sobremanera lo que revela internet sobre la sexualidad humana, incluido el descubrimiento de que todos los meses varias mujeres hacen una búsqueda con las palabras «tirarse animales embalsamados». Ningún experimento basado en el tiempo de reacción, la dilatación pupilar o las neuroimágenes funcionales habría descubierto ese dato.

Todo el mundo disfrutará de Todo el mundo miente. Con una curiosidad incesante y un ingenio entrañable, Stephens-Davidowitz allana un nuevo camino para las ciencias sociales en el siglo xxi. Con esta fascinante ventana siempre abierta a las obsesiones humanas, ¿quién necesita un cerebroscopio?

—Steven Pinker, 2017

Introducción

El perfil de una revolución

Claro que iba a perder, dijeron.

En las primarias republicanas de 2016, los analistas de los sondeos concluyeron que Donald Trump no tenía ninguna posibilidad de ganar. Al fin y al cabo, había denigrado a numerosas minorías. Los sondeos y sus intérpretes nos dijeron que pocos estadounidenses veían con buenos ojos esos desplantes.

Por entonces, la mayoría de los analistas de sondeos pensaban que Trump perdería en unas elecciones generales. Sus modales y opiniones —dijeron— disgustaban a demasiados votantes.

Pero en realidad había indicios de que Trump podía ganar las elecciones primarias y las generales; estaban en internet.

Soy experto en datos de internet. Todos los días rastreo las huellas digitales que se dejan al transitar por la red. A partir de los botones o teclas que apretamos, intento entender qué queremos en realidad, qué haremos en realidad y quiénes somos en realidad. Permítaseme explicar cómo me inicié en esta atípica profesión.

La historia comienza —y parece que fue hace siglos— con las elecciones presidenciales de 2008 y con una cuestión muy discutida en las ciencias sociales: ¿hasta qué punto son importantes los prejuicios raciales en los Estados Unidos?

Barack Obama fue el primer candidato afroamericano de un partido importante. Ganó las elecciones con bastante facilidad. Y ya los sondeos sugerían que la cuestión racial no era un factor determinante en la manera de votar de los estadounidenses. La organización Gallup, por ejemplo, hizo varios sondeos antes y después de que Obama fuese elegido por primera vez. ¿Sus conclusiones? En general, a los votantes estadounidenses les daba igual que Obama fuese negro.[1] Poco después de la elección, dos profesores muy conocidos de la Universidad de California, Berkeley, examinaron datos adicionales obtenidos en encuestas mediante técnicas de extracción de datos más sofisticadas.[2] Llegaron a una conclusión similar.

Y así, durante la presidencia de Obama, aquella conclusión se convirtió en una opinión generalizada para muchos medios de comunicación y en amplios sectores universitarios. Las fuentes que los medios y los científicos sociales habían utilizado durante más de 80 años para comprender el mundo nos decían que a la inmensa mayoría de los estadounidenses le daba igual que Obama fuese negro a la hora de decidir si debía ser su presidente.

Los Estados Unidos, tanto tiempo manchados por la esclavitud y las leyes de segregación racial, por fin parecían haber dejado de juzgar a la gente por el color de su piel. Por lo visto, en los Estados Unidos el racismo tenía los días contados. De hecho, algunos comentaristas incluso declararon que vivíamos en una sociedad posracial.[3]

En 2013 yo era un estudiante de postgrado en economía, perdido en la vida y hastiado de mi campo; estaba seguro, incluso hasta la petulancia, de entender bastante bien el funcionamiento del mundo, los deseos y las preferencias de la gente en el siglo xxi. Ante la cuestión de los prejuicios, me permitía creer, sobre la base de mis lecturas en materia de psicología y ciencias políticas, que el racismo explícito se limitaba a un porcentaje restringido de estadounidenses, en su mayoría republicanos conservadores que vivían en el sur profundo.

Y entonces descubrí Google Trends.

Google Trends, una herramienta que se lanzó con poco ruido en 2009, informa a los usuarios de la frecuencia con que cualquier palabra o frase se ha buscado en distintos momentos en distintos sitios. Se promocionó como una herramienta divertida, que quizá permitiera a los grupos de amigos debatir sobre qué persona famosa era más popular o qué se había puesto súbitamente de moda. Las primeras versiones incluían el travieso aviso de que «nadie desearía escribir su tesis de doctorado con esos datos», lo que de inmediato me motivó a usarlos para escribir mi tesis de doctorado.[4]

Por entonces, los datos de búsqueda en Google no parecían ser una fuente adecuada de información para realizar investigaciones académicas «serias». A diferencia de los sondeos, los datos de búsqueda en Google no se crearon con el fin de entender la psique humana. Google se inventó para que la gente pudiera averiguar cosas sobre el mundo, no para que los investigadores pudieran averiguar cosas sobre la gente. Pero lo cierto es que las huellas que dejamos al buscar conocimientos en internet son sumamente reveladoras.

Dicho de otro modo, la búsqueda de información por personas es, a su vez, información. El cuándo y el dónde se buscan hechos, citas, chistes, lugares, nombres, cosas o ayuda, en efecto, pueden decirnos mucho más sobre los deseos, pensamientos y temores reales de lo que se creía. Y eso es especialmente cierto porque la gente a veces no solo pide datos a Google, sino que también se confiesa al buscador: «Odio a mi jefe», «Estoy borracho», «Mi padre me ha pegado».

La acción cotidiana de escribir una palabra o frase en una caja compacta y rectangular blanca deja un pequeño rastro de verdad que, multiplicado por millones, acaba revelando realidades profundas. La primera palabra que ingresé en el Google Trends fue «Dios». Descubrí que los estados en los que se hacían más búsquedas con la mención de «Dios» eran Alabama, Misisipi y Arkansas, los estados mayormente evangélicos. Además, esas búsquedas son más frecuentes los domingos. Nada de ello era sorprendente, pero el hecho de que los datos de búsqueda pudieran revelar un patrón tan claro me intrigó. Probé con «Knicks», el equipo de baloncesto neoyorquino, que casualmente se busca sobre todo en Nueva York. Otra obviedad. Después escribí mi nombre. «Tu búsqueda no tiene suficientes datos para mostrar resultados», me informó Google Trends. Google Trends, descubrí, arrojaba datos solo cuando mucha gente hacía una misma búsqueda.

Pero las búsquedas en Google no solo tienen la capacidad de decirnos que Dios es popular en el sur de los Estados Unidos, los Knicks en Nueva York y yo en ningún sitio. Cualquier sondeo diría lo mismo. Los datos de Google son poderosos porque la gente le cuenta al gigantesco motor de búsqueda cosas que no le contarían a nadie más.

Pensemos, por ejemplo, en el sexo (un tema que investigaré con lujo de detalles más adelante en este libro). Los sondeos no son fiables a la hora de decirnos la verdad sobre nuestras vidas sexuales. Analicé los datos de la General Social Survey, que se considera una de las fuentes más influyentes y fidedignas de información sobre las conductas de los estadounidenses.[5] De acuerdo con los datos de esa encuesta, cuando se trata de relaciones heterosexuales, las mujeres dicen en promedio que tienen relaciones sexuales 55 veces por año y utilizan un preservativo el 16 % de las veces. Eso da unos 1.100 millones de preservativos usados por año. Pero los hombres heterosexuales declaran usar 1.600 millones de preservativos al año. Ambas cifras, por definición, deberían ser iguales. ¿Quién dice la verdad, los hombres o las mujeres?

En realidad, nadie. De acuerdo con Nielsen, la compañía global de gestión de información acerca de lo que ve y compra el consumidor, por año se venden menos de 600 millones de preservativos.[6] Así que todo el mundo miente: la cuestión es cuánto.

Las mentiras están muy extendidas. Los hombres que nunca han estado casados afirman usar una media de 29 preservativos por año. Eso ascendería a una cifra mayor que el total de los preservativos vendidos en los Estados Unidos a los casados y solteros juntos. También la gente casada, con toda probabilidad, exagera el número de relaciones sexuales que tiene. En promedio, los hombres casados de menos de 65 años dicen que tienen relaciones una vez por semana. Solo el 1 % de ellos dice que lleva un año sin tener relaciones sexuales. Las mujeres casadas dicen que tienen menos relaciones, aunque no mucho menos.

Las búsquedas en Google proporcionan un retrato mucho más vívido —y, a mi entender, más exacto— del sexo en el matrimonio. En Google, la queja más frecuente vinculada con el matrimonio es la falta de relaciones sexuales. Las búsquedas de «matrimonio sin sexo» son tres veces y media más numerosas que «matrimonio infeliz» y ocho veces y media más que «matrimonio sin amor». Incluso las parejas que no están casadas se quejan con bastante frecuencia de que no tienen suficientes relaciones. Las búsquedas en Google de «relación sin sexo» solo van por detrás de «relación abusiva». (Estos datos, debo recalcar, se presentan siempre de forma anónima. Por supuesto, Google no aporta información sobre las búsquedas de ningún individuo particular).

Por otra parte, las búsquedas en Google presentaban un retrato de los Estados Unidos sumamente diferente de la utopía posracial esbozada en los sondeos. Recuerdo la primera vez que escribí «negrata» («nigger») en Google Trends. Se dirá que soy un ingenuo. Pero dado lo incendiaria que es la palabra, estaba bastante convencido de que la búsqueda no tendría muchos datos. Me equivocaba por completo. En los Estados Unidos, la palabra «negrata» —o su plural, «negratas»— sumaba más o menos el mismo número de búsquedas que «migraña(s)», «economista» y «Lakers». Me pregunté si las búsquedas de letras de rap sesgaban los resultados. Pero no. La grafía utilizada en las canciones de rap es casi siempre «nigga(s)» (no «nigger(s)»). Así pues, ¿por qué los estadounidenses buscaban «negrata»? A menudo, buscaban chistes que se burlaran de los afroamericanos. De hecho, el 20 % de las búsquedas con la palabra «negrata» también incluía la palabra «chistes». Otras búsquedas frecuentes incluían «negratas estúpidos» y «odio a los negratas».

Había millones de esas búsquedas por año. En la privacidad de sus hogares, un importante número de estadounidenses hacían indagaciones escandalosamente racistas. Cuanto más investigaba, más perturbadora resultaba ser la información.

La noche en que Obama fue elegido por primera vez, cuando muchos de los comentarios se centraron en elogiar a Obama y destacar el carácter histórico de las elecciones, alrededor de 1 de cada 100 búsquedas en Google de la palabra «Obama» incluía también «kkk» o «negrata(s)». Puede parecer una cifra no muy alta, pero piénsense en los miles de motivos no racistas que había para buscar en Google el nombre de aquel inesperado político joven con una familia encantadora que estaba por tomar posesión del cargo más poderoso del mundo. La noche de las elecciones, las búsquedas de Stormfront y las inscripciones en ese sitio nacionalista blanco que goza de una sorprendente popularidad en los Estados Unidos fueron más de diez veces mayores de lo normal.[7] En algunos estados, hubo más búsquedas de «presidente negrata» que de «primer presidente negro».[8]

La maldad y el odio quedaban ocultos en las fuentes tradicionales de información, pero saltaban a la vista en las búsquedas que hacía la gente en internet.

Esas búsquedas son difíciles de conciliar con una sociedad en la que el racismo es un factor pequeño. En 2012, yo conocía a Donald J. Trump sobre todo como hombre de negocios y animador de reality shows. Ni a mí ni a nadie se le habría pasado por la cabeza que, cuatro años después, sería un candidato presidencial serio. Pero esas horribles búsquedas no son difíciles de compaginar con el éxito de un candidato que, con sus ataques a los inmigrantes y sus muestras de ira y resentimiento, a menudo alimenta las peores inclinaciones de la gente.

Las búsquedas en Google también demostraban que en gran medida nos equivocábamos sobre la ubicación del racismo en Estados Unidos. Los sondeos y la opinión popular situaban el racismo moderno sobre todo en el sur y mayormente entre republicanos. Pero entre los lugares con mayores tasas de búsquedas racistas figuraban el norte del estado de Nueva York, el oeste de Pensilvania, el este de Ohio, la zona industrial de Michigan y la zona rural de Illinois, así como Virginia Occidental, el sur de Luisiana y Misisipi. La verdadera línea divisoria, según sugerían los datos de búsquedas en Google, no estaba entre el sur y el norte; estaba entre el este y el oeste. Uno no encontraba estas cosas muy al oeste de Misisipi. Y el racismo no se limitaba a los republicanos. De hecho, las búsquedas racistas no eran más numerosas en lugares con un alto porcentaje de republicanos que en lugares con un alto porcentaje de demócratas. Dicho de otro modo, las búsquedas en Google ayudaban a trazar un nuevo mapa del racismo en los Estados Unidos, y ese mapa tenía un aspecto diferente del que cualquiera hubiera creído. Los republicanos afincados en el sur podían ser más proclives a admitir el racismo. Pero muchos demócratas del norte albergaban actitudes similares.

Cuatro años más tarde, dicho mapa sería clave para explicar el éxito político de Trump.

En 2012, usé el mapa del racismo desarrollado con las búsquedas en Google para reevaluar exactamente qué papel había desempeñado la raza de Obama. Los datos eran claros. En las zonas del país con un alto número de búsquedas racistas, Obama salió mucho peor parado que, cuatro años antes, John Kerry, el candidato presidencial demócrata blanco. Ningún otro factor en esas áreas, incluidos los niveles de educación, edad, asistencia a misa o posesión de armas, explicaba la diferencia. Las búsquedas racistas no predecían un mal resultado de ningún otro candidato demócrata. Solo el de Obama.

Y en los resultados iba implícito un efecto a gran escala. Obama perdió alrededor de 4 puntos porcentuales en todo el país solo debido al racismo explícito. Aquella era una cifra mucho más alta de la que cabía esperar de acuerdo con los sondeos. Barack Obama, por supuesto, fue elegido y reelegido presidente con la ayuda de condiciones muy favorables para los demócratas, pero tuvo que superar bastantes más obstáculos de los que era consciente cualquiera que dependiera de las fuentes de datos tradicionales (y eso incluía a casi todo el mundo). Existían suficientes personas racistas como para ayudar a ganar unas primarias o inclinar la balanza en unas elecciones generales en un año que no fuese tan favorable para los demócratas.

Al principio, mi estudio fue rechazado por cinco periódicos académicos.[9] Muchos de mis homólogos revisores, si me disculpan apuntar la discrepancia, dijeron que era imposible creer que tantos estadounidenses albergaran un racismo tan horrendo. Sencillamente, ello no encajaba con lo que se decía por entonces. Además, las búsquedas en Google parecían un conjunto de datos muy extraño.

Ahora que hemos presenciado la toma de posesión del presidente Donald J. Trump, mi conclusión parece más plausible.

Cuanto más estudio el tema, más descubro que Google posee una gran cantidad de información que los sondeos omiten y que nos puede ayudar a entender —entre muchísimas otras cosas— unas elecciones.

Hay información sobre quiénes irán a votar. Más de la mitad de los ciudadanos que no votan dicen en los sondeos inmediatamente anteriores a unas elecciones que tienen la intención de hacerlo, lo que sesga nuestra estimación de la participación, mientras que las búsquedas hechas en Google con las frases «cómo votar» o «dónde votar» semanas antes de las elecciones pueden predecir con exactitud en qué partes del país se acudirá en masa a las urnas.

Incluso puede haber información sobre por quién se votará. ¿En serio podemos predecir por qué candidatos votará la gente en función de lo que busca? Claramente, no podemos limitarnos a estudiar qué candidatos se buscan con más frecuencia. Muchas personas buscan a un candidato porque lo adoran. Otras buscan a un candidato porque lo odian. Dicho eso, Stuart Gabriel, un profesor de finanzas en la Universidad de California, Los Ángeles, y yo hemos encontrado una sorprendente clave para averiguar de qué manera planea votar la gente. Un gran porcentaje de las búsquedas relacionadas con las elecciones incluyen preguntas sobre los nombres de dos candidatos. Durante la contienda de 2016 entre Trump y Hillary Clinton, había gente que buscaba «sondeos Trump Clinton». Otra buscaba los platos fuertes del «debate Trump Clinton». De hecho, el 12 % de las búsquedas con «Trump» también incluían la palabra «Clinton». Más de un cuarto de las búsquedas vinculadas con «Clinton» incluían también la palabra «Trump».

Descubrimos que esas búsquedas de apariencia neutral en realidad pueden darnos pistas sobre el candidato al que apoya una persona.

¿Cómo? El orden en que aparecen los nombres. Nuestra investigación sugiere que una persona es notablemente más propensa a poner primero a su candidato preferido en una búsqueda que incluya los nombres de los dos candidatos.

En las tres elecciones anteriores, el candidato que apareció primero en más búsquedas recibió la mayor cantidad de votos. Más interesante aún, el orden en que se buscaba a los candidatos era predictivo del resultado de un estado particular.

El orden en el que se busca a los candidatos también parece incluir información que los sondeos tienden a pasar por alto. Para las elecciones de 2012 disputadas por Obama y el republicano Mitt Romney, Nate Silver, estadístico y periodista virtuoso, predijo con exactitud los resultados de los cincuenta estados. Con todo, descubrimos que en los estados donde se buscaba con más frecuencia a Romney antes de Obama, Romney tuvo un mejor rendimiento que el predicho por Silver. En los estados en los que se buscaba con más frecuencia a Obama antes de Romney, Obama tuvo un mejor rendimiento que el predicho por Silver.

Ese indicador podría contener información que los sondeos pasan por alto, ya sea porque los votantes se mienten a sí mismos o porque les incomoda revelar sus preferencias reales a los encuestadores. Es posible que, aunque afirmasen en 2012 que estaban indecisos, si buscaban siempre «sondeos Romney Obama», «debate Romney Obama» y «elecciones Romney Obama», planeasen votar por Romney desde el comienzo.

¿Predijo Google a Trump? Bueno, aún nos queda mucho trabajo por hacer, y deberán sumárseme a la tarea muchos investigadores antes de que sepamos cómo optimizar los datos de Google para predecir los resultados de unas elecciones. Se trata de una ciencia nueva, y solo hemos contado con estos datos para unas pocas elecciones. Por cierto, con ello no quiero decir que estemos preparados, ni que alguna vez vayamos a estarlo, para prescindir de las encuestas de opinión pública como herramientas que ayudan a predecir las elecciones.

Pero sin duda en internet hubo anuncios, en muchos aspectos, de que Trump sacaría mejores resultados de lo predichos en los sondeos.

Durante las elecciones generales, hubo indicios de que el electorado podría favorecer a Trump. Los estadounidenses negros prometieron en los sondeos que acudirían a las urnas en masa para oponerse a Trump. Pero Google registró muy pocas búsquedas de información sobre cómo votar en las zonas con alta población negra. Y el día de las elecciones, Clinton salió afectada por la baja participación de los negros.

Incluso hubo señales de que los votantes supuestamente indecisos preferían a Trump. Gabriel y yo hallamos que hubo más búsquedas de «Trump Clinton» que de «Clinton Trump» en los estados claves del medio oeste en los que se esperaba que Clinton ganara. De hecho, Trump ganó las elecciones porque superó con creces las predicciones de los sondeos respecto de esa zona.

Pero la clave principal, a mi entender, de que Trump podía ser un candidato exitoso —para empezar, en las primarias— era el racismo oculto que había descubierto mi estudio sobre Obama. Las búsquedas en Google revelaron que un número importante de estadounidenses siguen albergando un odio y una maldad que los expertos han pasado por alto durante muchos años. Los datos de las búsquedas revelaron que vivíamos en una sociedad muy distinta de la sociedad en la que creían vivir los académicos y periodistas sobre la base de los sondeos. Revelaban una rabia repugnante, aterradora y generalizada que esperaba a que un candidato le diera voz.

Con frecuencia la gente miente: a sí misma y a los demás. En 2008, los estadounidenses dijeron en los sondeos que ya no les importaba la raza. Ocho años después, eligieron presidente a Donald J. Trump, un hombre que retuiteó una afirmación falsa acerca de que los negros son responsables de la mayoría de los asesinatos de estadounidenses blancos, defendió en uno de sus mítines a sus partidarios por haberle dado una paliza a un manifestante de Black Lives Matters y dudó en rechazar el apoyo de un exlíder del Ku Klux Klan. El mismo racismo oculto que había perjudicado a Barack Obama ayudó a Donald Trump.

Es bien sabido que, a principios de las primarias, Nate Silver afirmó que Trump no tenía prácticamente ninguna posibilidad de salir ganador. Conforme avanzaban las primarias y se hacía cada vez más evidente que Trump contaba con bases amplias, Silver decidió mirar los datos para tratar de comprender qué estaba sucediendo. ¿Cómo era posible que a Trump le fuese tan bien?

Silver notó que las zonas en las que Trump sacaba los mejores resultados formaban un mapa extraño. Trump tenía bastante éxito en algunas partes del noreste y el medio oeste industrial, así como en el sur. Le iba notablemente peor en el oeste. Silver buscó variables que explicaran ese mapa. ¿El desempleo? ¿La religión? ¿La tenencia de armas? ¿Las tasas de inmigración? ¿La oposición a Obama?

Silver halló que el factor singular que mejor se correlacionaba con el apoyo a Donald Trump en las primarias republicanas era la medida que yo había descubierto cuatro años antes.[10] Las zonas con un número mayor de apoyos a Trump eran las mismas en las que se hacían la mayor cantidad de búsquedas en Google de «negrata».[11]

He pasado casi todos los días de los últimos cuatro años analizando los datos de Google. Esa actividad incluyó una temporada en calidad de analista de datos en Google, donde me contrataron tras enterarse de mi investigación sobre el racismo. Sigo examinando los datos como columnista y periodista de datos para The New York Times. Las revelaciones no se han agotado. Enfermedad mental, sexualidad humana, abuso infantil, aborto, publicidad, religión, salud. No son temas precisamente baladíes, y este conjunto de datos, inexistente hace dos decenios, ofrece perspectivas nuevas y sorprendentes sobre todos ellos. Los economistas y otros científicos sociales siempre están en busca de nuevas fuentes de datos, así que lo diré sin rodeos: estoy convencido de que actualmente las búsquedas en Google constituyen el conjunto de datos más importante jamás recopilado sobre la psique humana.

Ese conjunto de datos, sin embargo, no es la única herramienta que ha proporcionado internet para entender el mundo. Pronto me di cuenta de que también existen otras minas de oro digitales. Descargué toda la Wikipedia, estudié perfiles de Facebook y me asomé a Stormfront. Además, PornHub, uno de los sitios pornográficos más grandes de internet, me brindó acceso a todos los datos con que contaban sobre los visionados y búsquedas de personas anónimas del mundo entero. Dicho de otro modo, me he zambullido en lo más profundo de lo que hoy se llama big data, inteligencia de datos o macrodatos. Asimismo, entrevisté a múltiples personas —profesores, periodistas de datos y empresarios— que también exploran estos nuevos ámbitos. En estas páginas se mencionarán muchos de sus estudios.

Pero, antes, una confesión: no voy a dar una definición precisa de macrodatos. ¿Por qué? Porque se trata de un concepto inherentemente vago. ¿Cuán macro es lo macro? ¿Constituyen 18.462 observaciones microdatos y 18.463 observaciones, macrodatos? Prefiero adoptar una perspectiva inclusiva de cuáles son los requisitos: si bien la mayoría de los datos que manejo proceden de internet, también me remitiré a otras fuentes. Estamos en una eclosión en cuanto a la cantidad y calidad de información disponible de todo tipo. Buena parte de la nueva información pasa por Google y las redes sociales. Parte de ella es producto de la digitalización de información que antes permanecía encerrada en armarios y archiveros. Parte se debe al aumento de los recursos dedicados a las investigaciones de mercado. Algunos de los estudios mencionados en este libro no utilizan en absoluto conjuntos de datos enormes, sino que adoptan enfoques nuevos y creativos de los datos, enfoques que son cruciales en una era que rebosa de información.

Así las cosas, ¿cuál es exactamente la capacidad de los macrodatos? Piénsese en toda la información dispersa en línea en un día cualquiera. De hecho, contamos con un número sobre cuánta información hay. En un día cualquiera de principios del siglo xxi, los seres humanos generan 2,5 millones de billones de bytes de datos.[12]

Y esos bytes son pistas.

Un jueves por la tarde una mujer se aburre. Busca en Google «chistes divertidos decorosos». Revisa su correo electrónico. Entra en Twitter. Busca en Google «chistes sobre negratas».

Un hombre se siente triste. Busca en Google «síntomas de depresión» y «artículos sobre la depresión». Juega una partida de solitario.

Una mujer ve en Facebook el anuncio de compromiso de una amiga. La mujer, que es soltera, bloquea a la amiga.

Un hombre se toma un descanso mientras busca en Google datos sobre la NFL y sobre rap para preguntar al motor de búsqueda: «¿Es normal soñar con besar a otros hombres?».

Una mujer hace clic en un artículo de BuzzFeed que muestra «Los 15 gatos más monos».

Un hombre ve el mismo artículo sobre gatos. Pero en su pantalla se llama «Los 15 gatos más adorables». No hace clic.

Una mujer busca en Google: «¿Es mi hijo un genio?».

Un hombre busca en Google: «¿Cómo hacer que mi hija adelgace?».

Una mujer está de vacaciones con sus seis mejores amigas. Todas dicen que se lo están pasando en grande. La mujer busca a hurtadillas en Google: «Sentirte sola cuando no estás con tu marido».

Un hombre, el marido de la mujer anterior, está de vacaciones con sus seis mejores amigos. Busca a hurtadillas en Google: «Señales de que tu mujer te engaña».

Algunos de estos datos incluyen información que de otra manera nadie admitiría delante de otro. Si lo sumamos todo, lo mantenemos en el anonimato para asegurarnos de que no se sepa nada sobre los miedos, deseos y conductas de ningún individuo particular, y añadimos un poco de ciencia sobre datos, comenzamos a tener una nueva visión de los seres humanos: sus conductas, deseos y naturaleza. De hecho, por grandilocuente que suene, he llegado a la conclusión de que estos nuevos datos, que están cada vez más disponibles en nuestra era digital, ampliarán radicalmente nuestra comprensión de la humanidad. El microscopio nos mostró que hay más cosas en una gota de agua de las que creemos ver. El telescopio nos mostró que hay más cosas en el cielo nocturno de las que creemos ver. Y los nuevos datos digitales nos muestran que hay más cosas en la sociedad humana de las que creemos ver. Tal vez constituyen el microscopio o el telescopio de nuestra era: hacen posibles percepciones importantes, incluso revolucionarias.

Existe un riesgo adicional al hacer declaraciones como la anterior: no solo suenan grandilocuentes, sino también a la moda. Mucha gente ha hecho grandes afirmaciones sobre el poder de los macrodatos, pero han aportado pocas pruebas.

Eso ha movido a los escépticos de los macrodatos, que también abundan, a desestimar la búsqueda de conjuntos de datos más grandes. «No niego que haya información en los macrodatos», ha escrito el ensayista y estadístico Nassim Taleb. «Hay mucha información. El problema —la cuestión central— es que la aguja se esconde en un pajar cada vez más enorme».[13]

Así pues, uno de los principales objetivos de este libro es proporcionar las pruebas que faltan sobre lo que puede hacerse con los macrodatos: cómo encontrar las agujas, por así decirlo, en pajares cada vez más enormes. Espero aportar suficientes ejemplos de cómo los macrodatos ofrecen nuevas perspectivas sobre la psicología y la conducta humanas, para que los lectores comiencen a percibir el perfil de algo realmente revolucionario.

«Alto ahí, Seth —me dirán algunos, llegados a este punto—. Prometes una revolución. Te deshaces en elogios sobre estos conjuntos de datos grandes y novedosos. Pero hasta ahora has utilizado todos esos datos asombrosos, notables, impresionantes e innovadores para decirnos en esencia dos cosas: que hay muchos racistas en los Estados Unidos, y que la gente, en particular los hombres, exagera el número de relaciones sexuales que tiene».

Admito que a veces los nuevos datos confirman lo obvio. Si esos hallazgos parecen obvios, esperen a llegar al capítulo 4, donde expongo pruebas claras e irrefutables aportadas por las búsquedas en Google de que los hombres se preocupan mucho y se sienten muy inseguros en relación con —por increíble que parezca— el tamaño de su pene.

Me parece valioso probar algo que quizá se ha intuido pero acerca de lo que, por lo demás, se tenían pocas pruebas. Intuir algo es una cosa. Probarlo es otra. Si solo permitiesen confirmar nuestras intuiciones, los macrodatos no constituirían una revolución. Por fortuna, nos permiten hacer muchas otras cosas. Una y otra vez, los datos me han demostrado que el mundo funciona precisamente al revés de como creía. Los siguientes ejemplos pueden resultar sorprendentes.

Se podría pensar que una de las principales causas del racismo es la inseguridad y la vulnerabilidad económica. Sería normal intuir, por lo tanto, que, cuando la gente se queda sin trabajo, el racismo aumenta. Lo cierto es que ni las búsquedas racistas ni la afiliación a Stormfront aumentan cuando lo hace el desempleo.[14]

Se podría pensar que la ansiedad es más alta en grandes ciudades con altos niveles educativos. El urbanita neurótico es un estereotipo famoso. Pero las búsquedas en Google que reflejan ansiedad —como «síntomas de ansiedad» o «remedio para la ansiedad»— tienden a ser más numerosas en lugares con niveles educativos e ingresos medios más bajos, donde una parte amplia de la población reside en zonas rurales.[15] Existen tasas más altas de búsquedas sobre ansiedad en las zonas rurales del norte del estado de Nueva York que en la ciudad de Nueva York.

Se podría pensar que un ataque terrorista con decenas o cientos de víctimas mortales automáticamente daría lugar a una ansiedad enorme y generalizada. Se supone que el terrorismo, por definición, infunde terror. Examiné las búsquedas en Google que reflejaban la ansiedad. Busqué cuánto aumentaban esas búsquedas en un país durante los días, semanas y meses posteriores a cada uno de los ataques terroristas más importantes que ocurrieron en Europa y los Estados Unidos desde 2004. ¿Y cuánto aumentaron en promedio las búsquedas relacionadas con la ansiedad? No lo hicieron. En absoluto.

Se podría pensar que la gente busca chistes más a menudo cuando está triste.[16] Muchos de los grandes pensadores de la historia han afirmado que recurrimos al humor para desfogarnos. Desde siempre se concibe el humor como un modo de sobrellevar las frustraciones, la pena y las desilusiones inevitables de la vida. Como dijo Charlie Chaplin, «la risa es el tónico, el alivio, el cese del dolor».

Sin embargo, las búsquedas de chistes son menos numerosas los lunes, el día en que la gente dice sentirse más descontenta. Son menos numerosas los días nublados y lluviosos. Caen en picado después de una tragedia importante, como en 2013, cuando dos bombas mataron a tres personas e hirieron a centenares más durante la maratón de Boston. En realidad, las personas son propensas a buscar chistes cuando la vida les sonríe más que cuando no.

A veces, un nuevo conjunto de datos revela una conducta, un deseo o una inquietud que ni sospechaba. Numerosas tendencias sexuales entran en esa categoría. Por ejemplo, ¿sabía el lector que en la India la primera búsqueda que comienza por «mi marido quiere…» es «mi marido quiere que le dé el pecho»?[17] El comentario es mucho más común en la India que en otros países. Además, las búsquedas de pornografía con mujeres amamantando a hombres son cuatro veces más altas en la India y Bangladesh que en ningún otro país del mundo.[18] La verdad, nunca lo hubiera supuesto antes de ver los datos.

Sigamos. Si bien el hecho de que los hombres estén obsesionados con el tamaño de su pene no es muy asombroso, la mayor inseguridad física de las mujeres, según se expresa en Google, sí resulta sorprendente. De acuerdo con los nuevos datos, el equivalente femenino de preocuparse por el tamaño del pene puede ser —pausa para crear suspense— preocuparse por el mal olor de la vagina. Las mujeres hacen casi tantas búsquedas expresando inquietud por sus genitales como hacen los hombres obsesionándose por los suyos.[19] El mal olor y la posibilidad de remediarlo, esa es la principal preocupación que expresan las mujeres. La verdad, no lo sabía antes de ver los datos.

A veces, los datos nuevos revelan diferencias culturales en las que ni siquiera había pensado. Un ejemplo: las diferentes maneras en que los hombres reaccionan a los embarazos de sus esposas en distintas partes del mundo. En México, entre las primeras búsquedas correspondientes a «mi esposa embarazada» figuran: «frases de amor para mi esposa embarazada» y «poemas para mi esposa embarazada».[20] En los Estados Unidos, las primeras búsquedas incluyen: «mi esposa está embarazada y ahora qué» y «mi esposa está embarazada qué hago».

Pero el presente libro es más que una colección de datos raros o estudios aislados, aunque habrá muchos de ellos. Siendo los métodos tan nuevos y su poder explicativo tan creciente, expondré algunas ideas sobre cómo funcionan y qué los hace innovadores. También reconoceré las limitaciones de la inteligencia de datos.

Parte del entusiasmo por el potencial de la revolución de los datos es infundado. La mayoría de los enamorados de los macrodatos hablan efusivamente sobre lo inmensos que pueden ser los conjuntos de datos. Esa obsesión con el tamaño de los conjuntos de datos no es nueva. Antes de que existieran Google, Amazon y Facebook, antes de que existiera la palabra «macrodatos», se celebró en Dallas, Texas, una conferencia que versaba sobre «Conjuntos de datos grandes y complejos». Jerry Friedman, un profesor de estadística de Stanford con el que trabajé en Google, recuerda aquella conferencia de 1977. Un destacado estadístico se levantaba para hablar y explicaba que había acumulado la asombrosa y extraordinaria cantidad de cinco gigabytes de datos. A continuación, otro destacado estadístico se levantaba para hablar y empezaba diciendo: «El orador anterior tenía gigabytes. Eso no es nada. Yo tengo terabytes». Dicho de otro modo, el foco de las charlas era cuánta información se podía acopiar, no lo que se esperaba hacer con ella o qué preguntas se planeaban responder. «En aquel momento —dice Friedman—, me pareció divertido que uno tuviera que sentirse impresionado por el tamaño de los conjuntos de datos. Sigue ocurriendo».[21]

Hoy en día, hay demasiados científicos de datos que recopilan conjuntos de datos enormes y dicen pocas cosas importantes: por ejemplo, que los Knicks son populares en Nueva York. Hay demasiadas empresas ahogadas en datos. Tienen montones de terabytes, pero les sacan poco provecho. Con frecuencia, creo, el tamaño de un conjunto de datos está sobrevalorado. Eso tiene una explicación sutil, pero importante. Cuanto mayor es un efecto, menor es el número de observaciones necesarias para notarlo. Con tocar una vez una estufa caliente, nos damos cuenta de que es peligrosa. En cambio, tal vez debamos tomar café miles de veces para saber si tiende a darnos dolor de cabeza. ¿Cuál es la lección más importante? Claramente, la de la estufa, pues, debido a la intensidad, su impacto se siente muy rápidamente, con muy pocos datos.

De hecho, las empresas de inteligencia de datos más perspicaces a menudo reducen sus datos. En Google, las decisiones importantes se basan en una pequeña muestra de todos sus datos.[22] No siempre se necesitan tropecientos datos para encontrar información de importancia. Se necesitan los datos adecuados. Una de las principales razones por las que las búsquedas en Google son tan valiosas no es su gran cantidad, sino la gran honestidad de la gente al hacerlas. La gente miente a sus amigos, sus amantes, a los médicos, los encuestadores y a sí misma. Pero en Google puede revelar información vergonzosa sobre, entre otras cosas, su matrimonio sin sexo, sus problemas de salud mental, sus inseguridades y su animosidad hacia la gente negra.

Más importante aún: para extraer inteligencia de los datos, hay que hacer las preguntas correctas. Así como no puedes apuntar con un telescopio al cielo nocturno y esperar que descubra Plutón para ti, no puedes descargar un montón de datos y pedirles que te revelen los secretos de la naturaleza humana. Hay que mirar en los lugares más prometedores: por ejemplo, las búsquedas en Google hechas en la India que empiezan por «mi esposo quiere…».

Este libro mostrará de qué modo se pueden utilizar mejor los macrodatos y explicará en detalle por qué hacerlo puede ser tan poderoso. En el camino, el lector se enterará de lo que yo y otros ya hemos descubierto sobre cuestiones como:

¿Cuántos hombres son homosexuales?

¿Funciona la publicidad?

¿Por qué American Pharoah era un gran caballo de carreras?

¿Están sesgados los medios de comunicación?

¿Existen los actos fallidos?

¿Quién miente en su declaración de la renta?

¿Importa a qué universidad vamos?

¿Se le puede ganar al mercado de valores?

¿Dónde es mejor criar a los niños?

¿Por qué una historia se vuelve viral?

¿De qué se debe hablar en una primera cita romántica si se quiere una segunda?

… y mucho, mucho más.

Pero antes de pasar a todo ello, necesitamos hacernos una pregunta más elemental: ¿por qué necesitamos datos? Y, para responderla, voy a presentar a mi abuela.

[1]Katie Fretland, «Gallup: Race Not Important to Voters», The Swamp, Chicago Tribune, junio de 2008.

[2]Alexandre Mas y Enrico Moretti, «Racial Bias in the 2008 Presidential Election», American Economic Review 99, no. 2 (2009).

[3]En la emisión del 12 de noviembre de 2009, Lou Dobbs dijo en su programa que vivíamos en una «sociedad pospartisana, posracial». En la emisión del 27 de enero de 2010, Chris Matthews dijo en su programa que el presidente Obama era «al parecer posracial». Para más ejemplos, véase Michael C. Dawson y Lawrence D. Bobo, «One Year Later and the Myth of a Post-Racial Society», Du Bois Review: Social Science Research on Race 6, no. 2 (2009).

[4]Google Trends me ha proporcionado muchos de los datos que utilizo aquí. Sin embargo, como solo permite comparar la frecuencia relativa de distintas búsquedas, pero no informa sobre el número absoluto de una búsqueda particular, por lo general lo he complementado con GoogleAdWords, que informa de la frecuencia exacta con que se hace una búsqueda. En casi todos los casos también he podido enfocar mejor la imagen con ayuda de mi propio algoritmo basado en Trends, que describo en mi tesis «Essays Using Google Data», así como en mi artículo «The Cost of Racial Animus on a Black Candidate: Evidence Using Google Search Data», publicado en el Journal of Public Economics. La disertación, un vínculo al artículo y una explicación completa de los datos y el código utilizados en las investigaciones originales llevadas a cabo para este libro pueden consultarse en mi sitio web, sethsd.com.

[5]Los detalles de todos estos cálculos pueden encontrarse en mi sitio web, sethsd.com, en los archivos csv etiquetados «Sex Data». Los datos de General Social Survey pueden encontrarse en http://gss.norc.org/.

[6]Datos suministrados al autor.

[7]Datos de Google Trends analizados por el autor. También reuní datos sobre todos los miembros de Stormfront, como se menciona en Seth Stephens-Davidowitz, «The Data of Hate», New York Times, 13 de julio de 2014, SR4. Los datos pertinentes pueden descargarse de sethsd.com, en la sección de datos titulada «Stormfront».

[8]Datos de Google Trends analizados por el autor. Entre los estados en los que esto es cierto figuran Kentucky, Luisiana, Arizona y Carolina del Norte.

[9]El artículo acabó publicándose como Seth Stephens-Davidowitz, «The Cost of Racial Animus on a Black Candidate: Evidence Using Google Search Data», Journal of Public Economics 118 (2014). En él pueden encontrarse más detalles sobre la investigación. Además, los datos pueden encontrarse en mi sitio web, sethsd.com, en la sección de datos titulada «Racism».

[10]«La correlación más fuerte del apoyo a Trump son las búsquedas en Google de la palabra que empieza con n-» (tweet del 28 de febrero de 2016). Véase también Nate Cohn, «Donald Trump’s Strongest Supporters: A New Kind of Democrat», New York Times, 31 de diciembre de 2015, A3.

[11]Los mapas muestran el porcentaje de las búsquedas en Google que incluyen la palabra «nigger(s)» [negrata(s)]. Nótese que, como la medida es un porcentaje de las búsquedas en Google, no es arbitrariamente más alta en sitios más poblados o en lugares donde se hacen muchas búsquedas. Nótese también que algunas de las diferencias entre este mapa y el mapa del apoyo a Trump tienen explicaciones obvias. Trump perdió popularidad en Texas y Arkansas porque eran los estados natales de dos de sus oponentes, Ted Cruz y Mike Huckabee. Los datos provienen de encuestas hechas por Civis Analytics en diciembre de 2015. Los datos reales de las votaciones son menos útiles en este caso, porque están muy influenciados por cuándo tuvieron lugar las primarias y por la forma de votar. Los mapas se reproducen con permiso de The New York Times.

[12]«Bringing Big Data to the Enterprise», IBM, https://www-01.ibm.com/software/data/bigdata/what -is-big-data.html.

[13]Nassim M. Taleb, «Beware the Big Errors of “Big Data”», Wired, 8 de febrero de 2013, http:// www.wired.com/2013/02/big-data-means-big -errors-people.

[14]Estudié cómo cambiaba el racismo en internet en partes del país más o menos expuestas a la Gran Recesión. Me fijé en las búsquedas en Google de «negrata(s)» y en la afiliación a Stromfront. Los datos pertinentes pueden descargarse de sethsd.com, en la sección de datos titulada «Racial Animus» y «Stormfront».

[15]Seth Stephens-Davidowitz, «Fifty States of Anxiety», New York Times, 7 de agosto de 2016, SR2. Nótese que, si bien las búsquedas en Google dan ejemplos mucho más amplios, el patrón es coherente con las pruebas que aportan las encuestas. Véase, por ejemplo: William C. Reeves et al., «Mental Illness Surveillance Among Adults in the United States», Morbidity and Mortality Weekly Report Supplement 60, no. 3 (2011).

[16]De esto se habla en Seth Stephens-Davidowitz, «Why Are You Laughing?», New York Times, 15 de mayo de 2016, SR9. Los datos pertinentes pueden descargarse en sethsd.com, en la sección de datos titulada «Jokes».

[17]De esto se habla en Seth Stephens-Davidowitz, «What Do Pregnant Women Want?», New York Times, 17 de mayo de 2014, SR6.

[18]Datos de PornHub analizados por el autor.

[19]De esto se habla en Seth Stephens-Davidowitz, «Searching for Sex», New York Times, 25 de enero de 2015, SR1.

[20]Stephens-Davidowitz, «What Do Pregnant Women Want?».

[21]Entrevisté a Jerry Friedman por teléfono el 27 de octubre de 2015.

[22]Hal R. Varian, «Big Data: New Tricks for Econometrics», Journal of Economic Perspectives 28, no. 2 (2014).

01

Malas corazonadas

Si tienes 33 años y has asistido a unas cuantas cenas de Acción de Gracias seguidas sin novia, es probable que surja el tema de encontrar pareja. Y casi todo el mundo tendrá una opinión.

—A Seth le hace falta una chica que esté loca como él —dice mi hermana.

—¡Tú sí que estás loca! Seth necesita una chica normal, para equilibrar —dice mi hermano.

—Seth no está loco —dice mi madre.

—¡Tú estás loca! Claro que Seth está loco —dice mi padre.

De repente, mi tímida y modosa abuela, que se ha pasado toda la cena callada, toma la palabra. Las voces neoyorquinas fuertes y agresivas callan, y las miradas se centran en la ancianita de pelo amarillo corto, cuyo acento sigue teniendo un deje de Europa del Este.

—Seth, necesitas una buena chica. No demasiado guapa. Muy inteligente. Con buen trato. Sociable, así haces cosas. Con sentido del humor, porque tú tienes sentido del humor.

¿Por qué los consejos de esta anciana merecen tanto respeto y atención en mi familia? Bueno, mi abuela de 88 años ha visto más cosas que todas las demás personas sentadas a la mesa. Ha observado más matrimonios, muchos de los cuales estaban bien avenidos y muchos no. Y, con los decenios, ha catalogado los atributos necesarios para que las relaciones funcionen. En esta cena de Acción de Gracias, respecto de esa cuestión, mi abuela tiene acceso al mayor número de datos. Mi abuela es la inteligencia de datos.

En este libro, quiero desacralizar la ciencia de datos. Nos guste o no, los datos desempeñan un papel cada vez más importante en nuestras vidas, y ese papel va en aumento. Actualmente, los periódicos tienen secciones enteras dedicadas a los datos. Las grandes compañías cuentan con equipos centrados solo en analizar sus datos. Los inversores dan a las empresas emergentes decenas de millones de dólares si almacenan más datos. Aun si no sabemos ejecutar una prueba de regresión o calcular un intervalo de confianza, encontraremos muchísimos datos: en las páginas que leamos, en las reuniones de negocios a las que vayamos, en los cotilleos que oigamos en los pasillos.

A muchas personas les preocupa esa situación. Intimidadas por los datos, se pierden y se confunden con facilidad en un mundo de números. Creen que una comprensión cuantitativa del mundo es algo reservado a prodigios con el hemisferio izquierdo del cerebro muy desarrollado. Tan pronto como se cruzan con números, se disponen a pasar página, acabar la reunión o cambiar de tema.

Pero llevo diez años en el negocio del análisis de datos y he tenido la suerte de trabajar con muchos de los mejores en este campo. Y una de las lecciones más importantes que he aprendido es esta: bien hecha, la ciencia de datos es menos complicada de lo que se cree. La mejor ciencia de datos, en realidad, es sorprendentemente intuitiva.[23]

¿Qué la hace intuitiva? En el fondo, la ciencia de datos tiene por objeto detectar patrones y predecir cómo una variable afectará a otra. La gente hace eso mismo todo el tiempo.

Piénsese en cómo mi abuela me aconsejó en materia de relaciones sentimentales. Utilizó la enorme base de datos que su cerebro ha ido almacenando en casi un siglo de vida, a partir de las historias que le contaban sus familiares, amigos y conocidos. Restringió el análisis a un grupo de relaciones en las que el hombre compartía conmigo unos cuantos rasgos: susceptibilidad, tendencia a aislarse, sentido del humor. Se centró en los rasgos claves de la mujer: bondad, inteligencia, belleza. Correlacionó estos últimos con un atributo clave de la relación: el hecho de que fuera buena. Al final, me informó de sus resultados. Dicho de otro modo, detectó patrones y predijo cómo una variable afectaría a otra. Mi abuela es una científica de datos.

El lector también es científico de datos. De niño, notaba que si lloraba su madre le prestaba atención. Eso es ciencia de datos. Cuando se hizo mayor, empezó a notar que, si daba mucho la lata, la gente quería pasar menos tiempo con él. Eso también es ciencia de datos. Cuando la gente pasa menos tiempo con él, nota que se siente menos contento. Cuando se siente menos contento, es menos simpático. Cuando es menos simpático, la gente quiere pasar aún menos tiempo con él. Ciencia de datos. Ciencia de datos. Ciencia de datos.

Al ser la ciencia de datos tan natural, según he descubierto, casi cualquier persona inteligente puede comprender los mejores estudios de macrodatos. Si un estudio no se entiende, lo más probable es que el problema resida en el estudio, no en el lector.

¿Pruebas de que la mejor ciencia de datos puede ser intuitiva? Hace poco llegó a mis manos un estudio que bien puede ser uno de los más importantes realizados en los últimos años. Es uno de los estudios más intuitivos que jamás he visto. Me gustaría que el lector reparara no solo en la importancia del estudio, sino en lo natural y parecido a la sensibilidad de una abuela que es.

Fue diseñado por un equipo de investigadores de la Universidad de Columbia y Microsoft. Se quería descubrir qué síntomas predicen el cáncer de páncreas.[24] Esa enfermedad presenta una tasa de supervivencia baja al cabo de cinco años —solo en torno al 3%—, pero la detección temprana puede duplicar las probabilidades de un paciente.

¿Cuál fue el método de los investigadores? Utilizaron datos de decenas de miles de usuarios anónimos de Bing, el motor de búsqueda de Microsoft. Identificaron usuarios que acababan de recibir un diagnóstico de cáncer de páncreas sobre la base de búsquedas inequívocas, como «recién diagnosticado con cáncer de páncreas» o «Me dijeron que tenía cáncer de páncreas, qué esperar».