Qué es (y qué no es) la estadística - Walter Sosa Escudero - E-Book

Qué es (y qué no es) la estadística E-Book

Walter Sosa Escudero

0,0

Beschreibung

Del clima al desempleo, del dólar al colesterol, de las elecciones al Mundial de Fútbol, las estadísticas, estimaciones y predicciones son parte de nuestra vida cotidiana pero, en contraposición a esa ubicuidad e influencia, el modo en que se producen ocupa un lugar ínfimo (si alguno) en nuestra educación general. Creemos en esos números que nos rodean, aunque no sea para nada obvio por qué deberíamos hacerlo. ¿Deberíamos hacerlo? Este libro, que es una introducción informal y a la vez rigurosa a la estadística, revisa los principales fundamentos de esta ciencia, sus contribuciones más relevantes, sus limitaciones, sus usos y también sus abusos. En un lenguaje amigable –que los seguidores de Walter Sosa Escudero conocen bien–, sin fórmulas complicadas ni gráficos, estas páginas dejan claro que, más que una colección de datos y algoritmos, la estadística es una forma de razonar y mirar el mundo y que, como tal, no es ni buena ni mala, sino útil o inútil. A fin de cuentas, una estadística que no usa nadie –porque no se entiende o porque no es confiable– no sirve para nada. En estas páginas, perfectamente aptas para quienes no sienten inclinación por los números, Sosa Escudero demuestra con elocuencia que el fenómeno de big data y su aluvión de información está volviendo a la estadística más necesaria que nunca. Muchos aspectos de la vida humana siguen siendo esquivos al uso inocente de los datos. De hecho, seguimos sin saber cuánto va a valer el dólar de acá a una semana, quién ganará las elecciones o cómo terminará un partido de nuestro deporte favorito. La relevancia personal y social de comprender cómo funciona la estadística no es menor. Finalmente, se trata de entender cómo se generan, se interpretan y se pueden manipular los datos a partir de los cuales tomamos decisiones muy relevantes (cómo vestirnos, a quién votar, cómo invertir nuestros ahorros, cómo cuidar nuestra salud). Y eso puede hacernos, por qué no, mejores ciudadanos.

Sie lesen das E-Book in den Legimi-Apps auf:

Android
iOS
von Legimi
zertifizierten E-Readern

Seitenzahl: 294

Das E-Book (TTS) können Sie hören im Abo „Legimi Premium” in Legimi-Apps auf:

Android
iOS
Bewertungen
0,0
0
0
0
0
0
Mehr Informationen
Mehr Informationen
Legimi prüft nicht, ob Rezensionen von Nutzern stammen, die den betreffenden Titel tatsächlich gekauft oder gelesen/gehört haben. Wir entfernen aber gefälschte Rezensionen.



Índice

Cubierta

Índice

Portada

Copyright

Este libro (y esta colección)

Dedicatoria

Prefacio a la nueva edición

Agradecimientos de la nueva edición

Mentiras verdaderas. A modo de Introducción

¿Qué tienen en común el rating de la TV, el colesterol y la tasa de desempleo?

Un recorrido por el mundo de lo inexacto

1. Colorado el 32. Predicciones y estadísticas

¿La suerte es loca?

Yo, Carlos Sacaan, lo garantizo

Recomendado por odontólogos

Suerte de principiante

¿Y la nieve dónde está, señor meteorólogo?

¿Habemus papam?

Penal y gol es gol

Messi izquierda, Heinze izquierda abajo

2. Pasta Cucinata. Los métodos de la estadística

Cuento tortuguitas

¿Ha consumido usted alguna droga ilegal?

El agua y el aire en los tiempos del cólera. Orígenes de la estadística espacial

Medias con papas. Los métodos robustos

Yendo del chorizo al chancho. El análisis de regresión

¿Realmente influye la publicidad en las ventas?

Papá, ¿estás en la mafia? Los métodos indirectos

3. El huevo y la gallina. Causalidades y casualidades

El primer tango marciano. Revisando la falacia de la corrección

Saber inglés conduce al éxito (otro ejemplo de la misma falacia)

Borges, Michael Fox y la estadística

Ron y Don

Betty, la fea. La experimentación

La naturaleza imita a la ciencia. Los cuasi experimentos

El que ríe último. La precedencia temporal

4. El electrocardiograma de Marcelo Bielsa. Estadística y finanzas

La naturaleza de lo impredecible

Random walks, on the rocks

Los efluvios de la bolsa

El billete de cien dólares en Corrientes y Florida. La hipótesis de eficiencia

5. Pare de sufrir. La estadística y las disciplinas que odian a las matemáticas

¿Abogado? Retírese inmediatamente

Oprah Winfrey y “el mal de la vaca loca”

Fumar es beneficioso para la salud

Tu novia está un poquito embarazada. Los test estadísticos

6. ¿Cuán grande es una pizza grande?. Prácticas, mediciones y estándares

Mediciones erróneas, pero útiles

Todos somos pobres

Acuerdos conceptuales y metodológicos

It’s evolution, baby. Las mediciones relativas

Bienvenidos a la dimensión desconocida. Las mediciones aproximadas

Por qué, en estadística, lo mejor conspira contra lo bueno

7. Magia gris. Trucos y artilugios de la estadística y la comunicación

Razones que la razón no entiende (El viejo truco de lo relativo y lo absoluto)

¿O mais grande do mundo? (El viejo truco de los porcentajes)

Mudémonos todos a Palau (El viejo truco de los pequeños números)

De lo bueno, lo mejor (El viejo truco de los rankings)

Que no panda el cúnico (El viejo truco de la validez interna)

Veinte años no es nada (El viejo truco de la selectividad)

8. ¿Más data para acallar la alharaca? Big data no es el fin de la estadística (tal vez, todo lo contrario)

Mi nombre es Bot, James Bot

No somos como los Orozco (big data no es más de lo mismo)

Al ritmo del algoritmo

Danza con lobos

Nadie tiene 23 años. A modo de Epílogo

Caramelos sueltos. Notas, curiosidades, comentarios y referencias, a modo de Apéndice

Bibliografía comentada

Walter Sosa Escudero

QUÉ (Y QUÉ NO ES) LA ESTADÍSTICA

Cómo se construyen las predicciones y los datos que más influyen en nuestras vidas (en medio de la revolución de big data)

Sosa Escudero, Walter

Qué (y qué no es) la estadística / Walter Sosa Escudero.- 2ª ed. ampliada.- Ciudad Autónoma de Buenos Aires: Siglo XXI Editores Argentina, 2022.

Libro digital, EPUB.- (Ciencia que Ladra…, serie Mayor // dirigida por Diego Golombek)

Archivo Digital: descarga

ISBN 978-987-629-428-7

1. Estadísticas. 2. Economía. I. Título.

CDD 519.2

© 2014, Siglo Veintiuno Editores Argentina S.A.

<www.sigloxxieditores.com.ar>

1ª edición: 2014

2ª edición ampliada: 2022

Diseño de cubierta: Pablo Font

Digitalización: Departamento de Producción Editorial de Siglo XXI Editores Argentina

Primera edición en formato digital: junio de 2014

Hecho el depósito que marca la ley 11.723

ISBN edición digital (ePub): 978-987-629-428-7

Este libro (y esta colección)

Somos productos del azar y el error,

pero con un destino que no será ni el error ni el azar.

Ernesto Cardenal, “El cálculo infinitesimal de las manzanas”

En la circunferencia no hay azar.

Siempre llega a su meta.

José Emilio Pacheco, “El cero y el infinito”

En el principio vino la estadística. Luego el big data. Y un poco más tarde, apareció Borges (o sea, más estadística). ¿Cómo se llama la obra? Walter Sosa Escudero, acaso el mejor juglar de los números, los azares y los riffs de guitarras distorsionadas.

He aquí una nueva edición de aquella estadística inicial, tal vez más necesaria que nunca en estos tiempos en que los datos nos atraviesan como pandemia. Recordemos, por qué no, que esa palabra se refiere en su origen a lo “relativo al estado” –gobiernos que querían cuantificar precisamente sus acciones y sus falencias–. Alguien –se dice que el economista alemán Gottfried Achenwall– extendió el uso de Statistik al manejo, clasificación y análisis de los datos, y aquí estamos.

Este es un libro para tahúres, para arqueros que no saben hacia dónde tirarse en el penal, para gorditos preocupados con el porcentaje de grasas, para astrólogos y adivinadores aficionados o profesionales, para aprendices de agentes de bolsa, para relatores de básquet y de fútbol americano, para amas de casa intranquilas por la efectividad de un líquido antibacteriano, para amantes de la verdad pero aceptadores de las pequeñas mentiras.

En suma: un libro para todos, todísimos. Porque nadie es ajeno al mundo de las estadísticas, de las muestras, las probabilidades, esas pequeñas mentiras verdaderas de todos los días. Desde la vuelta a casa con un llavero gigante que nos obliga a ir probando cada llave antes de acertar (y si uno regresa con algún trago de más, peor, ya que volverá a poner cada llave en el manojo y empezará a probar con todas de nuevo), hasta el terror que sentimos a la hora de cotejar los resultados con los valores normales de referencia de un análisis clínico, los números y sus estimaciones nos asaltan permanentemente.

Es que somos, además, pequeños estadísticos ilustrados, estimadores de cantidades, de tiempos y de volúmenes, comparadores a ojo de buen cubero (maravillosa metáfora que recuerda épocas en que las cubas de vino no tenían medidas específicas y debían ser estimadas por el cubero profesional, un oficio tristemente olvidado). Valoramos muestras por botones, pajares por agujas, bosques por árboles, manzanas por lombrices, y así, sin darnos cuenta, usamos las armas de la estadística para poder comprender un universo demasiado extenso y complejo. Es cierto que en el camino olvidamos ciertos detalles, las particularidades de un fenómeno único, pero no podemos todo el tiempo andar arrastrando territorios como mapas. Efectivamente, no podemos ser Borges ni aun para recordar que “Acaso cada hormiga que pisamos / Es única ante Dios, que la precisa / para la ejecución de las puntuales / leyes que rigen su curioso mundo” (“Poema de la cantidad”); nuestro cerebro tiende a generalizar, a moverse por el laberinto de los promedios y los parecidos. O sea: a hacer estadísticas.

Sin embargo, esto que parece tan fácil, tan obvio y tan manipulable por especialistas de marketing y publicidad (busquen si no las maravillas porcentuales de champúes, pastas de dientes y lavandinas) es complicado de aprehender, de darse cuenta. Por suerte para nosotros, los aficionados, Walter Sosa Escudero es el mejor guía para moverse entre cifras, errores, descuentos y censos. Su prosa es fantástica, divertidísima y no por eso menos rigurosa: además de escribir como los dioses de la estadística, esta es su vida y su investigación dentro del mundo de la economía, y se nota en la erudición y el entusiasmo que nos regala en cada párrafo. Leyéndolo se tiene la impresión de que uno está tomándose un café-cerveza-fernet (táchese lo que no corresponda) con un amigote en un bar, comentando la página de deportes o de política del diario y comparando los precios con los del gallego de enfrente. Y como esto es, en el fondo, una charla de la más pura poesía, qué mejor que terminar este prólogo con un poema del escritor-matemático español José del Río Sánchez, “Examen de estadística”:

¿Qué es la Estadística?

Es una ciencia fotográfica y adivinatoria

que procede en primera instancia

como una película,

donde graban sus números

la realidad y la apariencia.

Cruza después al otro lado

para vaticinar el éxito

o embalsamar la ruina,

pues el oráculo de sus campanas

siempre se puede modular

eligiendo los prismáticos adecuados.

¿Para qué sirven las estadísticas?

Para generar hambres y vender tapaderas,

para dictar la norma

e imponer su razón.

Con ellas se averigua cómo y cuándo

llamar a la oración y al voto,

a la guerra y a la trashumancia,

a la risa y al tributo.

Ni las ovejas negras

pueden huir de sus dominios.

No huyan, ovejas negras: hagan un muestreo, un porcentaje, calculen el error y la mediana, diseñen una encuesta. Y lean este libro.

Para quienes conocieron al Walter de la ciencia de datos o al Walter borgeano, bienvenidos a las fuentes: asistirán a una clase tan magistral como amena sobre cómo medir, repartir, contar, predecir… y volver a comenzar. Y quizá lo más curioso que nos comparte este autor es que, si la estadística es la respuesta, lo más importante (y lo más difícil) es saber cuál era la pregunta.

Bienvenidos a este n=2 de Walter Sosa Escudero, que se suma a su población de n=4 y cuyas distribuciones son, sin duda, muy poco normales pero, a la vez, enormemente disfrutables y necesarias.

Esta colección de divulgación científica está escrita por científicos que creen que ya es hora de asomar la cabeza por fuera del laboratorio y contar las maravillas, grandezas y miserias de la profesión. Porque de eso se trata: de contar, de compartir un saber que, si sigue encerrado, puede volverse inútil.

Ciencia que ladra… no muerde, solo da señales de que cabalga.

Diego Golombek

A mi hijo Alejandro. Ángel guerrero, alma de diamante.

Prefacio a la nueva edición

Lo recuerdo. Fue un lunes 2 de junio de 2014. Temprano a la mañana me habían avisado de la editorial que mi libro ya estaba en librerías, y que por la tarde me recibiría Matías Martin en su ahora icónico y recordado programa radial Basta de Todo, para una entrevista iniciática de lo que después fue el largo tour de presentaciones de Qué es (y qué no es) la estadística, mi primer trabajo de divulgación científica. Y así es como, sin darme cuenta, comencé una saludable práctica que sigo cada vez que aparece un nuevo libro de mi autoría: fui a la librería de mi barrio, hice un rápido scan buscando un ejemplar en los anaqueles de novedades, lo llevé a la caja, lo pagué con mucha timidez y me senté en un bar a hojearlo, a olerlo, a sentirlo.

Un par de años antes, con Diego Golombek y Carlos Díaz (directores de la colección Ciencia que Ladra y de Siglo XXI, respectivamente) habíamos acordado acerca de la necesidad de un libro de divulgación que pusiera arriba de la mesa “eso de los datos”. Un libro que contase la cocina de las últimas cosas para las cuales uno querría usar la palabra “cocina”, por lo menos en su acepción peyorativa: los números detrás de las tasas de pobreza, el clima, el dólar, la efectividad de un experimento científico, la medición del colesterol, el rating, los sondeos políticos, el desempleo, los efectos de fumar, la obesidad, etc. Percibimos la relevancia de los datos, de las fórmulas, del miedo atávico a lo numérico, de la posibilidad de ser manipulados con cifras, y del espacio ubicuo de la estadística en la historia de la ciencia, esa que detiene epidemias, que monitorea la política, que define elecciones.

Nos costó encontrarle un nombre. Y adoptamos Qué es (y qué no es) la estadística, porque describía exactamente el punto del libro. Más que la respuesta, nos interesaba que los lectores se sintiesen atraídos por la consigna del título. Porque si bien estamos rodeados de cifras que rigen nuestra vida cotidiana, no es obvio por qué uno debería confiar en ellas. Nos pareció que una introducción a cómo se elaboran y sobre la base de qué criterio se decide si son útiles redundaría en una postura más madura acerca de su relevancia.

También motivó el libro el hecho de que los datos, las chances y los métodos estadísticos ocupan una parte ínfima (si alguna) en la educación general, en llamativa contraposición con la ubicuidad de la estadística en el discurso público. Este libro, entonces, se propuso funcionar como una introducción informal y a la vez rigurosa a una disciplina central en la historia de la ciencia y en la vida cotidiana.

Y así nació el trabajo que ahora tienen delante de ustedes, que revisa los principales fundamentos de esta ciencia, sus contribuciones más relevantes, sus limitaciones, sus usos y también sus abusos, en todas las ramas del conocimiento y el quehacer diario, desde la astrofísica hasta la sociología, pasando por el deporte, el derecho, el arte, las ciencias biológicas, las finanzas, las cuestiones sociales, el periodismo y la salud. Siempre en un tono cordial y a la vez preciso, con una particular atención a los lectores que se declaran “ajenos a los números”. Un propósito explícito de este libro es mostrarles que la estadística, más que una colección de datos y algoritmos, es una forma de razonar, de enfrentar la realidad, que no es ni buena ni mala, sino útil o inútil. Porque a la larga, una estadística que no usa nadie –porque no se entiende, o porque no es confiable– no sirve para nada, más allá de sus propiedades técnicas o matemáticas.

Cuando salió la primera edición, en 2014, no había WhatsApp, Uber ni Rappi. Donald Trump era solo un millonario mediático y verborrágico. De big data hablaban unos pocos nerds, si bien en los ámbitos específicos se preparaban los paraguas para la lluvia de datos que ya invadía nuestras vidas.

Y después vino el auténtico aguacero, más bien el diluvio universal, de datos y algoritmos. Y escribimos otro libro para esta colección, Big data, que agotó siete ediciones en menos de dos años. Y luego vino Borges, big data y yo, porque nos dimos cuenta de que el derrotero de los datos y algoritmos pasaba peligrosa y atractivamente cerca del universo fantástico del gran autor argentino. En los años que transcurrieron entre la primera edición de este libro y la que el lector tiene en sus manos ahora, se pasó de “estimar” a “entrenar” un modelo, la vieja estadística devino en “ciencia de datos” y de pronto se convirtió en la disciplina más sexy de la oferta académica y del mercado laboral. Y en algún momento casi hasta nos creímos que la estadística pasaba de moda, que perdía su metier ante la profecía apocalíptica de contar con “todos los datos”, como prometían big data y sus algoritmos.

Pero en el medio del diluvio de datos detectamos algunos sectores llamativamente “secos”, apenas afectados por la revolución de los datos y los algoritmos. Seguimos sin saber cuánto va a valer el dólar de acá a una semana, quién será el o la próxima presidenta, nos late el corazón fuerte porque no sabemos cómo saldrá un partido de fútbol cuando empieza. Como comunidad, el 31 de diciembre de 2019 no éramos conscientes de que en 2020 se venía la noche más negra de nuestras vidas.

En épocas de big data, la estadística no ha perdido ni un centímetro de su relevancia, tal vez todo lo contrario. Porque si bien los avances han sido (y serán) importantísimos, muchos aspectos de la vida humana permanecen ajenos al uso inocente de los datos. Así, nos sorprendemos de la inhabilidad de los algoritmos para realizar ciertas predicciones, una dificultad que está descripta con detalle en el capítulo 1 de este libro. Entramos en discusiones eternas sobre si la pobreza aumenta o no, porque, como contamos en el capítulo 6, la cuantificación de las cuestiones sociales requiere acuerdos comunicacionales que van mucho más allá de los datos y los métodos. Nos indignamos cuando un algoritmo cree que si alguien es un CEO debe ser un hombre, un sesgo que obedece a las razones que describimos en el capítulo 2. Y todavía siguen apareciendo como hongos esos estudios “de la Universidad de Massachussetts” que nos quieren convencer de que tomar gaseosa parado aumenta las chances de contraer cáncer de próstata, amén de otras manipulaciones numéricas como las que contamos en el capítulo 7.

“Hay que repetir porque el público se renueva”, decía Mirtha Legrand. Pero en este caso es relevante repetir y enfatizar la relevancia de la estadística porque su larga experiencia de éxitos y fracasos deja una valiosa herencia para aprovechar al máximo el potencial de los datos. Como veremos en estas páginas, la masividad de datos no necesariamente resuelve los problemas que ya tenía la estadística, y, peor aún, a veces solo los magnifica, porque, como decía Schopenhauer, correr tiene sentido solo si uno va en la dirección correcta.

Por estas razones es que hemos decidido revisar y reeditar este libro. Porque los sesgos existen y siguen existiendo, porque, por razones éticas y operativas, los experimentos en los que se basa la efectividad de la vacuna contra el covid-19 se hacen con relativamente pocos sujetos, porque sigue siendo frecuente engañar con números, porque Joshua Angrist, Guido Imbens y David Card ganaron el Nobel en Economía en 2021 por todo lo que contamos con detalle (y con mención explícita a ellos) en el capítulo 3, porque seguimos sin saber tantas cosas, como cuándo terminará la pandemia o quién ganará el próximo mundial de fútbol.

Además de correcciones, revisiones generales y algunas actualizaciones bibliográficas, esta nueva edición incluye un capítulo extra, que refiere explícitamente al fenómeno de big data, sobre todo en su relación con la estadística. Si bien mis dos libros anteriores tienen mucho en común, son autocontenidos, de modo que ninguno es un requisito para los otros.

Y cuando salga este libro ahí iré, una vez más, a la librería de mi barrio, a detectarlo ansioso en la mesa de novedades, como un tío primerizo a su flamante sobrino en la nursery, y luego a tomar un café, a olerlo, a sentirlo, a repetir viejas costumbres. No, de ninguna manera, soy un científico, yo no tengo cábalas, tan solo costumbres que respeto, como dijo el entrañable Carlos Salvador Bilardo.

Agradecimientos de la nueva edición

Los agradecimientos de la primera edición de este libro concluían con un premonitorio “nos volveremos a ver”. Y… ¡nos volvimos a ver!, porque el que se va sin que lo echen en el fondo pretende que lo vuelvan a convocar, como los músicos que se hacen los sorprendidos tras los aplausos que anteceden a un bis. En este caso, los aplausos fueron los comentarios y aportes de todos los lectores.

Repito mi agradecimiento para Sebastián Campanario, por animarme a divulgar y por el espacio brindado en su columna Alter Eco en el diario argentino La Nación, que he usado como trampolín para varias de las historias de este y todos mis libros. También agradezco a Carlos Díaz y Diego Golombek, por el eterno voto de confianza. Gracias especiales para Raquel San Martín, mi editora en Siglo XXI, por haber puesto orden, sensatez y su reconocido profesionalismo en la tarea de reedición. El joven lector Javier Schargrodsky (entonces un estudiante de secundario) detectó y corrigió un error grave en un razonamiento de la primera edición, que no les contaré solo a fines de descubrir si leen con atención. Gracias especiales para todos los lectores de la primera edición de Qué es (y qué no es) la estadística y para todas las instituciones educativas y profesionales que me invitaron a dar charlas sobre el libro. También agradezco algunos intercambios relevantes que tuve con Guillermo Solovey, Leonardo Gasparini y Marcela Svarc. María Edo, Mariana Marchionni, Mercedes Iacoviello, Melina Furman, Raúl Stigliani (que lamentablemente falleció antes de que esta edición viera la luz), Luján Stacevicius, Leonardo Gasparini y Ricardo Bebczuk leyeron parte o todo el manuscrito original y me hicieron valiosas sugerencias. Leopoldo Tornaroli respondió varias dudas relacionadas con la Encuesta Permanente de Hogares. Como siempre, mi esposa Mercedes, mi hijo Alejandro y mi mamá Mary supieron disimular y acompañar las histerias propias del proceso de elaboración de mis libros.

¿Nos volveremos a ver? Predigo que sí.

Mentiras verdaderas

A modo de Introducción

—¡Buen díaaaaa! ¡Qué cara!, ¿eh?

—Me quedé hasta tarde mirando por la tele el partido de fútbol de anoche.

—¿Viste? Recién me fijaba en internet que midió 35 puntos de rating.

—¿Qué hay para desayunar?

—Lo que te ordenó el médico: café con edulcorante, dos tostadas de pan negro y mermelada light. Con 250 de colesterol mucha alternativa no tenés.

—No, edulcorante ni loco. Me contaba Alberto que leyó en el diario que esas pastillitas te duplican las chances de que te agarre no sé qué tipo de cáncer de colon.

—¡Matíaaaaas! Dale, levantate de una buena vez que hoy tenés prueba.

—¿Y? ¿Cómo lo ves?

—Más o menos. Tiene que levantar. Si no se saca como mínimo un 8, no aprueba.

—¡Qué frío que hace! ¿Escuchaste cómo va a estar hoy el tiempo?

—A ver, dejame ver el diario. “Mínima: 6, máxima: 15. Vientos leves del sudoeste. 90% de probabilidad de chaparrones. Desmejorando hacia la tarde”. Bah, llevate la bufanda y el Montgomery.

—¿Qué? ¿180 el dólar?

Y sí, las estadísticas nos rodean. Nos acompañan a todos lados, nos persiguen, nos acosan, nos atosigan. Estadísticas económicas, sociales, políticas, médicas, meteorológicas, químicas, alimenticias o deportivas. Estadísticas grandes y chicas, urgentes e irrelevantes, confiables y tramposas, triviales e incomprensibles.

Esta profusión de estadísticas en la vida cotidiana contrasta con la importancia relativa que se le da al tema en la educación de niños y jóvenes. Llama la atención que los objetos típicos de la estadística, como los histogramas, la media, el desvío estándar, los test de hipótesis o la distribución normal, ocupen un espacio ínfimo en la cultura general en comparación con el que tiene la matemática clásica. La matemática no parece tolerar errores. La estadística vive de ellos.

Estimar no es conocer. O en todo caso lo es, pero en un sentido sanamente impreciso. El reconocido y recientemente fallecido estadístico inglés George Box decía que “todos los modelos están mal, pero algunos son útiles”, sugiriendo que confiar en una estimación implica aceptar cierta imprecisión, que es el precio a pagar por disponer de un conocimiento que de otra forma resultaría inalcanzable.

¿Qué tienen en común el rating de la TV, el colesterol y la tasa de desempleo?

Pensemos en el caso del rating de televisión, que mide la cantidad de personas que en un momento dado están viendo determinado programa. Se trata de una cifra crucial para productores, actores, conductores de programas de chimentos, anunciantes y público en general. La expresión “minuto-a-minuto” se refiere a la obsesión por chequear esa cifra en forma simultánea a la emisión en cuestión. Sin embargo, muchos se sorprenden al enterarse de que el rating de televisión se mide con una muestra de tan solo unos seis mil hogares, a través de un sistema de cuadernillos y unos aparatitos llamados people meter que, conectados entre un televisor y la línea de teléfono, envían a una central de procesamiento los datos acerca de qué programa miran las personas en ciertos domicilios. ¿Deberíamos confiar en esta cifra, obtenida con tan solo seis mil hogares, teniendo en cuenta que en la Argentina hay unos doce millones de ellos?

Si confiar significa que con seis mil hogares podemos medir con exactitud, sin error alguno, el comportamiento televisivo de toda una nación, la respuesta es claramente negativa, lo cual nos enfrenta a dos posibilidades. Si fuésemos inflexibles con el hecho de cometer errores, el único camino para medir el rating en forma inequívoca consistiría en colocar un people meter en cada hogar, lo cual es operativamente imposible en términos de costos y de esfuerzos. La segunda posibilidad consiste en conformarnos con una aproximación a la verdadera cifra, y en ese caso entonces quizás existan condiciones bajo las cuales una medición del rating basada en seis mil observaciones pueda resultar útil, aun cuando no sea precisa en un ciento por ciento.

Pero dejemos de lado el rating y vayamos a la medición del colesterol, otra cifra que quita el sueño a más de uno. Se basa en un simple procedimiento, que comienza cuando dejamos de comer porquerías doce horas antes de que nos extraigan una pequeña cantidad de sangre con una jeringa. Poca sangre, poquita, poquitita. Unos diez mililitros, del total de cinco litros y pico que circula por el cuerpo humano. El procedimiento continúa cuando los resultados son luego reportados en un insípido documento, lleno de tecnicismos y de números raros, que todos hojeamos como si supiésemos, y que después será escrutado por nuestro clínico mientras esperamos avergonzados la reprimenda, que en términos coloquiales no dirá mucho más que: “Trate de suprimir los postres”. Nadie pone el grito en el cielo porque tal diagnóstico se base en tan poca sangre.

Ambas mediciones, la del rating y la del colesterol hacen referencia a la relación que hay entre la parte y el todo, e intentan proveer una respuesta útil, conducente al gimnasio o a cambiar de canal, aun cuando la cifra exacta sea inalcanzable. La discrepancia entre la verdadera medida, basada en todos los hogares en el primer caso, o en toda la sangre en el segundo, y la basada en una parte pequeña del todo (una “muestra”), es el precio a pagar por la factibilidad.

Pregonar que “las mediciones son erradas” es casi como confirmar algo obvio para quien opera con muestras. El objetivo de las estimaciones no es conocer con exactitud, sino proveer aproximaciones razonables y honestas que, si bien difieren de la realidad, pueden dar información valiosa para la toma de decisiones.

Otro ejemplo realista lo constituye la medición del desempleo. En un momento dado, se entiende como “desempleada” aquella persona que busca trabajo pero que no lo consigue (las que no trabajan y no buscan se denominan “inactivas”). Idealmente, deberíamos formular la pregunta “¿está usted desempleado?” a todas las personas de un país, en un determinado momento, lo cual implica llevar a cabo un censo, tarea costosa en extremo y no necesariamente útil.

La tasa de desempleo de un país para un período en particular es simplemente la proporción de personas que responden de manera afirmativa a esta pregunta. La práctica usual consiste en llevar a cabo este procedimiento con una muestra, es decir, formulando la pregunta a un subconjunto del total de personas de un país. Desde este punto de vista, la tasa de desempleo obtenida a través de la muestra (como con el rating y el colesterol) es tan solo una estimación, una conjetura acerca de la “verdadera” tasa de desempleo para toda la población. En la Argentina, esta acción es realizada por el Instituto Nacional de Estadística y Censos (Indec), a través de la Encuesta Permanente de Hogares (EPH). En dicha encuesta, la tasa de desempleo para el Gran Buenos Aires se computa sobre la base de unos 1500 hogares, de un total de casi de cinco millones que hay en la zona, según datos de 2021.

Un recorrido por el mundo de lo inexacto

Toda estimación relevante conlleva un error. Implica aceptar una suerte de mentira piadosa, que es solo una aproximación a lo que ocurriría si pudiésemos encuestar a toda la población. Si una imagen vale más que mil palabras, una estadística parece valer muchísimo más. Estamos ante una mentira verdadera.

Este libro propone una visita irreverente al universo de las estadísticas y los datos. Los invito a adentrarnos en el fascinante mundo de la creación de varias estadísticas de uso cotidiano, como las tasas de pobreza y de desempleo, los índices bursátiles o las usadas para medir el clima. También les propongo un paseo por los razonamientos estadísticos. A diferencia de los mecanismos exactos de la matemática o la ingeniería, esta clase de argumentos internalizan la presencia de errores o imprecisiones. Veremos cómo las estadísticas se utilizan para hacer proyecciones financieras, para detectar si hay discriminación en el mercado laboral, para monitorear la evolución de la pobreza, o simplemente para entretener a los lectores de los diarios cuando escasean las noticias relevantes. Cada capítulo concluye con una sección titulada “Se va la segunda”, en alusión a la forma clásica de la zamba argentina, una suerte de resumen rápido de las principales ideas discutidas, a veces con el aporte de alguna reflexión.

Valen algunos comentarios previos a emprender esta aventura. He evitado, casi tercamente, las fórmulas, gráficos y tablas que pueblan los textos de estadística, porque este no es un texto de estadística, sino un viaje por la cultura de las estimaciones, las proyecciones y lo inexacto. Con el propósito de no distraer al lector con academicismos innecesarios, también evité las notas a pie y las referencias bibliográficas. Para aquellos que necesitan “ver para creer” acumulé en el Apéndice, titulado “Caramelos sueltos”, algunas referencias y comentarios útiles. Asimismo, para los eternamente curiosos, para quienes quieran adentrarse en esta disciplina y también para los que gusten de los detalles técnicos y matemáticos, he creado una página web que contiene todas las fuentes y referencias detalladas que utilicé para armar las historias de este libro, además de comentarios adicionales, videos, links a otras páginas web sobre el tema y curiosidades varias <www.queeslaestadistica.com>. Espero que la visiten y me hagan llegar sus comentarios y sugerencias.

Por otro lado, poco hice para evitar mi sesgo de econometrista. ¿Econo qué? Econometría, biometría, psicometría, cliometría, etc. son disciplinas que aplican la estadística a la economía, la biología, la psicología o la historia, respectivamente. Como ocurre en una empresa cuando hay que decidir si comprar tornillos hechos o fabricarlos en el propio taller, una parte de la estadística se hace dentro de la propia estadística y otra en cada una de las disciplinas que la usan. Si bien he trabajado profusamente en todas las “metrías” antes mencionadas, mi visión de la estadística se ve sesgada, y ojalá que honestamente, por mi formación y experiencia como científico social. Así y todo, creo que las ventajas y limitaciones del enfoque estadístico son comunes a casi todas las disciplinas.

Nuestra hoja de ruta será la siguiente. Comenzaremos metiendo nuestras narices en el uso de la estadística para predecir el futuro. Luego visitaremos la cocina de esta disciplina revisando algunos métodos estándar y otros más esotéricos, como los empleados para contar cucarachas en una casa o medir el consumo de drogas en los jóvenes. El tercer capítulo gira en torno al uso de las estadísticas para medir fenómenos causales, tales como la efectividad de la policía en combatir el crimen o cuánto importa la belleza en la posibilidad de encontrar trabajo. Posteriormente visitaremos el mundo de las finanzas y la bolsa, y sin duda nos amigaremos con esos misteriosos diagramas que aparecen en las publicaciones especializadas. De ahí nos moveremos a tierras hostiles para penetrar en la aplicación de la estadística dentro del campo del derecho, porque, como digo en ese capítulo, si podemos con los abogados, podemos con todos. El siguiente capítulo aborda la estadística como acuerdo social, mostrando que una tarea relevante de esta disciplina consiste en definir ciertas cuestiones antes de medirlas, como qué significa ser pobre. Terminamos este viaje contando algunos de sus usos truculentos.

Bien. Pónganse ropa cómoda y poco llamativa, dejen un teléfono de contacto que allí vamos, a los terrenos oscuros de la trastienda de las estadísticas y los datos.

1. Colorado el 32

Predicciones y estadísticas

Tu nombre es Walter. Tenés 56 años. Sos de Boca. Tu comida favorita es la carne al horno con papas. Mañana va a salir el 898 en la vespertina de Montevideo.

Con las modificaciones del caso, este es un anuncio típico de un adivino a su cliente. A fin de establecer su credibilidad, el o la susodicha comienzan soltando datos triviales e inútiles, aunque de inmediata verificación. (Convengamos en que nadie va a andar pagando para que le digan cosas que están escritas en su pasaporte o su documento de identidad.) Y luego viene una máxima, siempre crucial y grave, pero inverificable inmediatamente (saldrá tal número en la lotería, tu esposa va a engañarte con otro tipo, te comprarás una casa en los próximos cinco años, etc.). Así uno se irá del domicilio del adivino con el corazón latiendo fuerte, tanto por la severidad de las predicciones como por la sensación de haber sido embaucado. Que yo sepa, a nadie le devuelven el dinero por una predicción fallida. También digamos que el médium o vivillo de turno no reclamará una recompensa extra por haber acertado.

¿Qué significa predecir correctamente? ¿Cuáles son las características básicas de un buen predictor?

La relevancia de una predicción tiene que ver con cuán cómodos nos sentimos una vez que escuchamos el pronóstico, pero antes de que el evento predicho ocurra. Toda buena predicción debe agregar información que nos ayude a pensar y a modificar nuestras conductas (casarnos, jugar a la lotería, hacer una inversión, etc.).

La predicción “va a subir el precio del dólar” será útil en la medida en que nos induzca a tener seriamente en cuenta este consejo antes de que el evento en cuestión ocurra. He aquí el meollo de la cosa. Establecer la relevancia de las predicciones es una tarea que requiere evaluar más al predictor que a la predicción en sí misma, porque cualquier predicción interesante hace referencia al futuro, y con el diario de mañana, todos somos sabios.

La estrategia de comenzar soltando información trivial antes de lanzar algo inverificable en realidad tiene que ver con la necesidad del predictor, adivinólogo o futurista de ganar reputación, lo cual debería dar credibilidad a las aseveraciones que vienen después, pero que son inverificables ya que refieren al futuro.

Este capítulo nos enfrenta al misterioso mundo de las estadísticas y las predicciones, un universo de sabiondos y suicidas (como decía el dramaturgo argentino conocido como Discepolín), en el que conviven científicos, suertudos, manipuladores y algunos héroes anónimos.

¿La suerte es loca?

El conductor televisivo argentino Raúl Portal solía comentar que tenía un perro tan obediente (Bobby) que cuando le decía “Bobby, ¿venís o no venís?” Bobby venía o no venía. Este ejemplo, simple como la mayoría de los que encontrarán en este libro, muestra que una forma bastante trivial de acertarle al futuro es ser ampliamente general (el dólar sube, baja o se queda quieto, algún número entre el 0 y el 36 saldrá en la ruleta, etc., etc.). Naturalmente, cualquier predicción relevante hace referencia a un evento mucho más específico, de compleja deducción sobre la base del conocimiento disponible en el presente. Desde un punto de vista lógico, predecir no es un ejercicio muy diferente a estimar, y consecuentemente, en varias ocasiones amerita un análisis similar.