Página principal

Iv lo directo y lo inverso


Descargar 111.23 Kb.
Página1/2
Fecha de conversión18.07.2016
Tamaño111.23 Kb.
  1   2
IV

Lo directo y lo inverso

El menor de los hechos presupone el universo e,

inversamente, el universo necesita del menor de los hechos.

Jorge Luis Borges



Adán y raza, azar y nada

Julio Cortázar


Mi novia, que me quiere mucho, me manda e-mails desde Barcelona todos los días. Pero resulta que ayer no me escribió. Y hoy tampoco. Lo tomo como que me dejó de querer. Mi razonamiento es que si me dejó de querer, las probabilidades de que deje de escribirme son altas. Pero mis amigos me dicen que me equivoco, que puede estar ocupada con exámenes, o su modem puede estar descompuesto, o puede haber un tornado en Barcelona: una cosa es la probabilidad de que dado que no me escribió me haya dejado de querer, y otra es la probabilidad de que, dado que me dejó de querer no me haya escrito. La confusión lógica de invertir estos dos tipos de probabilidades es muy frecuente y de eso, con ramificaciones y rayuelas, me ocupo este capítulo.


Falacias de turno
La probabilidad de que una persona tomada al azar sea varón es ½ (suele ser ligeramente distinta pero digamos ½). Si Marta tiene dos hijos, la probabilidad de que  los dos sean varones es igual a la probabilidad de que  los dos sean mujeres: 1/4. ¿Por qué? Porque hay cuatro posibilidades para los pares de hijos: Si represento como (V,M) al caso en que el menor es varón y el mayor mujer, las otras posibilidades son (M,V), (V,V) y (M,M). Ahora supongamos que nos encontramos con Marta por la calle y nos dice que uno de sus hijos es varón. ¿Cuál es la probabilidad de que su otro hijo sea mujer? La intuición general es que esa probabilidad es 1/2. Sin embargo la probabilidad es más alta, 2/3, ya que si tiene un hijo varón, eliminamos la posibilidad (M,M) y quedan ahora tres posibilidades, en dos de las cuales hay una pareja de varón y mujer. (Ejercicio: si ahora María nos dice que Andrés es el hijo mayor, ¿Cuál es la probabilidad de que el otro hijo sea mujer?)

En el ejemplo de Marta, la probabilidad pasó de ½ (la probabilidad de que uno de sus hijos sea mujer) a 2/3 (la probabilidad de que uno de sus hijos sea mujer dado que el otro es varón) porque el universo de posibilidades cambió, o el número de casos posibles pasó de cuatro a tres.


En casos más elaborados esta confusión de probabilidades llega a tener consecuencias jurídicas. Un caso notorio se dio en 1995 en el juicio a O.J. Simpson, acusado de matar a su mujer Nicole. Uno de los argumentos fuertes del fiscal era que Simpson golpeaba a su mujer y que los golpeadores suelen llegar al asesinato. Del lado de la defensa, el abogado Alan Dershowitz convenció al jurado de que eso era irrelevante, usando un argumento estadístico falaz, al que luego el matemático John Allen Paulos llamaría "estaticidio". Según Dershowitz, dado que una bajísima proporción (1 en 2500) de las mujeres abusadas son luego asesinadas por su abusador, el argumento del fiscal es estadísticamente irrelevante. Pero Dershowitz estaba mirando el problema al revés, ya que la información que tenemos es que Nicole fue asesinada, de modo la pregunta estadística correcta es: ¿Dado que una mujer fue asesinada, cuál es la probabilidad de que haya sido víctima de su abusador? Y aquí la cosa cambia porque el 90% de las mujeres asesinadas en EEUU son víctimas de su abusador.

Este tipo de error fue analizado en 1987 en un artículo de William Thomson y Edward Schumann con ejemplos que en unos casos llaman "la falacia del fiscal" y en otros "la falacia del de defensor". La primera versión es la que se popularizó más y en general se llama falacia del fiscal al error de inversión al juzgar probabilidades en casos jurídicos.

Otro caso famoso es el de Sally Clark, en Inglaterra, acusada en 1988 de matar a sus dos bebés, uno de 11 semanas y luego al otro de 8 semanas. La defensa argumentó que en los dos casos se trataba de el síndrome de muerte súbita. Pero el fiscal argumentó que esto era estadísticamente muy improbable ya que la proporción de bebés que mueren de muerte súbita es 1 en 8500 de modo que la probabilidad de dos muertes sucesivas es 1 en 73 millones. Y Clark fue condenada. En octubre de 2001 la Royal Statistical Society publicó una declaración puntualizando que el argumento era una "falacia del fiscal", ya que las muertes súbitas no son necesariamente independientes, y si el primer hijo muere de muerte súbita, la probabilidad de que el siguiente muera por la misma causa puede ser considerable. El caso luego se complicó más pero Clark fue liberada en 2003.  

Muchas veces en este capítulo hablo de la probabilidad de “A dado B”, que expresa en qué medida la ocurrencia de B afecta la probabilidad de que ocurra A. La idea es sencilla pero es fuente de confusiones. La más común es suponer que la ocurrencia de B condiciona a A, o es la causa de a A, cuando en realidad la causa es otra. Por ejemplo habrán escuchado la historia de Don Hermenejildo que se murió pocos meses que su esposa con quien había compartido 65 años de matrimonio. “Es algo muy frecuente” dice la explicación popular, “los viejos se quedan solos y se mueren de tristeza”. Pero lo cierto aquí es que si los dos son muy viejos la probabilidad de que el segundo muera poco tiempo después que el primero es alta, simplemente porque les quedaba poco tiempo a ambos. A esta la escuché en Tucumán: “Me crucé con Federico, qué gordo que está, se debe haber casado”. La pregunta que me hago es, engordó porque se casó o se casó, como la mayoría, a la edad en la que naturalmente tendemos a engordar. Y varias veces escuché “probe de todo para mi dolor de espalda hasta que por fin un homeópata me curó”. La pregunta aquí es, se curó por el homeópata o por uno de los tantos mecanismos - poco entendidos por cierto - de auto curación que tiene el organismo y que hacen que, en general, el dolor de espalda no dure para siempre. Y seguro que escucharon de Silvana, que hizo tratamientos de fecundación por largo tiempo hasta que justo cuando decidió adopter quedó embarazada. De nuevo, la pregunta es si quedó embarazada por una sugestión al decidir adoptar o si, de cualquier modo, al cabo de tanto tratamiento, hubiera quedado embarazada igual.


Pero la probabilidad de “A dado B” suele ser distinta de la probabilidad de “B dado A”, de modo que es probable que mi novia me va a volver a mandar mails. Pienso en El Diario de Anna Frank, en los libros de Harry Potter y en tantos otros que fueron rechazados por muchos editores antes de vender millones de ejemplares. El razonamiento intuitivo "si me rechazaron, mi libro es malo" los hubiera descorazonado erróneamente. El éxito entonces, es no darse por vencido.  


Paradojas Porcentuales
Los porcentajes son parte de la lingua franca del azar. Manejarlos bien requiere un preciso dominio de las fracciones, de fracciones de fracciones y de operaciones que a primera vista son sencillas pero que suelen confundirnos. Buen momento para conversar de porcentajes, visitar algunas curiosidades y prepararnos para uno de los resultados más importantes del cálculo de probabilidades.
Digamos que gano $1,000. Si me aumentan 50% mi sueldo pasa a $1.500. Y si luego me bajan un 50% mi sueldo pasa a ser $750. Esta diferencia tiene una razón simple: un aumento porcentual es un producto y no una suma. Primero multiplicamos por 1,5 (aumento del 50%) y luego multiplicamos por 0,5 (disminución del 50%). Y como el orden de los factores no altera el producto, y lo digo como quien acuña una primicia, si primero me bajan el sueldo un 50% (mi sueldo pasa a $500) y luego me lo aumentan un 50%, termino, como antes, en $750: 1,5x0,5=0,5x1,5. Otro ejemplo dentro de la misma tónica: si un negocio rebaja en un 80% el valor de una camisa de $100, la camisa pasa a valer $20. Y si lo vuelve a rebajar, ahora en un 20%, la camisa pasa a valer $16: una rebaja del 80% seguida de una rebaja del 20% termina siendo una rebaja del 84%.
Como el párrafo anterior les resultó fácil, consideren el siguiente caso real de un juicio por discriminación a la universidad de Berkeley: de los posibles ingresantes de 1973 fueron admitidos el 44% de varones y el 35% de mujeres. Para los querellantes, esos porcentajes indicaban un claro favoritismo hacia a los varones. Sin embargo, si uno mira con cuidado, la cosa era al revés: la mayoría de los departamentos habían admitido un porcentaje mayor de mujeres. ¿Cómo puede ser posible? Para clarificar la idea, ya que había muchos departamentos en juego, presento una versión simplificada, pero que contiene la esencia del problema. Digamos que se presentan 110 mujeres y 110 varones y que se distribuyen en dos departamentos: 100 varones y 10 mujeres van a sicología mientras que 100 mujeres y 10 varones van a matemáticas. Resulta que en sicología entran 9 mujeres (90%) y 60 varones (60%) y en matemáticas entran 30 mujeres (30%) y un varón (10%). En cada departamento el porcentaje de admisión de mujeres es mayor. Sin embargo, en total entraron 39 mujeres (35,4%) y 61 varones (55,4%). ¡Se admitieron más varones! Este resultado curioso, llamado la paradoja de Simpson, aparece cada tanto en situaciones estadísticas. Otro caso real es la comparación de dos terapias para tratar los cálculos de riñón: la cirugía común y la nefrolitotomía. Llamémosle tratamientos (a) y (b). El el (a) funciona el 78% y el (b) el 83%. En ese sentido gana el (b). Pero cuando se los divide en piedras (cálculos)1 de distinto tamaño gana (a): para piedras de menos de 2cm (a) funciona un 93% contra un 83% para (b) y para piedras de más de 2cm (a) funciona un 73% contra un 69% para (b)2. Volveremos a este tipo de paradojas cuando en el capítulo siguiente conversemos de la “paradoja de la amistad”.
Y ahora sigamos paseando por el laberinto de las fracciones que se multiplican en camino hacia una de las fórmulas más famosas del cálculo de probabiliades.

Casamiento en los Bayes
La escena: un casamiento con 100 invitados, distribuidos de la siguiente forma:


Mujeres del lado del novio

5

Varones del lado del novio

15

Mujeres del lado de la novia

55

Varones del lado de la novia

25

TOTAL DE INVITADOS

100

La tabla muestra la división de los invitados en cuatro grupos mutuamente excluyentes, o incompatibles: por ejemplo Juan es o invitado de la novia o del novio; cada invitado pertenece a solo a uno de los cuatro grupos. En cambio, el grupo de mujeres y el grupo de invitados del novio no son mutuamente excluyentes: Francisca podría pertenecer a los dos.



Digamos que tomo una mujer al azar y me pregunto cuál es la probabilidad de que sea invitada del novio. La respuesta es 5/60 ya que hay 60 mujeres en total, 5 de las cuales son invitadas del novio. En lenguaje más técnico, la probabilidad de ser invitado del novio dado que pertenece al grupo de mujeres es 5/60. Al revés la cosa cambia. Si tomo un invitado del novio y me pregunto cuál es la probabilidad de que sea mujer, la respuesta es 5/20. En tono más formal:


A = “El invitado es mujer”

B = “El invitado es del lado del novio”


P(A dado B) = 5/20

P(B dado A) = 5/60.


Salta a la vista que no es lo mismo la probabilidad de A dado B que la probabilidad de B dado A. El “5” que aparece aquí corresponde a los invitados que pertenecen a la vez a los dos grupos, A y B, y representa un 5/100, el 5% del total. Fíjense que a esa fracción puedo verla de dos maneras equivalentes: 1-como las mujeres dentro de los invitados del novio y 2-como las invitadas del novio entre las mujeres. En código de fracciones, esas dos corresponden a:

y a su vez


Claramente 1/4 de los invitados del novio son mujeres, mientras que 1/12 (o 5/60) de las mujeres son invitadas del novio; las fracciones son distintas. Una es 3 veces más grande que la otra. Pero justamente la fracción total de mujeres (60/100) es tres veces más grande que la de invitados del novio (20/100). Aparece en este simple ejemplo una interesantísima simetría:


Los invito a jugar con distintas distribuciones de invitados y verán que esa simetría se da siempre. Por eso la escribimos como una fórmula general:

Esta fórmula inocente, o el teorema de Bayes, derivada en 1763 por el presbítero inglés Thomas Bayes, es al cálculo de probabilidades lo que el teorema de Pitágoras es a la geometría3. El teorema suele aparecer en los libros de texto en una versión reacomodada de la fórmula que escribí arriba:

y esta versión tiene lindas implicancias conceptuales4.


Por ejemplo, no es lo mismo la probabilidad de contraer cáncer de pulmón dado que uno es fumador que la de ser fumador dado que un contrajo cáncer de pulmón. La magia de fórmula de Bayes está en la relación numérica entre las dos probabilidades. Muestro detalles en el párrafo que sigue.
En EEUU un cuarto de los adultos es fumador y, de ese grupo de fumadores, uno en diez contraen cáncer de pulmón. Si quieren fórmulas: A representa “fumador” y B representa “contrae cáncer de pulmón”, entonces P(A)=1/4, P(B dado A)=1/10. En otras palabras, si tomo una muestra representativa de de 800 adultos, 200 fuman, y de esos 200, 20 contraen cáncer de pulmón. De ese mismo grupo, 600 son no fumadores. La otra estadística conocida es que uno en 200 (3 en promedio en nuestro caso) de los no fumadores contraen la enfermedad. Entonces de los 23 individuos que tienen cáncer 20 son fumadores: P(A dado B)= 20/23. Y para verificar la simetría de Bayes, el cociente entre esas dos probabilidades5 (23/200) es idéntico al cociente entre la probabilidad de tener cáncer de pulmón, P(B) =23/800, y la probabilidad de ser fumador (1/4).

El caso de los fumadores ilustra la simetría de las probabilidades condicionadas, pero la fórmula de Bayes va mucho más allá y luego de idas y vueltas en la historia del la estadística, hoy tiene aplicaciones que van de diagnósticos clínicos a controles de calidad en fábricas de automóviles pasando por computadoras que reconocen imágenes y palabras y detectores de fraude de tarjetas de crédito.



Mamografías
Un informe de 2009 publicado en “Annals of Internal Medicine” recomendaba que las mujeres de menos de 50 no se hicieran el test de mamografía. El informe recibió criticas encendidas dentro de los republicanos que atacan el así llamado “Obamacare”. El argumento era más o menos el siguiente. Por un lado la probabilidad de que una mujer en sus 40 tenga cáncer de mamas es relativamente baja, 15 en 1000, o 1.5%6. Digamos entonces que “A” representa, tener cáncer de mamas y P(A)=0.015. La mamografía es un buen test pero no es 100% efectivo, sino que da el resultado correcto solo en el 90% de los casos. Esto quiere decir que la probabilidad de que el test de positivo, dado que la paciente tiene cáncer es 90%: P(B dado A)=0,9. (Aquí llamé B a “el test dio positivo”). En otras palabras, el test se equivoca un 10% de las veces. Y esto quiere decir también que a un 10% de las mujeres sin cáncer el test le va a dar positivo. Entonces el 90% del 1.5% (las que tienen cáncer) y el 10% del 98.5% restante (las que no tienen cáncer) van a recibir un resultado positivo (el “B” de este ejemplo). La probabilidad de tener un resultado positivo, P(B) es entonces 0,9x0,015+0,1x0,98.5=11.2%. Más concretamente, si 1000 mujeres se hacen el test, unas 112 reciben un resultado positivo, pero solo unas 13 tienen en realidad cáncer. Para el resto el resultado es un “falso positivo”. Entonces P(A dado B)=13.5/112=0,12 mucho más bajo que P(B dado A). Sólo un 12% (algunas estimaciones dan un número menor) de las mujeres que reciben test positivo tienen en verdad cáncer. Y el otro no lo tiene pero le aumenta la ansiedad al recibir el test y el informe argumentaba es que para un porcentaje tan bajo no valía la pena el costo y la potencial incomodidad. Al final se desestimó el informe y se recomienda hacer el test para mujeres mayores de 40. Para nuestro ejemplo lo pertinente es la fórmula de Bayes, que nos dio un P(B dado A) unas ocho veces más grande que P(A dado B) justamente porque P(A) es ocho veces más chico que P(B).

Los falsos positivos y falsos negativos cada tanto ocurren en la vida diaria. El referee cobra un offside que no fue: falso positivo. El procesador de texto se queja de mi uso de “test” pero la palabra está aceptada: falso negativo. O el filtro de mi email manda a la carpeta de “spam” un mensaje que en realidad es de un amigo: falso negativo. Dicho sea de paso, volveremos al filtro de spam más adelante en este capítulo. Por ahora prosigo con un ejemplo sencillo e interesante.


¿Mellizos o Gemelos?
Fortunato y Esperanza salen de la ecografía: van a tener dos varones. ¿Cuál es la probabilidad de que sean gemelos? En Google leen que la fracción de gemelos es uno en tres. Esa es la proporción general, pero Fortunata quiere saber cuál es la probabilidad de que sus varones sean gemelos. Linda oportunidad para aplicar la regla de Bayes, donde A es “son gemelos”, y B es “los dos hijos son varones”. Queremos P(A dado B): la probabilidad de que sean gemelos dado que los dos son varones. Sabemos que P(B dado A)=1/2: la probabilidad de que sean dos varones dado que son gemelos es ½, ya que, si son gemelos no pueden haber hijos de distinto sexo. Y por Google sabemos que P(A)=1/3, la fracción de gemelos. Nos falta P(B), la fracción de pares varón-varón en el total de mellizos más gemelos. La fracción de dichos pares es ¼ entre los mellizos y ½ entre los gemelos ya que no hay pares de distinto sexo entre los gemelos. El siguiente gráfico ilustra que P(B) es también 1/3.


En este caso las proporciones conspiran para que P(A dado B)=P(B dado A), de modo que la probabilidad de que los hijos de Esperanza y Fortunato sean gemelos es ½. Dicho de otro modo, aún cuando la fracción de gemelos es un tercio (ver el gráfico) entre el grupo de pares Varón-Varón, la mitad son gemelos y la mitad son mellizos. Problema: en un país hipotético el número de mellizos es igual al de gemelos. Si una ecografía da dos varones, ¿Cuál es la probabilidad de que sean gemelos? 7.


Y ahora complico un poco más las cosas y muestro un ejemplo que ilustra en más detalle la lógica inversa del método bayesiano.
Dos bowls

Tengo dos bowls. En uno hay siete bolitas grises y tres blancas y en otro hay siete bolitas blancas y tres grises:



En la figura los dibujé transparentes, pero imaginen que son opacos y no saben cuál de los dos tiene siete grises. Elijo uno al azar. ¿Cuál es la probabilidad de que tenga 7 grises? ¿1/2? Correcto. O, al menos, razonable, ya que cuando dije “elijo uno al azar” no hay razón para que prefiera uno frente al otro. El ½ es razonable porque, sin mirar lo que hay adentro, hay una simetría entre los dos bowls. Si llamo A a “el bowl elegido tiene siete grises”, entonces P(A)=1/2. Ese es el primer paso del método bayesiano: tengo una probabilidad anterior, o “a priori”, igual a 1/2 de que el bowl elegido tenga siete grises. Ahora voy a meter la mano en el bowl elegido y (siempre sin mirar lo que hay adentro) voy a sacar una bolita. Le llamo B a “sale una bolita gris”. ¿Cuánto vale P(B)? También 1/2. ¿Por qué? Prepárense para un trabalenguas: Porque si saco una bolita tengo un 50% de chances de tener 70% de chances de que salga gris y otro 50% por ciento de chances de tener un 30% de que salga gris. El promedio de las chances da 50%, o ½. Lo escribí de ese modo enrevesado para evidenciar que en el método bayesiano se habla de la probabilidad de una probabilidad. Por ejemplo, si me pregunto cuál es la probabilidad de que una moneda esté balanceada (esto es, que no esté cargada), estoy preguntando cuál es la probabilidad de que la probabilidad de que salga cara sea ½. Noten que P(B) también es una probabilidad “a priori” ya que al decir que el 50% de las veces tengo 30% de chances (y la otra mitad 70%) estoy usando P(A) =1/2. Ahora saco la bolita y resulta ser gris. ¡En este punto cambia la probabilidad de que el bowl elegido tenga siete grises! Pasa de 50% a 70%. ¿Por qué? Porque P(A dado B), la probabilidad de que el bowl elegido tenga siete grises dado que saqué una gris es igual en este caso a P(B dado A), la probabilidad de sacar una gris dado que el bowl tiene siete grises (el 70%). La razón es análoga al caso de los gemelos: si P(A) =P(B) entonces P(B dado A) =P(A dado B). La situación cambió, y ahora tengo en mi mano un bowl con 70% de chances de tener siete grises y 30% de chances de tener tres grises. El 70% es la probabilidad posterior, o “a posteriori” de que el bowl elegido tenga siete grises.
Ahora regreso la bolita al bowl que tengo en la mano, agito y mezclo. Voy a repetir el experimento y sacar una bolita del mismo bowl. Fíjense que estoy partiendo de una situación diferente: ahora mi nueva probabilidad “a priori” es la probabilidad “a posteriori” del paso anterior. Es decir, ahora arranco con P(A)=0.7. P(B) también cambió, ya que al sacar una bolita del bowl elegido un 70% de las veces tengo un 70% de chances de que sea gris y un 30% de las veces tengo 30% de chances de que sea gris. De modo que en este paso P(B), usando la regla del producto, vale 0,70,7+0,30,3=0,58, más de la mitad, algo esperable ya que tengo un 70% de chances de tener en mis manos el bowl con mayoría de grises. Fíjense también que, como ahora P(A) y P(B) son distintos, P(A dado B) va a ser distinto de P(B dado A) (que por su supuesto sigue siendo 0.7). Meto la mano, saco una bolita y de nuevo sale gris. Tengo entonces para la nueva probabilidad de que el bowl elegido sea el mayoritariamente gris, P(A dado B)=0.7P(A)/P(B) =0.70.7/0.58=0.85, el 85%.
El experimento de los dos bowls captura la esencia conceptual del método bayesiano: uno parte de probabilidades “a priori” y luego, usando datos concretos –en el ejemplo de los bowls el dato es “salió una bolita gris” pero que en general puede ser el síntoma de una enfermedad o el resultado de una encuesta– calcula probabilidades “a posteriori”. El método bayesiano va entonces del dato a la probabilidad, a diferencia del método clásico que conversamos en capítulos anteriores en los que uno va de la probabilidad al dato: partiendo de la probabilidad de que salga cara es ½, lo esperable es que, en muchos tiros, la frecuencia de caras se aproxime al 50%. Por eso se habla del método clásico como “frecuentista” y el bayesiano como el método inverso, un método que permite ir del efecto a la causa.
En casos reales la cosa suele complicarse más. En el experimento de los bowls las probabilidades a priori, ½, eran razonables por una razón de simetría. Pero en aplicaciones prácticas no siempre es tan claro cómo precisar esas probabilidades a priori y por eso el método bayesiano tiene sus críticos.

Hay muchos otros ejemplos de confusión de estas dos probabilidades y los invito a parar las antenas de su experiencia cotidiana y detectar sus apariciones.

  1   2


La base de datos está protegida por derechos de autor ©espanito.com 2016
enviar mensaje