6.2. El teorema de Bayes

Cuando asignamos un valor de probabilidad a un suceso podemos conocer o no el espacio de probabilidades. Si se conoce como en el lanzamiento de un dado o de moneda, asumiendo la equiprobabilidad de las diferentes posibilidades, la probabilidad de un suceso aleatorio sería el cociente entre el número de resultados favorables y el número total de resultados posibles. Si se repite el lanzamiento de un dado, la probabilidad de sacar un dos, será equivalente a su frecuencia de 1/6. En la vida diaria, no conocemos el espacio completo de probabilidades en realción a un suceso determinado, por lo que estimamos subjetivamente en relación al espacio muestral, añadiendo que las diferentes alternativas no sean necesariamente equiprobables.

La Teoría de la probabilidad asume un conjunto de axiomas:

Al gabinete de Ana acudieron el año pasado 100 pacientes. De ellos 30 sufrían trastorno depresivo, 20 fueron diagnosticados de fobias específicas, y los 50 restantes de problemas de ansiedad

1. La probabilidad de un suceso (S) varía entre 0 (imposibilidad) y 1 (certeza).

  • La probabilidad de sufrir un trastorno de ansiedad es de 50/100 = 0,50
  • La probabilidad de sufrir un trastorno depresivo es de 30/100 = 0,30
  • La probabilidad de sufrir fobia específica es de 20/100 = 0,20 2.

2. La suma de las probabilidades de todos los posibles sucesos en un espacio muestral dado = 1. La probabilidad de “NO OCURRENCIA” de un suceso (S) es igual a 1 menos la probabilidad de que sí ocurra. P (noS) = 1- P(S)

  • La suma de las probabilidades de todos los posibles sucesos = (30/100) + (20/100) + (50/100) = 1

3. Si dos sucesos (S1) y (S2) son mutuamente excluyentes, la probabilidad de S1 ó S2 será igual a la suma de sus probabilidades. P (S1 ó S2) = P(S1) + P(S2)

  • La probabilidad de sufrir un trastorno depresivo o de sufrir una fobia específica = (30/100) + (20/100) = 0,50

Terminada la primera fase de tratamiento, el porcentaje de curación en el grupo de trastornos depresivos fue del 50%, en fobias del 70% y del 40% en el grupo de pacientes con problemas de ansiedad.

4. a) Si dos sucesos (S1) y (S2) son dependientes, la probabilidad de la conjunción de estos sucesos será igual al producto de la probabilidad de S1 por la probabilidad de S2 asumiendo S1:

P (S1 y S2) = P (S1) x P (S2 dado S1) = P (S1 y S2) = P (S1) x P (S2/S1)

  • La probabilidad de que un paciente haya sido diagnosticado de ansiedad y se haya curado = P (ansiedad) x P (curado/ansiedad) = 0,50 x 0,40 = 0,20

4. b) Si dos sucesos (S1 y S2) son independientes, la probabilidad de la conjunción de estos sucesos será igual al producto de la probabilidad de S1 por la probabilidad de S2.

P(S1 y S2) = P(S1) x P(S2)

Imaginemos que del conjunto de pacientes que asistieron a terapia extraemos uno al azar y está curado. ¿Cuál es la probabilidad de que dicho paciente hubiera sido diagnosticado de depresión?

Thomas Bayes añadió a esos axiomas una fórmula conocida como el Teorema de Bayes, el cual permite calcular la probabilidad condicional inversa (probabilidad posterior o a posteriori)

El cálculo no es directo ya que conocemos el dato (el paciente está curado) pero tenemos tres posibles opciones de diagnóstico previo o hipótesis de partida: depresión, fobia o ansiedad. El teorema constituye la ley fundamental en la que se basa este tipo de inferencia probabilística, tanto cuando la información procede de datos muestrales como cuando es de estimaciones subjetivas de probabilidad.

  1. La probabilidad a priori de la Hipótesis: P(H). La hipótesis relevante para el problema que tenemos. P (depresión)
  2. La diagnosticidad del Dato para la hipótesis: P (D|H). P(curación |Depresión) este valor recibe el nombre de diagnosticidad del dato (curación) y se puede dar en presencia de otras dos posibles hipótesis alternativas: P (D|H2) o P (D|H3)
  3. Con el producto de estos se obtiene la probabilidad conjunta de dos sucesos dependientes: Haber sido previamente diagnosticado de depresión y curarse dado el diagnóstico previo de depresión: P (H) x P (D|H) en nuestro ejemplo sería: P(depresión) x P(curación|depresión)
  4. La probabilidad condicional inversa es la inversa de la condicional P (D|H) se conoce la probabilidad condicional de curarse habiendo sido diagnosticado de depresión: P(curarse|depresión). Sabiendo que un paciente extraído al azar está curado ¿cuál es la probabilidad de que hubiera sido previamente diagnosticado de depresión? P (H|D) o P(Depresión|curación)

Siguiendo el Teorema de Bayes, el cálculo sería el resultado de dividir la probabilidad de los casos favorables por la suma de las probabilidades de todos los casos posibles. El axioma 4 explica el numerador del Teorema (probabilidad de casos favorables) y el axioma 3 explica el denominador (suma de las probabilidades de los casos posibles.

Señalan Arieta Pinedo y González Labra (2011) que la inferencia bayesiana permite introducir probabilidades subjetivas tanto al evaluar a priori como al evaluar las condiciones de un suceso.

Pueden obtenerse de distintas fuentes, tales como la evidencia, teorías previas o simplemente de la opinión y creencias de la persona. La hipótesis alternativa es la ausencia de la hipótesis focal de tal forma que su probabilidad complementaria se calcula aplicando el axioma 2 de la Teoría de la probabilidad.

Pero si volvemos al ejemplo de Ana, imaginemos otro experimento de razonamiento probabilístico cuyo objetivo es analizar en sujetos no expertos en Teoría de la probabilidad cuál sería la solución al problema planteado sin necesidad de realizar cálculos matemáticos: Problema A: Seleccionamos un paciente al azar y encontramos que está curado.

¿qué probabilidad será mayor?:

  1. fue diagnosticado de fobia específica.
  2. fue diagnosticado de ansiedad.

Problema B: Ana plantea analizar qué variables explican que después de la primera fase del tratamiento sólo el 40% de los pacientes sanen de su ansiedad. Cita un día a todos los curados y en otro día a los que siguen en el proceso.

Elena sufre de ansiedad y acude a consulta a pedir cita el día que ésta citó a los curados. En la sala coinciden con Elena y le transmiten a ésta el éxito y rapidez de curación tras la primera fase de tratamiento. A partir de la información Elena considera que la primera fase de tratamiento empleado por Ana para el tratamiento de la ansiedad:

  1. es altamente eficaz
  2. es parcialmente eficaz

Elena selecciona la A) y es incorrecta. En el caso del problema A, aún contando con toda la información, el error se produce porque una mayoría se centran en el valor del porcentaje de curación (70%), la diagnosticidad del dato en relación a la hipótesis, y desatienden a la probabilidad a priori de sufrir el trastorno (20%). En el caso del B, ella no cuenta con toda la información relevante, la diagnosticidad del dato en presencia de la hipótesis alternativa (no se ha curado)

La evidencia empírica demuestra que el razonamiento probabilístico humano generalmente no es extensional (no contempla el conjunto de probabilidades de forma exhaustiva). En el problema A, se desatiende al porcentaje sobre el total de 100 casos que fueron diagnosticados de los diferentes trastornos. En muchas ocasiones, las estrategias conducen a resultados correctos y son efectivas y económicas en tiempo y esfuerzo cognitivo pero pueden resultar a la vez imprecisas.

Aplicación del Teorema de Bayes a partir de probabilidades subjetivas.

Pedro se presenta a una oposición, sin experiencia práctica similar, junto a otras muchas personas. Para conseguir el puesto se tiene en cuenta tanto los méritos del opositor como la nota de examen. Pedro considera tener muy pocas posibilidades: P(H) = 0,05 -> conseguirlo. No conseguirlo = 0,95. Lo ha asignado después de ver el listado de de los méritos de todos los candidatos.

Realizado el examen, obtuvo una nota de 8,6. La estrategia de la empresa, aún valorando el curriculum, es dar una gran importancia a la calificación del examen, hasta el punto de que prácticamente todos los que obtienen la plaza han aprobado con buena nota. Pedro también conoce personas que aún sacando una buena calificación no obtuvieron el puesto en convocatorias anteriores.

A este hecho le asigna una probabilidad de 0,10 -> P (sacar buena nota | no plaza) = P ( D | H ́) = 0,10 y P (sacar buena nota | plaza) = 0,98 = P ( D | H) = 0,98 ¿ Cuál es la probabilidad de que Pedro obtenga el puesto de trabajo una vez conocida la buena calificación obtenida en el examen? Obtenida la nota, Pedro ha pasado de 0,05 a 0,34 de probabilidad.

P (H1 | D) =
P (H ) x P (D | H) / [P (H) x P (D | H)] + [P (H') x P (D | H')]
=
0,05 x 0,98 / (0,05 x 0,98) + (0,95 x 0,10)
= 0,34

Contenido relacionado