6.5. Juicio probabilístico y calibración

La calibración es el grado de precisión o ajuste entre el juicio probabilístico sobre la confianza en el propio rendimiento y la eficacia objetiva avalada por los datos de la ejecución. Uno de los hallazgos más robustos de esta línea de investigación es el denominado “efecto de exceso de confianza” (sobre-confianza) siendo el hecho de que las personas tenemos más confianza en la eficacia de nuesro rendimiento de lo que avalan los datos objetivos. El sesgo no se limita a los estudios de laboratorio pues se observa también consistentemente en el ámbito profesional. Un segundo efecto estable y consistente sobre la calibración es “efecto fácil-difícil” que constata que el grado de sobreconfianza aumenta con el grado de dificultad de las preguntas.

5.1. Enfoques teóricos

5.1.1. El enfoque de los Modelos Mentales Probabilísticos (MMP)

Gigerenzer, Hoffrage y Kleinbölting 1991, propusieron el marco integrador que permite explicar el “efecto de exceso de confianza” y el “efecto difícil-fácil”. La tarea prototípica en juicios de confianza incluye preguntas de cultura general con dos alternativas. El desajuste en la calibración no es una característica intrínseca del juicio humano, sin la consecuencia de la utilización de tareas con escasa validez ecológica. Un modelo mental probabilístico es un procedimiento inductivo que se utiliza cuando el conocimiento es limitado y permite realizar inferencias rápidas. La clave conceptual es que un MMP estará adaptado si permiten conectar la estructura específica de la tarea con una estructura de probabilidad en una clase de referencia del ambiente natural del sujeto, almacenada en su MLP.

Imaginemos que formulamos: ¿Qué ciudad tiene más habitantes?: a) Bilbao o b) La Coruña.

La pregunta permite generar una clase de referencia representativa extraída del entorno natural del sujeto, que podría ser “ciudades españolas con una población superior a 200.000 habitantes.

Un MMP para una tarea determinada integra una clase de referencia (ciudades españolas con + de 200000 hab), una variable criterio (nº de habitantes), y claves probabilísticas que varían en su grado de validez. La MMP asume que las inferencias sobre preguntas inciertas o desconocidas se basan en estas claves probabilísticas, que se generan, se evalúan y se activan para dar la respuesta.

En el ejemplo se podían dar: a) tener o no equipo de fútbol, b) ser capital o no de una comunidad autónoma c) tener o no Universidad d) ser ciudad o no de veraneo,...

Si las ciudades a y b tuvieran ambas equipo de fútbol, esta clave no sería válida pues no ayuda a responder la pregunta. La Teoría asume que el orden en que se generan las claves refleja una jerarquía de acuerdo con su grado de validez.

Gigerenzer, Hoffrage y Kleinbölting 1991 pusieron a prueba la teoría con el siguiente experimento:

  • Se formularon 2 tipos de preguntas:
    • Representativas: se utilizó como clase de referencia = Conjunto de ciudades del oeste de Alemania con más de 100.000 hab.
    • Seleccionadas: fueron de cultura general, y se sometieron al mismo grupo de sujetos.
  • El sujeto debía emitir un juicio de confianza relativo a cada una de sus respuestas, tras contestar a la pregunta; y un juicio de frecuencia que debía emitir después de cada bloque de 50 preguntas, referido al no estimado de respuestas correctas en dicho bloque.

De acuerdo con la Teoría de MMP, el sesgo de sobreconfianza sobre cada pregunta individual, debería corregirse y ajustarse a la eficacia objetiva cuando se emite un juicio de frecuencia, donde cada bloque de preguntas, en conjunto, constituía una muestra de la clase de referencia natural “conocimiento de cultura general que he demostrad en pruebas o exámenes previos”.

En relación a los juicios de confianza se observa un sesgo de sobre-confianza que es más acusado cuanto mayor es la eficacia de las respuestas de los sujetos. El sesgo se corrige cuando se utilizan preguntas representativas. La curva de confianza para el grupo de preguntas representativas se asemeja a una curva de regresión para la estimación del porcentaje de aciertos a partir de la confianza asignada, revelando subconfianza en la parte izquierda, sobreconfianza en la derecha y cero sobreconfianza como promedio. La media de las diferencias no difiere significativamente de 0 por lo que es un juicio bien calibrado.

De acuerdo con los autores de los MMP los resultados apoyan la teoría como modelo integrador de resultados empíricos, ésta requiere un mayor desarrollo para responder a determinadas cuestiones que no quedan resueltas con claridad, por ejemplo aspectos a delimitar a la hora de seleccionar la clave probabilística que se activa, si es ajustado éste a la jerarquía de acuerdo con su validez , o si las claves se sustituyen o se integran de forma múltiple.

Gigerenzer y Goldstein formulan el algoritmo básico “TakeThe Best” (elige el mejor) TTB, que constituye un marco conceptual de la Teoría MMP. El algoritmo representa un diagrama de flujo en 5 principios para claves binarias:

  1. Principio de reconocimiento: reconocimiento de un objeto constituye un predictor de la variable. Si una persona debe decidir cuál de las dos ciudades a y d tiene más habitantes, la inferencia será la ciudad a) porque no ha oído hablar de la otra ciudad.
  2. Búsqueda de claves con validez: se recuperan de la memoria las claves y sus valores en un orden jerárquico de acuerdo con su grado de validez. La validez ecológica de una clave es la frecuencia relativa con la que predice correctamente el resultado. V.g. Comparando dos ciudades, el 87% de los casos la ciudad que tiene equipo de fútbol tiene más habitantes, la validez ecológica de la clave es del 87%
  3. Regla de discriminación: Una clave discrimina entre dos objetos si uno de ellos tiene un valor positivo en la clave y el otro no lo tiene.
  4. Principio de sustitución de la clave: si la clave discrimina, se para la búsqueda de nuevas claves. Si no lo hace, se vuelve al paso donde se ha de elegir nuevamente.
  5. Regla de maximización para la elección: se elige el objeto con valor positivo en la clave. El algoritmo TTB es un procedimiento no compensatorio, sólo la clave que mejor discrimina determina la inferencia, sin que la combinación de valores de claves diferentes ni la integración de información puedan contrarrestar la elección basada en la clave con mayor validez.

El modelo TTB se enmarca dentro de un modelo de racionalidad ecológica que permite explicar cómo el sesgo de sobreconfianza se corrige cuando el participante realiza la inferencia sobre objetos de su entorno natural, que le permiten seleccionar claves probabilísticas con suficiente validez en relación a una variable derivada de la clase de referencia. Una clave probabilística válida es aquella capaz de predecir la inferencia adecuada.

5.1.2 El modelo “fuerza-peso” de la confianza en la evidencia.

El trabajo de Griffin y Tversky, 1992 intentó replicar el estudio de Gigerenzer y cls. Seleccionaron al azar una muestra de 30 pares de estados americanos y pidieron a los sujetos que eligieran qué estado era superior en 3 atributos:

  1. nº de habitantes.
  2. porcentaje de participación en el voto,
  3. porcentaje de graduados en bachillerato.

Los resultados reflejaban que el sesgo de sobreconfianza no podía reducirse solo al nivel de dificultad. El nivel de eficacia en las respuestas para las VV “voto” y “educación” fue muy similar y cercana al azar, y sin embargo, el sesgo de sobreconfianza fue significcativamente superior en la VV de “educación”, respondiendo ello al efecto llamado ilusión de la validez. El estereotipo americano está más unido a la educación que a la participación electoral (se considera que el nivel educativo es superior en un estado, en función del no de universidades famosas o eventos culturales que celebran).

Estos resultados delimitan dos VV conceptualmente importantes que intentan explicar sobre las claves que se recuperan a la hora de emitir un juicio probabilístico. La evidencia disponible para emitir un juicio intuitivo se interpreta según con 2 coordenadas: la “fuerza” o saliencia de la evidencia y su “peso” o validez predictiva.

La Teoría estadística y el cálculo probabilístico prescriben reglas que combinan con precisión fuerza y peso o validez, en cambio el juicio humano no combina ambos factores, lo que produce sesgos y errores de calibración.

Imaginemos el juzgar la probabilidad con la que una persona será contratada a partir de una cara de recomendación escrita en términos cálidos y enfatizando en sus cualidades positivas. Las personas focalizamos en la fuerza o carácter extremo del contenido de la carta y tendemos a predecir un resultado favorable al candidato, sin atender de forma suficiente al peso o validez predictiva de la carta: la credibilidad de quien la escribe (y de si dice lo mismo de todos – pasamos por alto el tamaño de la muestra) .

El modelo teórico del juicio probabilístico que integra esta dicotomía predice sobre-confianza cuando la fuerza es elevada y el peso es bajo y subconfianza cuando la fuerza es baja y el peso es elevado. El suejto se focaliza en la “impresión” que le produce para luego ajustar el juicio de acuerdo con su conocimiento de su validez. El juicio combina el anclaje en la fuerza de la impresión basándose en la representatividad de la evidencia, con un proceso de ajuste que tiene en cuenta el valor predictivo de la evidencia (insuficiente)

El análisis sugiere que las personas basamos la confianza en nuestro rendimiento en la impresión sobre los resultados sin observar suficientemente la calidad de los datos. Lichtenstein y Fischhoff demuestran en un experimento que el efecto de sub-confianza donde el rendimiento objetivo era superior al del juicio previo, se daba en buena parte del rango cuando los ítems eran fáciles, un efecto de sobreconfianza a los largo de la mayor parte del rango cuando los ítems eran difíciles, y una sobreconfianza extrema en todo el rango cuando eran “imposibles” (considerar si un párrafo en inglés lo había escrito un británico o un americano).

5.2. La calibración en el juicio de los expertos

El juicio probabilístico de los expertos no siempre está calibrado. La evidencia indica que también se equivocan, desatienden a las probabilidades a priori de las hipótesis y a la capacidad predictiva del dato, siendo predictores claros de la calibración sesgada.

Koehler, Brenner y Griffin 2002, proponen un modelo de calibración adaptado al juicio probabilístico sobre un caso particular, que integra la Teoría del apoyo con el modelo de calibración “fuerza-peso” de la confianza en la evidencia.

La calidad del diagnóstico y pronóstico en el juicio clínico de los médicos sustenta el cuerpo empírico de evidencia más amplio. Los autores analizaron los datos de 9 investigaciones, que se agrupan en tres categorías. Un grupo de médicos realizó el estudio clínico individual de distintos pacientes que padecían “tos aguda” persistente. Cada paciente era examinado por un solo médico y éste rellenaba una lista de síntomas estandarizada. Luego se pedía al médico que estimara la probabilidad de que el paciente tuviera neumonía en una escala de 0 a 100 (sin conocimiento de la radiografía) La “tos aguda y persistente” era el dato y “padecer neumonía” la hipótesis focal.

La capacidad predictiva del dato respecto a la hipótesis focal constituye un indicador de la calidad o el peso de la evidencia. El parámetro alfa constituía un dato objetivo y su valor aumenta en relación directa con la capacidad predictiva del dato respecto a la hipótesis focal, frente a otras hipótesis alternativas.

El juicio de los médicos muestra una marcada sub-confianza cuando tanto la probabilidad a priori como la discriminabilidad son elevadas, una ligera sobreconfianza cuando la probabilidad a priori es baja y la discriminabilidad es alta, y una sobre-confianza extrema cuando la probabilidad a priori es muy baja y la discriminabilidad es baja.

Koehler y cols. interpretan que la “impresión” que causa el síntoma cuando el médico se enfrenta a un caso particular se ve reforzada por la accesibilidad de la fuente de información: el carácter vívido de la experiencia personal y la proximidad al paciente. La “saliencia” del síntoma parece variar en relación inversa con la tasa de la enfermedad en la población. Cuanto más atípica resulta la enfermedad, mayor relevancia adquiere el síntoma y esta relevancia facilita la recuperación de la memoria de información coherente con la evidencia, que resulta de mayor medida disponible. La disponibilidad de síntomas coherentes con la hipótesis focal contribuye a su proceso de “desempaquetado” en sus síntomas componentes, incrementando así su probabilidad subjetiva. El sesgo en la focalización inicial del juicio a favor de la hipótesis focal respecto a las hipótesis alternativas, restará eficacia al proceso de ajuste final, que no considerará de forma suficiente la discriminabilidad objetiva del síntoma: su validez predictiva real de la enfermedad.

Esta combinación de fuera (impresión y peso (validez predictiva) de la evidencia (tos aguda y persistente) respecto a la hipótesis focal (neumonía) se ajusta con bastante exactitud al marco teórico de Griffin y Tversky. La combinación de fuerza alta - tasa muy baja- y peso bajo – discriminabilidad baja- produce sobre-confianza extrema, mientras que la combinación de fuerza baja y peso alto produce subconfianza.

Contenido relacionado