Castigo

Existen diferentes aproximaciones teóricas al estudio del castigo, vamos a centrarnos en tres. La primera es de Thorndike: propuso que el reforzamiento positivo y el castigo implican procesos simétricamente opuestos, así como el reforzamiento positivo fortalece la conducta, el castigo la debilita. Es decir, las consecuencias negativas de una conducta debilitan la asociación entre dicha conducta y los estímulos presentes en la situación.

Otra explicación es la Teoría de la respuesta emocional condicionada, explicada en el apartado 1.3

La última que vamos a ver es la Teoría de las respuestas competitivas reforzadas negativamente. Esta teoría explica el castigo en términos de la adquisición de respuestas de evitación incompatibles con la respuesta castigada. La supresión de la conducta no se considera un reflejo del debilitamiento de la respuesta castigada, más bien, se explica en términos del fortalecimiento de aquellas respuestas competitivas que evitan eficazmente la estimulación aversiva.

Variables que afectan al castigo

El procedimiento básico en el castigo positivo (recordad, positivo se refiere a la contingencia entre conducta y consecuencia) consiste en presentar un estímulo aversivo contingente después de una respuesta específica. El resultado esperable del procedimiento es la supresión (reducción de su probabilidad de emisión) de la respuesta en cuestión. Para poder aplicar un castigo sobre una determinada respuesta, su aparición en ausencia del castigo debe resultar probable. Esta es la visión estándar del castigo, pero Premack demostró que, al igual que el reforzamiento, el castigo no es absoluto sino relativo.

Más concretamente, si tras establecer una jerarquía de preferencias, en función de la frecuencia en la ocurrencia de diferentes respuestas, hacemos contingente la emisión de una conducta menos preferida con el acceso a otra más preferida, la primera es reforzada. Pero si forzamos al sujeto a emitir una respuesta tras la emisión de una más preferida, el efecto es el contrario: la que se emitió en primer lugar ve reducida su probabilidad de emisión en el futuro, es decir, es castigada.

En los estudios de laboratorio, normalmente en lugar de aplicar castigo sobre alguna respuesta que el sujeto ya emite con alguna probabilidad, suelen comenzar con la adquisición de alguna operante mediante reforzamiento positivo para luego superponer una contingencia de castigo (que suele ser un estímulo aversivo como una descarga). La mayoría de la investigación sobre el castigo se ha realizado siguiendo este esquema, lo que implica que: a) no parten de la concepción relativista de Premack, b) los resultados son la suma del efecto del castigo y del reforzamiento (ya que se aplican simultáneamente).

Estas son las variables de las que depende la efectividad del castigo para suprimir la conducta:

  • Intensidad del estímulo aversivo: cuánto más intenso, más eficaz resultará para suprimir las respuestas, de hecho, en las condiciones adecuadas, puede hacerlo totalmente. Cuando esto pasa y la respuesta se suprime por completo, puede darse un fenómeno paradójico: que la conducta reaparezca más tarde. Esto se debe a que tras la supresión repentina de la respuesta el sujeto deja de tener contacto con la consecuencia aversiva y, tras un tiempo, la emisión de la misma se realiza cuando la contingencia de castigo ya no está activa (parecido a la Recuperación Espontánea tras la extinción)
  • Inmediatez y demora del estímulo aversivo: La alta contigüidad es un elemento favorecedor. Por ejemplo el aumento del intervalo R- Er produce una menor supresión de la conducta. Aunque hay datos que indican que los resultados son parecidos independientemente de si el castigo se aplica de manera demorada o inmediatamente tras la respuesta, parece que, con el tiempo suficiente, el castigo demorado suprime en menor medida la conducta.
  • Cambios graduales en la intensidad del estímulo aversivo: La forma en la que se introduce la consecuencia aversiva es un factor muy importante. Si primero introducimos un aversivo suave y vamos aumentando gradualmente la intensidad, se producirá mucha menos supresión que si inicialmente utilizamos un castigo de alta intensidad. Así, la exposición inicial a una suave estimulación aversiva que no altera mucho la conducta reduce los efectos de un castigo intenso posterior. Por el contrario, la exposición inicial a una estimulación aversiva intensa aumenta los efectos supresores de un castigo suave posterior.
  • Experiencia previa: Si la fase de reforzamiento previo fue muy larga y el volumen de reforzamiento muy grande, los efectos del castigo serán menores.
  • Efectos discriminativos del estímulo aversivo: Si la respuesta se castiga en presencia de un estímulo discriminativo, pero no cuando el estímulo está ausente, a esto se le llama Castigo Discriminativo (y al discriminativo estímulo delta o discriminativo negativo). Con una exposición continuada al discriminativo, los efectos supresores del castigo se limitan a la presencia de dicho estímulo.Programa de castigo: El castigo puede suministrarse después de un número fijo de respuestas (Programa de Castigo de Razón Fija) o variable (Programa de Castigo de Razón Variable), así como también puede programarse la aparición de la consecuencia aversiva tras la emisión de la primera respuesta tras un intervalo de tiempo (Programa de Castigo de Intervalo, Fijo o Variable). En términos generales, los programas de castigo continuos son más efectivos que los intermitentes.
  • Programa de reforzamiento compuesto. Toda técnica de castigo es una técnica mixta, ya que castigar una conducta requiere que esa conducta haya sido reforzada o esté siendo reforzada a la vez. Así, podemos encontrarnos estos tres casos:
    • Castigo sobre líneas-base apetitivas: aquí actúan simultáneamente el castigo y el reforzamiento positivo sobre la misma respuesta
    • Castigo sobre líneas-base defensivas: concurren el castigo y el reforzamiento negativo (escape/evitación).
    • Castigo sobre líneas-base de extinción: se castiga una respuesta que previamente ha sido reforzada, pero que en el momento de aplicar el castigo está siendo extinguida.
  • La eficacia del castigo se verá reducida por la eficacia relativa del procedimiento con el que esté compitiendo (en el caso del reforzamiento positivo y negativo) o aumentada por la eficacia de proceso de extinción de la misma conducta.
  • Existencia de una conducta alternativa reforzada. En muchos experimentos, la respuesta castigada es también la única respuesta que el sujeto puede realizar para obtener un reforzamiento positivo. La disponibilidad de una fuente alternativa de reforzamiento aumenta enormemente la supresión de las respuestas producida por el castigo
  • Manipulaciones motivacionales. Aunque no es un parámetro propio de la contingencia de castigo, se ha demostrado que su eficacia para suprimir una conducta es mayor si se reduce la motivación para realizar esa respuesta

La eficacia relativa del castigo para suprimir la conducta

Si gritamos y regañamos a nuestro hijo cuando rompe uno de sus juguetes puede que no vuelva a hacerlo.

La reprimenda está funcionando como consecuencia aversiva en este caso, pero sólo porque efectivamente su contingencia positiva con la conducta está reduciendo su probabilidad de emisión futura.

Esta es una cuestión importante, ya que en el lenguaje común suele utilizarse el término castigo sin tener en cuenta el efecto de la consecuencia sobre la conducta (función del estímulo), sino atendiendo únicamente a aspectos morfológicos de la misma (topografía del estímulo). Sólo podemos hablar de castigo cuando efectivamente la consecuencia suprime la conducta (lo que implica que, por definición, siempre funciona). El uso de supuestas consecuencias aversivas secundarias (como la reprimenda) conlleva un gran riesgo ya que su topografía no supone necesariamente una función concreta. Puede que al reprender al niño (en nuestro ejemplo) no sólo no estemos suprimiendo su conducta sino reforzándola. La reprimenda puede haberse asociado en mayor medida con la atención (que suele ser un poderoso reforzador generalizado) que con otros estímulos aversivos (como un azote).

Los primeros trabajos experimentales sobre el castigo (años 30-40) concluyeron que su capacidad para modelar la conducta no sólo era muy reducida sino también poco estable en el tiempo. Tuvieron que pasar más de treinta años desde esas primeras afirmaciones para que otros trabajos experimentales defendieran lo contrario. Desde entonces, la investigación sobre el castigo ha demostrado que con los parámetros adecuados la conducta puede ser suprimida de manera absoluta y en muy pocos ensayos, pero también que si no se controlan estos parámetros la supresión puede no ser total y/o reaparecer la conducta en el futuro.

En definitiva, el uso del castigo conlleva ventajas y desventajas que hay que valorar antes de su puesta en práctica como técnica para la supresión de la conducta. Por un lado, provoca una reducción de la conducta a corto y largo plazo, pero, sobre todo, con un alto grado de inmediatez. Además, esta reducción demuestra una alta resistencia a un posterior recondicionamiento. Pero, por otro lado, genera una serie de efectos colaterales que pueden no ser deseables, tales como ansiedad, agresión, neurosis o una redistribución no prevista de la conducta del sujeto....

En una contingencia operante los eventos antecedentes que mantienen una contingencia positiva con el castigo de una conducta se convierten en Eds para esa conducta, pero también en ECs excitatorios aversivos, cuyo efecto es elicitar un reflejo al que suele denominarse ansiedad. Por tanto, cuando aplicamos algún procedimiento de castigo, la intensidad del estímulo aversivo determina la efectividad del procedimiento pero también aumenta las probabilidades de que el contexto ambiental en el que se está aplicando adquiera la capacidad de provocar ansiedad en el sujeto. Este ambiente, susceptible de convertirse en ansiógeno, puede ser muy amplio, abarcando desde el lugar dónde se aplica el castigo hasta el propio agente que lo aplica, como a estímulo propioceptivos del sujeto... A esta cantidad y diversidad de eventos condicionables hay que añadir la posibilidad de que el efecto se extienda a otros estímulos que nunca estuvieron presentes, a través de fenómenos de generalización. El resultado es que con el uso extendido del castigo, sobre todo cuando se utilizan consecuencias de magnitudes elevadas, se corre un riesgo considerable de ampliar los estímulos generadores de ansiedad para el sujeto, con el consiguiente desarrollo de trastornos del comportamiento.

La presencia de eventos ansiógenos suele disminuir la tasa general de respuesta operante, provocando que ciertas conductas, que en ausencia de estos estímulos se emitirían con una alta probabilidad, no aparezcan. Esta redistribución “no deseada” del comportamiento no solo produce la supresión de ciertas conductas sino también el aumento de tasa de otras.

Por otro lado, podemos suprimir una conducta mediante castigo, pero de esa forma no alteramos una importante variable causal: su motivación (privación/saciedad). En estos casos es altamente probable que aparezcan otras respuestas (ya existentes en el repertorio del sujeto o fruto de la variación conductual) y que éstas sean reforzadas por la consecuencia que reduce el estado de privación. Por ejemplo, podemos suprimir mediante castigo que un niño nos interrumpa cuando hablamos con otro adulto, pero puede que se fortalezcan otras respuestas como pegar a su hermano pequeño o subir a un lugar peligroso (conductas reforzadas por nuestra atención).

El último efecto colateral sería la agresión. Como hemos visto, la propia presentación de estimulación aversiva (en función del contexto, la intensidad, la especie, etc.) puede generar agresión como respuesta refleja, lo que suele denominarse como agresión elicitada. Cuando se sitúa a dos organismos juntos y se les aplica estimulación aversiva suelen atacarse entre ellos, fenómeno que se ha encontrado en multitud de especies, incluida la humana. La agresión también puede ser operante. Cuando la presencia de un organismo (el domador, el adiestrador, o el educador, por ejemplo) correlaciona con la presentación de estimulación aversiva, la agresión dirigida hacia ese organismo puede verse reforzada como conducta de escape/evitación si llega a suprimir dicha estimulación.

Fenómenos paradójicos en el castigo

La conducta masoquista

El Ed- asociado al castigo está muy relacionado con algunas situaciones en las que éste no es eficaz para suprimir la conducta. La búsqueda del castigo puede aparecer en una situación en la que el reforzamiento positivo sólo está disponible cuando se castiga la operante. En tales circunstancias, el castigo puede convertirse en una señal, o estímulo discriminativo, para la disponibilidad del reforzamiento positivo. Por ejemplo si a un niño que hace algo malo, tras una reprimenda se le dan muestras de cariño, del que normalmente esta privado, aunque se presente estimulación aversiva contingentemente a la conducta el resultado es un aumento de la tasa, en lugar de una reducción.

Otra forma de adquirir esta conducta masoquista es mediante el contracondicionamiento de la consecuencia aversiva. Si condicionamos un estímulo (un EC o un EI) asociándolo a otro con un efecto inverso pero más fuerte podemos cambiar el tipo de respuesta elicitada por dicho estímulo y, por tanto, su función cómo reforzador o consecuencia aversiva. Por ejemplo, podemos empezar emparejando descargas de poca intensidad (EI aversivo) con mucha comida (EI apetitivo de mayor intensidad) para ir paulatinamente aumentando las descargas y disminuyendo la comida. Así la descarga terminará adquiriendo propiedades de EC excitatorio apetitivo, lo que le convertirá en un reforzador para las conductas operantes, y su presentación contingente funcionará como reforzamiento positivo en lugar de como castigo.

Círculo vicioso

Cuando se entrena una conducta de escape (por ejemplo saltar al otro compartimento de la caja lanzadera) ante un evento aversivo (una descarga, por ejemplo), el propio evento adquiere funciones discriminativas positivas para esa conducta. Es decir, una vez se ha adquirido la conducta de escape, la presencia del estímulo aversivo aumenta las probabilidades de emisión de dicha conducta. Esto implica que el uso de dicho estímulo como consecuencia aversiva para esa conducta (en un procedimiento de castigo) no tendrá como efecto la supresión de la respuesta sino todo lo contrario. A este fenómeno, efecto de utilizar un discriminativo positivo como consecuencia aversiva para la misma conducta, se le denomina círculo vicioso.

Otras estrategias de supresión de conducta

Entrenamiento de omisión

El entrenamiento de omisión consiste en establecer una contingencia negativa entre una determinada respuesta y la administración de un reforzador. En términos probabilísticos diríamos que la probabilidad de que se presente un reforzador es menor si el sujeto emite la respuesta que si no la emite. Así, la forma que tiene el sujeto de conseguir el reforzador es omitiendo (no dando) la respuesta, ya que si la emite no se presenta el reforzador que habría aparecido si no hubiera respondido. Este procedimiento, como ya sabemos, resulta en una disminución de la tasa de respuesta.

Se puede establecer un paralelismo entre el entrenamiento de omisión y la evitación de Sdiman: en ambos hay contingencia negativa, y en ambos hay intervalos entre consecuencias y también entre respuesta y consecuencia. El intervalo consecuencia- consecuencia (E-E) nos indica la frecuencia con la que se van a presentar las consecuencias cuando el sujeto no emite la respuesta. Por contra, el intervalo respuesta- consecuencia nos indica el tiempo que va a transcurrir entre que el sujeto emite la respuesta y el retraso añadido en la presentación de la próxima consecuencia.

Para que se produzca aprendizaje en los procedimientos de entrenamiento de omisión, es decir, para que desaparezca la respuesta con la que estamos trabajando, los intervalos de presentación de la consecuencia en ausencia de respuestas (intervalos E-E) deben ser de menor duración que los de entrega de la consecuencia tras la respuesta del sujeto (intervalos R-E). Se debe empezar por valores pequeños del intervalo R-E, para, paulatinamente y teniendo en cuenta la ejecución del sujeto, ir aumentado el criterio de pausa.

El entrenamiento de omisión tiene como efecto inmediato sobre la tasa de conducta un mantenimiento residual de la respuesta. Se sigue observando durante un plazo de tiempo relativamente corto una tasa pequeña de respuestas motivadas por la presencia del propio reforzador. Esa tasa residual acaba por desaparecer a largo plazo, llegando a la total eliminación de la conducta y a una extrema resistencia al recondicionamiento.

Modificación de la fuerza de las conductas alternativas

Cualquier comportamiento, por simple que sea, es una conducta de elección, siempre hay alguna alternativa de comportamiento posible.

Recordando lo que vimos sobre la conducta de elección, podemos manipular desde el intervalo R-Er (demora del reforzamiento) de las alternativas, variables relacionadas con la consecuencia como la intensidad, la calidad o la cantidad. En definitiva, cualquier modificación que convierta a la alternativa en más atractiva reducirá la probabilidad de emisión de la conducta objetivo.

Otra forma de suprimir una determinada conducta relacionada con lo anterior es fortaleciendo alguna respuesta cuya emisión sea incompatible con la anterior. Existen respuestas que son topográficamente contrarias, no se puede subir y bajar al mismo tiempo, ni chillar y estar callado, etc. Si reforzamos una conducta (R1) que no puede emitirse a la vez que otra (R2) inevitablemente reduciremos la tasa de conducta de ésta última (R2). Por ejemplo, podemos suprimir la conducta de levantarse del asiento durante una clase aplicando un procedimiento de castigo (cada vez que se levanta se le reprende), pero podemos obtener el mismo efecto reforzando la conducta de estar sentado.

Extinción

Otro procedimiento alternativo al castigo es extinguir la propia operante. Romper la contingencia positiva respuesta-consecuencia (en las conductas reforzadas positivamente) o la contingencia negativa respuesta- consecuencia (en las reforzadas negativamente, entrenamiento de evitación/escape) en presencia de los respectivos discriminativos resultará en un descenso de la operante (frente a estos discriminativos).

Extinguir el control de los Eds+ es muy eficaz para suprimir la operante, pero requiere identificarlos y tener control sobre ellos. La extinción, como ya sabemos, no es desaprendizaje ni olvido, es un nuevo aprendizaje que sustituye al anterior siempre que se mantengan determinadas circunstancias. Un cambio en el contexto (respecto al que ha estado presente durante la extinción), un tiempo sin contacto con el discriminativo extinguido, incluso la exposición al reforzador (sin que se haya emitido la operante), pueden provocar la restauración de la capacidad de control de los discriminativos que habíamos extinguido y, por tanto, la emisión de la conducta que habíamos suprimido.

Modificaciones motivacionales

Que una determinada operante se emita a una tasa alta se debe, al menos, a la interacción de variables como el estado motivacional, la historia de reforzamiento y castigo del sujeto, y la estimulación presente en ese momento, todo ello eventos anteriores a la propia emisión de la conducta. La manipulación de cualquiera de estas variables por separado puede reducir por sí misma la fuerza (probabilidad de emisión) de dicha operante.

La motivación es un constructo que suele referirse, en términos generales, a la fuerza de una determinada conducta, y dicha fuerza depende de todo lo que acabamos de nombrar. La motivación suele operativizarse principalmente atendiendo o bien al grado de privación/saciedad respecto al reforzador, o bien al valor del propio reforzador. En situaciones de reforzamiento negativo o de castigo, el concepto de motivación está relacionado casi exclusivamente con el valor del estímulo aversivo (intensidad, grado de habituación, etc.).

Es posible suprimir una conducta sin aplicar el castigo mediante la manipulación de variables relacionadas con la motivación. Si una conducta se emite es porque en algún momento ha sido reforzada, y si identificamos el evento responsable de su mantenimiento podemos reducir su emisión saciando al sujeto respecto a ese reforzador. Si a una paloma la damos comida cada vez que pulsa una tecla, y después la dejamos acceso libre a la comida, de forma que este saciada cuando la ponemos delante de la tecla, la tasa de respuesta bajara.

Si una conducta está siendo mantenida por reforzamiento secundario podemos reducir su tasa de emisión saciando al sujeto respecto al reforzador primario del que depende el secundario. En otras palabras, una sobreexposición al EI con el que se condicionó el EC reduce la capacidad reforzante del EC.

También podemos devaluar el reforzador primario (EI) para reducir la tasa de respuesta, asociándolo por ejemplo a un estímulo aversivo. En el caso de un reforzador secundario (EC) podemos anular su capacidad reforzante a través de la extinción (ya sabéis, lo presentamos muchas veces solo sin emparejarlo al EI) y el contracondicionamiento (cambiarle de signo positivo a negativo).

La saciedad y la extinción no son efectivos cuando estamos ante conductas mantenidas con reforzadores secundarios generalizados. Consideramos a un reforzador secundario como generalizado cuando se ha condicionado con diferentes reforzadores (primarios y/o secundarios). Dos de los ejemplos más claros son el dinero, que esta emparejado con multitud de reforzadores primarios y secundarios, y la atención (de otros individuos) que también asociamos a protección, contacto con otros, comida... El efecto de estos reforzadores generalizados sobre la conducta no depende de una única privación ni de su contingencia con un solo evento, lo que les convierte en muy resistentes a la saciedad y a la extinción. (ejemplo: aunque estemos muy saciados de ropa y comida, el dinero está relacionado con otros eventos reforzantes).

Una estrategia con la que sí podemos disminuir la tasa de una operante sin la presentación de estimulación aversiva, es con la reducción de la intensidad del reforzador (independientemente de que este sea primario secundario o generalizado). Cuando se presentan reforzadores menos intensos que los que se han utilizado en el pasado para mantener la misma conducta, se produce un descenso de la tasa de respuesta.

Contenido relacionado