Procedimientos básicos del condicionamiento operante

Tenemos que saber que la conducta es un proceso dinámico y modificable en el tiempo, resultado de muchas variables que interrelacionan y que pueden incluso no estar presentes en el momento de su análisis, lo que dificulta su estudio. Los fenómenos conductuales que tienen un patrón temporal identificable bajo condiciones objetivamente especificadas y que son reproducibles en diferentes individuos pueden ser descritos como procesos conductuales reproducibles, y su comprensión depende de las relaciones entre los eventos que los configuran y de las condiciones bajo las cuales ocurren.

Es muy importante tener claro el concepto de contingencia: una relación de dependencia funcional entre dos componentes de un condicionamiento, dicha relación se establece cuando uno de los componentes correlaciona con el otro. En CO hablamos de contingencia positiva cuando una respuesta es seguida de una consecuencia, y contingencia negativa cuando una respuesta elimina o previene la aparición de una consecuencia. Dependiendo del tipo de contingencia, y de la naturaleza apetitiva o aversiva de la consecuencia, se establecen cuatro procedimientos fundamentales de CO: unos encaminados a aumentar la conducta y otros a reducirla.

Destinados a aumentar conductas: reforzamiento positivo, escape y evitación

Reforzamiento positivo (entrenamiento de recompensa)

El reforzamiento positivo o entrenamiento de recompensa tiene lugar en el momento en el que una consecuencia apetitiva se presenta de forma contingente a una respuesta, lo que provoca un aumento de la fuerza de la respuesta: su intensidad, su frecuencia de aparición, etc. De esta forma cuando el sujeto emite la conducta se presenta un evento apetitivo, mientras que si no la emite no se presenta la consecuencia apetitiva. Estas consecuencias pueden ser reforzadores primarios como la comida o el sexo, o secundarios como elogios, dinero....

La comida es algo muy usado en reforzamiento positivo con animales, pero para que surja efecto el animal tiene que estar motivado a conseguirla, por ejemplo privándolo previamente de la comida. La motivación vendrá dada por el porcentaje de peso que ha perdido el animal respecto a su peso comiendo por libre, por ejemplo un 5% menos.

También hay que tener en cuenta que en el repertorio natural del animal exista la respuesta que queremos medir. Si no es una conducta habitual en su medio natural, como presionar una palanca, se puede emplear el moldeamiento o método de aproximaciones sucesivas: reforzar respuestas o conductas que se vayan aproximando a la respuesta final que queremos medir, y dejar de reforzarlas, es decir extinguirlas, según vamos consiguiendo respuestas más parecidas a nuestro objetivo. Por ejemplo vamos dando comida primero por permanecer en la caja, luego por acercarse cada vez más a la zona de la palanca, y al final solo reforzaremos cuando el animal la presione.

Escape y evitación

Aquí eliminamos o detenemos un evento aversivo como resultado de una respuesta operante, por tanto la fuerza de la conducta o respuesta aumenta: es el procedimiento de escape. Cuando en un procedimiento similar, la respuesta impide que se presente el evento de naturaleza aversiva estamos hablando del procedimiento de evitación. En laboratorio es habitual que estos dos procedimientos funcionen de manera conjunta, y que en principio se aprenda una respuesta de escape y luego de evitación.

Si por ejemplo al presionar una palanca se detiene una descarga, en primer momento el animal presionará la palanca cuando nota la descarga para detenerla (escape) y una vez aprenda ese comportamiento, la presionará continuamente para que la descarga no llegue (evitación).

Los dos procesos son conocidos como reforzamiento negativo, y en ambos casos la contingencia negativa que se da, da lugar al fortalecimiento de la conducta.

Destinados a disminuir conductas: castigo y entrenamiento de omisión

Castigo o castigo positivo

Es el procedimiento en el cual se aplica una consecuencia aversiva de forma contingente, es decir como consecuencia, de la respuesta o conducta, y tiene como resultado una disminución de la misma. Es decir la consecuencia aversiva se presenta cuando el sujeto emite la respuesta operante, y no se presenta si no la emite. En el análisis funcional de la conducta, el castigo se define por su función y esto implica que cuando el castigo no tiene efectos en la conducta se considera que este no ha ocurrido. Tenemos que señalar que para poder castigar una respuesta antes ha tenido que ser reforzada, es decir, si pretendemos castigar la presión de una palanca, para poder observar los efectos del castigo previamente debemos hacer que la respuesta de presión de palanca ocurra con cierta probabilidad y para ello debemos llevar a cabo anteriormente un entrenamiento de recompensa de la presión de la palanca. De esta forma el castigo consistiría en la disminución de una respuesta previamente reforzada debido a la imposición de una contingencia de tipo aversivo sobre dicha respuesta.

Entrenamiento de omisión o castigo negativo

Este procedimiento tiene como resultado también una disminución en la fuerza de la respuesta porque se elimina o previene una consecuencia apetitiva de forma contingente a la respuesta o conducta. Es decir, si un sujeto emite la respuesta operante, la consecuencia será la no presentación de un evento apetitivo que se presentaría en circunstancias similares si no se produjese dicha conducta. Es decir, no entregar una recompensa cuando se presenta la conducta no deseada. Los eventos o circunstancias eliminadas en el caso del castigo negativo se asume que son reforzantes.

Efectos colaterales de los procedimientos aversivos

Los procedimientos aversivos se refieren a los condicionamientos de escape, evitación y castigo. Además de las razones éticas en contra de su uso, los efectos colaterales hacen que se desaconseje su uso. En primer lugar la estimulación aversiva es posible que a su vez tenga efectos emocionales que aunque en primer momento eliminan la conducta indeseable, no impiden su reactivación en un futuro cuando se disipan. También puede pasar que la estimulación aversiva se asocie con otros estímulos presentes en esa situación, y que pueden dar lugar a que se inhiban otras conductas que si son deseables: por ejemplo un niño puede utilizar estrategias para evitar el castigo y usar esas mismas en entornos donde no están presentes las contingencias aversivas. Además tanto las personas como los animales cuando son castigados, asocian el castigo más con quién lo ejecuta que con la conducta realizada, esto puede dar luchar a evitación y rechazo hacia esa persona más que un cambio de conducta.

La extinción en el reforzamiento positivo

La extinción en el CO es el procedimiento mediante el cual una respuesta que previamente se reforzaba, se deja de reforzar, es decir dejamos de presentar la consecuencia que le seguía al ser emitida. La extinción es tanto el procedimiento, como el proceso que da lugar a la disminución de la frecuencia o intensidad de la respuesta, causada por ausencia del reforzador, y lleva a una disminución gradual de su ejecución.

Aun así la respuesta no se elimina de forma absoluta: si dejamos pasar cierto tiempo sin que el sujeto sea expuesto a sesiones de extinción observaremos cierta recuperación de la respuesta, esto es conocido como recuperación espontánea. Ej. A una rata le damos comida como recompensa por pulsar una palanca, le sometemos a extinción después no dándole la comida y acabará por no pulsar la palanca. Pero si la sacamos y dejamos pasar un tiempo, al volver a meterla en la caja, probablemente irá a pulsar la palanca.

Otro efecto de la extinción sobre la conducta es el “estallido de extinción” Este fenómeno consiste en un aumento de la tasa de respuesta los primeros ensayos en los que dejamos de presentar el reforzador que antes se presentaba. Posteriormente la tasa de respuesta comienza a disminuir de forma gradual. Otro efecto que ocurre al comienzo de un procedimiento de extinción es el aumento de la variabilidad de la respuesta. Tiene una posible explicación adaptativa: la variación conductual aumenta las probabilidades de entrar de nuevo en contacto con el reforzador o con otras posibles fuentes de reforzamiento.

Como consecuencia de la extinción es habitual encontrase con un estado emocional que se suele denominar frustración y que da lugar a que surjan respuestas emocionales incondicionadas como el aleteo en las palomas, el que las ratas muerdan la palanca o la agresión en humanos. Ej. Lo que hacemos cuando metemos una moneda y no nos sale la lata de refresco de la máquina. Estos efectos relacionados con la extinción tienen bastante sentido en condiciones naturales. Si una conducta anteriormente daba lugar a una consecuencia favorable para el organismo y en el momento actual ya no la produce, es decir, cuando algo funcionaba y ya no funciona, la selección natural parece haber favorecido que los organismos repitan las conductas que funcionaron en el pasado y que además el rango de respuestas ante esa situación aumente así como que se presenten con más fuerza.

En el laboratorio, cuando la extinción sigue su curso, las respuestas emocionales comienzan a desaparecer y la intensidad de la respuesta disminuye. Si el procedimiento es lo suficientemente largo la intensidad o la tasa de la respuesta suele volver al nivel registrado antes de que la conducta fuese reforzada. A veces se necesitan varias o muchas sesiones para llegar al nivel de la línea base. La tasa de respuesta mostrada por los sujetos durante la sesiones de extinción puede considerarse como un índice de la resistencia a la extinción. En contra de lo que cabría esperar, generalmente las respuestas operantes que han sido reforzadas en pocas ocasiones se extinguen de forma lenta, sin embargo cuando una respuesta ha sido reforzada en múltiples ocasiones muestra menor resistencia a la extinción, sobre todo cuando en la fase de adquisición se ha utilizado un programa de reforzamiento continuo. A este fenómeno se le ha denominado efecto del sobreentrenamiento en la extinción. Asimismo, la resistencia a la extinción aumenta de forma importante en el momento en que se utiliza un programa de reforzamiento parcial o intermitente. Se ha demostrado que con igual número de respuestas reforzadas durante la adquisición, el reforzamiento intermitente es más resistente a la extinción que el continuo.

El efecto del reforzamiento parcial se ha tratado de explicar cómo el resultado de dos procesos básicos como son el reforzamiento y la discriminación: podría ser debido a que la discriminación entre el reforzamiento y la extinción es más fácil y rápida si el programa es de reforzamiento continuo que si es intermitente. Es decir, es más fácil discriminar la diferencia entre un programa con una tasa estable y alta de reforzamiento de un programa en el que el reforzamiento no existe (extinción), que entre un programa de tasa baja e intermitente de reforzamiento y la extinción. Otro factor que podría estar operando es la generalización de la situación de reforzamiento intermitente a la de extinción, dando esto también lugar a una mayor resistencia al cambio en los programas de reforzamiento intermitente. Por tanto, los factores de discriminación y generalización anularían el efecto producido por la mayor tasa de reforzamiento de los programas de reforzamiento continuo, que según la lógica nos llevaría a pensar que a mayor tasa de reforzamiento mayor resistencia al cambio, y no es así porque muestra una mayor resistencia al cambio los animales que han tenido reforzamiento intermitente durante la fase de adquisición. También hay que tener en cuenta el contacto con las contingencias: no es lo mismo darle a una rata por pulsar una palanca una bolita siempre que pulsa (reforzamiento continuo) que solo cada 50 veces que la pulse (reforzamiento parcial), porque en el primer caso con 10 pulsaciones ya tendría 10 bolitas de refuerzo mientras que en el segundo para tener esas mismas 10 bolitas necesitará 500 pulsaciones.

Otras variables que influyen en la persistencia de la respuesta durante la extinción son la magnitud del reforzador y la inmediatez de la recompensa empleadas durante la fase de adquisición. En general, cuando la magnitud de la recompensa durante la adquisición es alta y se administra de forma continua durante los ensayos de adquisición, la resistencia a la extinción disminuye. Esto no ocurre así, sin embargo, cuando las recompensas grandes se administran intermitentemente, tal y como señalábamos anteriormente, como consecuencia del efecto del reforzamiento parcial. Así, la resistencia a la extinción será baja cuando las recompensas grandes son administradas de forma continua, pero será alta cuando las recompensas grandes se administran de forma intermitente. En cuanto a la inmediatez de la recompensa parece claramente demostrado que cuando la demora en la presentación del reforzador es baja, es decir, pasa poco tiempo entre la emisión de la respuesta y la obtención del reforzador, la resistencia a la extinción es mayor.

Es muy importante señalar que la disminución de la respuesta que ocurre como resultado de la extinción es muy diferente a lo que sucede como consecuencia del olvido. La extinción es un procedimiento en el que una respuesta anteriormente reforzada ya no produce reforzamiento pero la posibilidad de emitir la respuesta sigue disponible. Sin embargo, en el caso del olvido la disminución de la respuesta ocurre simplemente debido al paso del tiempo y la posibilidad de emitir la respuesta no está presente. La extinción no revierte lo ocurrido durante la adquisición, sino que implica un aprendizaje nuevo que de alguna forma se superpone al anterior.

Además de la recuperación espontánea hay otros tres fenómenos que prueban que la extinción no es olvido ni desaprendizaje total. La renovación que en CO consiste en la recuperación de la respuesta extinguida en un contexto diferente al que se llevó a cabo el procedimiento de extinción. La restauración de la conducta que se da cuando se vuelve a situar los sujetos en el contexto original de la extinción. Y el restablecimiento que es un proceso en el que se puede ver como las respuestas extinguidas vuelven a aparecer. En este caso, después de extinguir la respuesta, el sujeto es expuesto de forma no contingente al reforzador, lo que hace que la respuesta vuelva a aparecer sin que esta dé lugar al reforzador.

Contenido relacionado