Edward L. Thorndike
Biografía
Edward L. Thorndike fue profesor de psicología durante más de treinta años en el Teachers College de Columbia, Estados Unidos. Lo que más atrajo su interés fue la teoría del aprendizaje, y se cuenta entre los importantes precursores del conductismo. Watson se fundó en gran parte en la obra de Thorndike y en la de Pavlov. El interés de Thorndike por la psicología apareció después de un curso en la Universidad de Harvard donde tuvo de profesor a William James. Los primeros experimentos de Thorndike sobre el aprendizaje, en que los sujetos experimentales eran pollitos, fueron realizados justamente en el sótano de la casa de James, para deleite de los hijos de éste.
Las numerosas fábulas y relatos tradicionales que cuentan maravillas de la inteligencia de los animales no impresionaban a Thorndike, quien por el contrario sostenía que nadie se había ocupado de describir la estupidez animal. Por cada perro que encuentra el camino de regreso al hogar -decía-, hay quizás un centenar que se pierden. Sostenía Thorndike que los animales no razonan ni avanzan en la resolución de problemas mediante súbitos estallidos de introvisión, sino que aprenden de una manera más o menos mecánica, partiendo de un método de ensayo y error. Las conductas que les resultan fructíferas y gratificantes se "imprimen" en el sistema nervioso.
Según Thorndike, el aprendizaje se componía de una serie de conexiones entre un estímulo y una respuesta, que se fortalecían cada vez que generaban un estado de cosas satisfactorio para el organismo. Esta teoría suministró las bases sobre las que luego Skinner construyó todo su edificio acerca del condicionamiento operante.
Más adelanto, Thorndike aplicó sus métodos para el adiestramiento de animales a niños y jóvenes, con éxito sustancial, y llegó a tener gran predicamento dentro del campo de la psicología educativa. Su obra Educational Psychology (Psicología educacional) fue publicada en 1903, y al año siguiente se le concedió el grado de profesor titular. Otro de sus influyentes libros fue Introduction to the Theory of Mental and Social Measurements (Introducción a la teoría de las mediciones mentales y sociales) de 1904. En la actualidad se reconoce a Thorndike como una figura señera en los comienzos del desarrollo de los tests psicológicos.
Teoría
Edward Thorndike realizó su investigación, también observando la conducta de animales pero después realizó experimentos con personas. Thorndike implantó el uso de "métodos usados en las ciencias exactas" para los problemas en educación al hacer énfasis en el "tratamiento cuantitativo exacto de la información". "Cualquier cosa que exista, debe existir en determinada cantidad y por lo tanto pude medirse" (Johcich, citado en Rizo, 1991). Su teoría, conexionismo, establece que aprender es el establecimiento de conexiones entren estímulos y respuestas.
· - La "ley de efecto" dice que cuando una conexión entre un estímulo y respuesta es recompensado (retroalimentación positiva) la conexión se refuerza y cuando es castigado (retroalimentación negativa) la conexión se debilita. Posteriormente Thorndike revisó esta ley cuando descubrió que la recompensa negativa (el castigo) no necesariamente debilitaba la unión y que en alguna medida parecía tener consecuencias de placer en lugar de motivar el comportamiento.
· -La "ley de ejercicio" sostiene que mientras más se practique una unión estimulo-respuesta mayor será la unión. Como en la ley de efecto, la ley de ejercicio también tuvo que ser actualizada cuando Thorndike encontró que en la práctica sin retroalimentación no necesariamente refuerza el rendimiento.
· -La "ley de sin lectura": Debido a la estructura del sistema nervioso, ciertas unidades de conducción, en condiciones determinadas, están más dispuestas a conducir que otras.
Las leyes de Thorndike se basan en la hipótesis estímulo respuesta. El creía que se establecía un vínculo neural entre el estímulo y la respuesta cuando la respuesta era positiva. El aprendizaje se daba cuando el vínculo se establecía dentro de un patrón observable de conducta.
Estimacion Del Punto De Vista De Thorndike
Antes resumiremos las soluciones de Thorndike a los problemas más característicos del aprendizaje, en los siguientes puntos:
1) La capacidad de aprendizaje depende del número de conexiones y su disponibilidad.
2) La repetición de situaciones (práctica) no modifica por sí sola las conexiones, a menos que dichas conexiones se recompensen.
3) Motivación: la recompensa influye directamente en las conexiones vecinas reforzándolas, pero el castigo carece del efecto debilitador directo correspondiente. Sin embargo, el castigo puede influír indirectamente al llevar al sujeto a elegir otra cosa que tal vez le traiga recompensa. Las conexiones pueden fortalecerse directamente, sin necesidad de tener conciencia o idea de ellas.
4) Comprensión: depende de hábitos anteriores. Cuando las situaciones se comprenden de inmediato, es que se produjo transferencia o asimilación.
5) Transferencia: la reacción a las situaciones nuevas se beneficia, en parte, porque son parecidas a antiguas situaciones, y también por un principio de analogía descripto como asimilación.
6) Olvido: siguió sosteniéndose a grandes rasgos la ley del desuso, según la cual el olvido sobreviene con la falta de práctica.
El carácter más general de la teoría de Thorndike es el de fortalecimiento automático de conexiones específicas, directamente, sin la intervención de ideas o de influencias concientes.
La doctrina de la especificidad es fuente tanto de fuerza como de debilidad.
La fuerza de la doctrina de Thorndike de la especificidad radica en que, en el ámbito educativo, muestra al maestro qué tiene que hacer específicamente para enseñar, una actividad muy compleja pero que puede simplificarse. Por ejemplo para enseñar lectura basta con detenerse en las palabras, ser bien específico, y desatender otros factores como semántica, filología, etc. Pero en esto también radica su debilidad, porque el lenguaje no es sólo palabras.
Los experimentos de Thorndike
Hay dos tipos de aprendizaje:
1)El condicionamiento clásico, ovaloviano o respondiente, que consiste en aprender la relación entre sí de varios sucesos del entorno; y
2) El condicionamiento instrumental, que consiste en aprender la relación entre varios eventos contextuales y el comportamiento.
El condicionamiento clásico implica aprender la relación entre ver el pan y su olor, y condicionamiento instrumental es aprender la relación entre la conducta de comer el pan y el gusto del pan. En este capítulo el autor distinguirá estos dos tipos de aprendizaje.
La ley de efecto fue enunciado por Thorndike en 1898, y dice que un efecto de un comportamiento positivo es incrementar la probabilidad de que vuelva a suceder en condiciones similares.
Trabajó con gatos, perros y gallinas encerrándolos en jaulas, donde los animales debían hacer algo para poder salir o recibir comida. Es decir, trabajó con un condicionamiento instrumental (relación entre el comportamiento y sucesos contextuales significativos, como premios y castigos). Encontró que a más intentos que hacía el animal, menor tiempo usaba para escapar.
La ley del efecto es simplemente la selección natural en la historia de un organismo singular (cuanto más salta el gato para salir equivale, en la selección natural de las especie, a cuanto más debe alargar la jirafa el cuello para comer). Obviamente, la conducta deseada debe ser premiada una vez que ocurre, para que luego el animal vuelva a repetirla. Esto se llama ‘modelamiento’.
Thorndike y Pavlov: Ambos fueron psicólogos moleculares, es decir, concebían que en la base del comportamiento había conexiones simples E-R, las que pueden ordenarse jerárquicamente según la probabilidad de su ocurrencia. Un premio o un castigo puede modificar esta jerarquía, haciendo más probable o menos probable una respuesta.
Respecto a sus diferencias, para Pavlov una conexión (un reflejo condicionado) aumenta su fuerza si el estímulo condicionado es contiguo al estímulo incondicionado (esto se llama refuerzo del reflejo condicionado). Para Thorndike, una conexión (hábito) aumenta su fuerza si la respuesta es contigua con un refuerzo al animal del tipo premio o castigo (esto se llama refuerzo del hábito).
Estas explicaciones del aprendizaje en términos de conexiones pueden también hacerse desde en punto de vista molar, en términos de contingencias y correlaciones (entre el EI y el EC, o entre R y el premio).
Thorndike y Skinner: Para Thorndike el premio refuerza la conexión E-R, mientras que para Skinner (1938) el premio refuerza la respuesta operante, no la conexión con el estímulo previo. Cabe aclarar que respuesta para Skinner es un acto destinado a producir un efecto en el entorno, a ser operante. O sea, no importa como la rata presione la barra, sino que lo haga, y por ello recibirá el premio.
Clases de condicionamiento instrumental.
En el condicionamiento instrumental hay cuatro principios básicos: premio, castigo, huída y omisión. En los cuatro casos ha de tenerse presente que primero se produce la respuesta y luego recién se premia, o se castiga, etc.
Premio: Un premio después de la respuesta aumenta la probabilidad que ocurra. El premio se llama refuerzo positivo, y esto fue enunciado en la ley del efecto de Thorndike.
Castigo: Un castigo después de la R disminuye la probabilidad que vuelva a ocurrir. Es lo inverso a lo anterior (castigo positivo).
Huída: Si una respuesta es para escapar de un castigo, aumenta la probabilidad que vuelva a ocurrir. Esto se llama refuerzo negativo.
Omisión: Si el presente está presente pero no se da, la respuesta que lleva a esta frustración decrece su probabilidad de ocurrencia (castigo negativo).
Métodos de medición
Medir en el condicionamiento clásico significa descubrir la respuesta a un estímulo, pero más interesa aquí medir en el condicionamiento instrumental, donde significa detectar con algún aparato los cambios producidos en la conducta por el aprendizaje.
Se citan dos medidas para medir la variable dependiente ‘respuesta’: latencia y tasa de respuesta.
· Latencia: es el tiempo transcurrido entre una señal y la ocurrencia de la respuesta. Cuando la madre llama al hijo a comer, éste vendrá más rápido (latencia menor) si le gusta la comida, etc.
· Tasa de respuesta: es la cantidad de respuestas por unidad de tiempo. Luego de ser llamado a comer (señal) el niño dará más -o menos- mordiscos por unidad de tiempo.
La extinción en el condicionamiento instrumental
En el condicionamiento clásico, extinción significa desaparición de la conexión EC-EI. En el instrumental, significa desaparición de la conexión respuesta-premio (o castigo).
La extinción se define entonces a partir de una correlación cero entre la respuesta y el refuerzo, o sea la R sigue ocurriendo aunque haya tantos premios como antes, más premios, menos premios o ningún premio. Lo esperable es que el organismo pare, entonces, de responder, que es lo que pasa normalmente, salvo en tres excepciones. En efecto, la respuesta sigue ocurriendo cuando hay falta de discriminación, superstición o psuedocondicionamiento.
a. Falta de discriminación.- El estudiante sigue dando la misma respuesta (por ej sigue estudiando bien) a pesar de que el maestro sigue poniendo mecánicamente la misma nota (mismo premio). Sólo tiende a desaparecer la respuesta cuando ve que el maestro pierde las hojas de exámenes, está distraído, etc.
b. Superstición.- Este fenómeno se da cuando en un tiempo dado, la relación entre dos sucesos no puede deberse al azar. Aunque podamos programar una serie de premios en forma totalmente independiente de la respuesta, se quiera o no los premios establecerán cierta relación con las respuestas. Habrá correlaciones accidentales, aunque tales correlaciones no hayan sido programadas. Un jugador le va mal un día, pero al otro día donde usa otro bate de béisbol, por azar le va bien, entonces decide usar este bate en forma superticiosa.
c. Pseudocondicionamiento.- Ocurre por ejemplo cuando una rata mueve la palanca para salir y en ese momento le damos adrenalina, que aumenta su actividad. La conexión se establece entre la inyección de adrenalina y mover la palanca, lo cual es un pseudocondicionamiento porque el condicionamiento instrumental "verdadero" sería conectar el mover la palanca con el premio (salir de la jaula).
Vemos que en los tres casos se producen respuestas que no mantienen relación con el premio, o sea, no está marcada una relación instrumental (respondo "para" obtener un premio). En el primer caso la falta de discriminación se debe a que la falta de una relación instrumental no puede discriminarse de alguna condición anterior, cuando aquélla existía. En el caso de la superstición es debido a una relación instrumental accidental y temporaria. En el tercer caso la relación no tiene nada que ver con la respuesta, pero el premio por sí mísmo puede causar la respuesta. Todas estas conclusiones valen también para los castigos.
Aprendizaje retardado
Es aquel aprendizaje donde la extinción se presenta "antes" que el condicionamiento, lo que trae como consecuencia que el condicionamiento tarde más en formarse (aprendizaje retardado). Si primero castigamos a un niño, haga lo que haga (extinción de la respuesta, no hará nada), y luego cambiamos la situación y castigamos sólo las conductas malas, entonces tardará mucho más tiempo en superar la primera etapa donde no respondía con ninguna conducta.
Programas de refuerzo o castigo
Un día a Skinner se le acabaron las bolas de alimento que daba a las ratas, y entonces hizo un aparato que les daba bolas de alimento automáticamente, siempre que la rata tocase la palanca un minuto. No sólo las ratas comenzaron a presionar la palanca durante ese lapso sino que también aumentó su tasa de respuestas (cantidad de respuestas por unidad de tiempo), lo cual iba en contra de la idea que a menor premio o refuerzo, menor cantidad de respuestas. Skinner pensó que este ‘programa’ de dar bolas automáticamente podía servir como eficaz método para controlar el comportamiento.
Hay varios tipos de programas:
a) De intervalo fijo: es el ejemplo anterior. El intervalo fijo era un minuto, o sea cada minuto la rata recibía el alimento.
b) De razón fija: aquí se premia a la rata cuando realiza un cierto número de respuestas. Por ejemplo cada cuatro respuestas.
c) Programas combinados: una combinación de los dos anteriores.
d) Programas variables: es cuando los programas de intervalo o de razón son variables en vez de fijos.
e) Programas de refuerzo diferencial: pueden ser de refuerzo diferencial bajo (RDB) o alto (RDA). En el primer caso se premia al sujeto siempre que haya pasado por ejemplo 3 segundos desde la última respuesta. Si responde antes de los 3 segundos no hay premio (o sea una respuesta cada 2,5 segundos no tendrá refuerzo o premio). Esto da tasas de respuesta muy lentas. No es eficaz para el aprendizaje humano. En el caso del RDA, hay premio si la respuesta ocurre antes de un tiempo especificado, con lo cual la tasa de respuestas aumenta mucho.
f) Extinción después de un refuerzo parcial: cuando una respuesta ha sido premiada constantemente, la extinción ocurre más rápidamente que si aquélla fue premiada solo una vez.
g) Programas de castigo, refuerzo negativo y omisión: las pautas de respuesta con castigo de IF son generalmente una aceleración inmediatamente después del castigo y luego una supresión de la respuesta inmediatamente antes del mismo. Un programa de refuerzo negativo (huída) puede consistir en dar descargas eléctricas a la rata hasta que cumpla cierto requerimiento, como una razón fija de 10 respuestas. Por último, un programa de omisión sería proporcionar premio continuamente y luego retirarlo cuando se cumple el requerimiento serial.
Parámetros de premios y castigos
Los instrumentos más sencillos para medir premios y castigos son la caja de Skinner con un único mando (por ejemplo una palanca), y el ‘corredor recto’, por donde el animal circula. Este último evalúa más el comportamiento en el espacio, y la caja de Skinner en el tiempo. Por ejemplo, el primero muestra cuánto se desplazó la rata, y la segunda cuánto tardó en apretar la palanca.
Se citan dos parámetros de premios o castigos: la tasa o cantidad de premio, y el retraso del premio.
Tasa o cantidad de premio: puede ser la mayor o menor cantidad de bolitas de comida, o también cuanto tiempo se lo deja comer una vez que se le dio la comida, o también variar la concentración de azúcar (cuanto más dulce, más premio). Se comprobó que sin premio, la respuesta el cero o cercana a cero; luego, cuando se incrementa el premio, se incrementa también la tasa de respuesta al principio rápido, pero luego lentamente.
Retraso del premio: la tasa de respuesta de la rata varía con el retraso del refuerzo positivo (bolas de comida) y del refuerzo negativo (reducción de la descarga). La rata deja de correr (o bien de pulsar la palanaca si está en la caja de Skinner) inmediatamente al principio pero luego en forma más gradual. El retraso del premio es importante en la vida diaria, como cuando una persona hace dieta pero el premio (bajar de peso), tarda en aparecer.
En cuanto a la relación entre estos parámetros, ellos son independientes en el sentido de que se puede variar la tasa o la cantidad de premio sin variar su retraso, y viceversa. Pero en la práctica se influyen mutuamente, y entonces a veces no se puede saber qué influye más en la conducta: si el retraso del premio o su tasa.
Respecto de la relación entre tasa y cantidad, ella es constante: si se varía la tasa (se le da poca comida a intervalos frecuentes) esto equivale a darle una sola comida grande (cantidad). Pero esto no significa que ambas cosas influyan de la misma forma en la conducta, porque quizás una comida grande sea menos premio porque el animal se siente más pesado.
Huída (refuerzo negativo)
El experimento típico consiste aquí en darle a la rata un estímulo aversivo pero sólo hasta que el animal realiza cierta conducta (llamada entonces conducta de huída). Según la teoría de las necesidades, todo refuerzo es negativo: comer sería ‘huír’ del hambre, beber ‘huír’ de la sed, etc.
Sin embargo las conductas de animales sometidos a descargas (estímulo aversivo) es distinta al que actúa porque tiene hambre o sed, quizás porque el estímulo aversivo en la descarga es externo al organismo, y además no aparece gradualmente.
Una forma de estudiar esto es con la dosificación, donde se aumenta de a poco la intensidad del estímulo aversivo, y las respuestas del sujeto reducen la descarga cuando llegan a cierta cantidad.
Castigo
Es posible que el castigo no forme un condicionamiento instrumental. Con refuerzos positivos buscamos que el animal ‘haga’ algo, pero con el castigo tratamos de que ‘no haga’ algo. Sin embargo muchos investigadores dijeron que desde cierto punto de vista el castigo sí produce condicionamiento instrumental: el castigo dado independientemente de la respuesta del animal tiene algún efecto supresivo de la misma, pero no tanto como cuando depende de la respuesta. En la medida en que hay una diferencia entre los efectos de las respuestas producidas por castigo y las respuestas independientes del mismo, éste será una forma de condicionamiento instrumental.
Evitación
La evitación es una huida pero no del castigo sino de la situación donde este se presenta. Evitar la lluvia es huir, pero ir a un lugar donde no llueve es evitación. ¿El problema es: qué condiciona al sujeto a correr? ¿Huir de la lluvia o ir hacia donde no llueve?
La evitación fue estudiada con dos procedimientos: la evitación discriminativa (se avisa de antemano con un señal que vendrá el castigo), y evitación no-discriminativa (no se da una señal previa). En el primer caso, por ejemplo, se vio que ante la señal los perros pasaban rápidamente de la huída a la evitación, mientras que en otros el paso fue más gradual.
Extinción de la evitación: cuando se intenta extinguir la evitación dando siempre castigos (de forma que no los pueden evitar), las conductas evitativas se reducen más rápidamente. Pero resultados opuestos se consiguen si es retirado el castigo a ser evitado: aquí la conducta de evitación tarda más en desaparecer.
PAGINAS ELECTRÓNICAS CONSULTADAS: