Conditionnement opérant
Lois

Citation

« Les lois claires en théorie sont souvent un chaos à l'application. »

Napoléon Bonaparte

Sommaire

Comme pour le conditionnement classique, un certain nombre de lois régissent le conditionnement opérant : certaines sont communes aux deux formes de conditionnements.

L'apprentissage opérant permet de relier une réponse à une situation.

Loi de l'effet

thorndikeLa loi de l'effet a été formulée par Edward Thorndike (1874-1949).


La connexion entre le stimulus et la réponse est soit renforcée, soit affaiblie en fonction de ses conséquences.

  • Tout acte qui, dans une situation donnée, produit de la satisfaction a plus de chances de se reproduire si une situation analogue survient à nouveau.

« Par état de chose satisfaisant, on entend un état que l'animal ne fait rien pour éviter et fait parfois en sorte d'atteindre ou de préserver. » Thorndike

  • Inversement, tout acte ayant produit de la dissatisfaction dans une situation déterminée aura tendance à disparaître si cette situation se représente ultérieurement.

« Par état de chose déplaisant ou désagréable, on entend un état que l'animal généralement évite ou abandonne. » Thorndike


On peut considérer que
:

Loi de la répétition et oubli

Enoncé de la loi


La réponse conditionnée est d'autant mieux mémorisée que le nombre d'associations entre renforçateur et la réponse est élevée, en cours de conditionnement et après conditionnement
.

Cette loi est remise en cause par l'école de la Gestalt dans des situations spécifiques (apprentissage par imitation).


Si la réponse apprise n'est pas répétée suffisamment, l'oubli peut se produire.

L'oubli est l'affaiblissement d'une réponse apprise dû au temps qui passe sans pratiquer cette réponse.

Ces lois sont identiques pour le conditionnement opérant et pour le conditionnement classique.

Courbe d'oubli


La courbe de l'oubli est très caractéristique. On observe :

  • une diminution très rapide de la mémorisation,
  • puis, une phase lente asymptotique, c'est-à-dire que la mémorisation diminue sans jamais devenir nulle.

C'est ce qu'on a vu en conditionnement classique où le réapprentissage est beaucoup plus rapide (récupération spontanée).

Relation entre apprentissages successifs

Cette courbe peut être modifiée en fonction des apprentissages successifs.

  • Les traces de mémorisation jouent également un rôle, outre celui de la récupération spontanée, dans par une facilitation de l'apprentissage de situations approchantes (généralisation) : on parle de transfert positif.
  • Par contre, certains apprentissages peuvent être plus difficiles suite au premier apprentissage : on parle d'interférence.

Les conséquences positives - transfert - ou négatives - interférences -peuvent être caractérisées de :

  • retroactives si l'apprentissage en cours a une conséquence sur l'apprentissage précédent,
  • proactives si l'apprentissage précédent a une conséquence sur l'apprentissage en cours.

Loi de la contiguïté temporelle

dans le conditionnement opérant


La loi de la contiguïté temporelle s'applique au conditionnement opérant, mais d'une autre manière que dans le conditionnement classique.


En effet, lorsqu'on considère le délai séparant la réponse du renforcement, il faut distinguer entre
:

  • l'installation,
  • le maintien de la réponse.

Installation du comportement : renforcement immédiat


Pour installer un comportement, il est préférable d'administrer le renforcement immédiatement après la réponse correcte.


S'il y a un délai, une ou plusieurs réponses totalement différentes de celle qu'on veut installer peuvent se produire entre-temps et tout se passera comme si c'était elles qui étaient renforcées. Elles ont reçu le nom de comportement superstitieux.

Huit pigeons sont placés dans une cage de Skinner. Régulièrement, toutes les quinze secondes, on leur apporte du grain de manière automatique, quel que soit le comportement qu'ils effectuent.

  • Après un certain temps, on observe que deux pigeons n'ont pas modifié leur comportement.
  • Parmi les six autres, un pigeon effectue des mouvements en cercle, toujours dans le même sens.
  • Un autre pigeon se positionne dans un coin de sa cage et lève la patte.
  • Un autre produit des mouvements alternatifs de relèvement et d'abaissement de la tête...


Il y a donc renforcement du dernier comportement !

Dans beaucoup de cas cependant, l'animal peut distinguer entre les réponses ayant un effet réel et celles qui n'en ont pas et il lie le conditionnement à la corrélation entre deux événements.

Il ne faut pas confondre un comportement superstitieux avec un renforcement involontaire qui peut survenir notamment dans un programme de renforcement intermittent.

Maintien du comportement : renforcement différé


S'il s'agit de maintenir une réponse installée, un délai peut s'écouler entre la réponse et le renforcement qui est alors appelé renforcement différé.

  • Ce délai est même souhaitable pour réduire la dépendance du comportement par rapport au renforcement.
  • La procédure doit prévoir que l'intervalle entre la réponse et le renforcement soit progressivement augmenté.

Le renforcement différé est différent du renforcement intermittent à intervalle fixe ou variable qui, comme lui, rend la réponse plus résistante à l'extinction.

Par renforcement différé, un chien apprend à rester assis pendant des temps de plus en plus longs, même lorsque son maître est hors de son champ de vision.

dans le conditionnement classique

Loi de l'extinction

La loi d'extinction est identique à celle formulée pour le conditionnement classique.

Enoncé de la loi


Le conditionnement disparaît si on omet de fournir le stimulus renforçateur après qu'un certain nombre de réponses correctes ont été apportées
.

Dans le cas de l'expérience du rat dans la cage de Skinner, le fait que la pression sur le levier ne soit plus suivie par la présentation de croquettes, provoque la diminution, puis la disparition complète de l'action.


L'extinction diffère de l'oubli dans lequel la réponse n'est pas pratiquée.

 

Extinction L'extinction est un conditionnement inhibiteur actif : un nouvel apprentissage de la même réponse sera plus difficile.


Quand une réponse n'est plus renforcée, on assiste souvent, dans un premier temps, à une augmentation paradoxale de la fréquence de son apparition. Ensuite seulement, cette fréquence diminue.

Un chien a appris que, quand ses maîtres sont à table, s'il donne la patte, il reçoit un peu de nourriture.

  • Le maître décide de supprimer cette réponse par extinction et il ne donne donc plus de nourriture.
  • Dans un premier temps, le chien est agité, gémit... et donne la patte à de nombreuses reprises.
  • Dans un second temps, ce comportement disparaît graduellement.


Après extinction, on peut observer, comme en conditionnement classique, une récupération spontanée, observée principalement lorsque le conditionnement est bien établi
.

Dans le cas de l'expérience du rat dans la cage de Skinner, si, après extinction, le fait de presser sur le levier est de nouveau suivi par la présentation de croquettes, la réponse sera plus rapidement installée que la première fois.

Variations en fonction du renforcement

Plus sensibles à l'extinction

1. Le conditionnement par renforcement positif est plus sensible à l'extinction que le conditionnement par renforcement négatif.

2. Une réponse qui demande un effort musculaire important est plus sensible à l'extinction qu'une réponse demandant un moins grand effort.

Chez l'homme, dans la vie quotidienne, la forme d'extinction la plus fréquente est le fait d'ignorer un comportement qui a été précédemment renforcé par de l'attention. Par exemple, pour un professeur, le fait d'ignorer un élève chahuteur peut éteindre cette réponse.

Plus résistantes à l'extinction

1. Les réponses installées par un renforcement impératif sont plus difficiles à éteindre que celles installées par un renforcement de faible valeur.

2. Les réponses maintenues par renforcement intermittent sont très résistantes à l'extinction.

3. Les réponses maintenues par renforcement différé sont très résistantes à l'extinction.

Loi de la généralisation


Une réponse à un certain stimulus apparaît aussi suite à un stimulus similaire, mais non identique
.

Un chien peut apprendre à répondre correctement au commandement « Assis ! », que celui-ci soit donné à voix normale, soit chuchoté ou provienne d'une autre personne que son maître.

On peut apprendre à des pigeons à picorer un disque de matière plastique transparente suite à la présentation d'une image représentant un être humain, enfant ou adulte, assis, debout ou couché, habillé ou non, vu en totalité ou en partie, ...

La loi de la généralisation est identique à celle énoncée en conditionnement classique.


Cela présente une valeur adaptative car la plupart des stimuli rencontrés dans la nature, en particulier les stimuli présentant un danger, ne sont pas rigoureusement constants.

Du point de vue mémoriel, l'apprentissage est rapide car il a été déjà effectué avec des stimuli approchants : on parle de transfert.

Loi de la discrimination


Une RC à un certain stimulus n'apparaît pas suite à un stimulus similaire mais non identique .

Un chien de défense apprend à répondre aux ordres verbaux de son conducteur et à ne pas répondre à des ordres identiques émis par d'autres personnes.

Un chien apprend à aboyer quand la sonnette de la porte retentit et à ne pas aboyer lorsqu'il s'agit de la sonnerie du téléphone, parce que, dans le premier cas, une personne étrangère est proche de la maison.

Un chien se couche sur un vieux fauteuil usé situé dans le coin de la cuisine. Il y trouve confort et chaleur : son maître ne réagit pas quand il y est.

  • Par contre, lorsqu'il monte sur un autre siège de la maison, le propriétaire dit « Non ! » et le pousse sans ménagement.
  • Par discrimination, le chien apprend à ne plus monter que sur le vieux fauteuil qui lui est réservé.

Un pigeon apprend à picorer un disque quand ce dernier est illuminé par une lumière dont la longueur d'onde est de 550 mµ.

  • Il répond aussi, par généralisation, si la longueur d'onde est de 545 ou de 555 mµ
  • Si on administre un stimulus aversif lorsque le disque est éclairé par une lumière dont la longueur d'onde est de 555 mµ, il ne répondra plus à cette dernière longueur d'onde ni à celles qui lui sont supérieures mais il répondra encore aux longueurs d'onde de 550 mµ et inférieures.

La loi de la discrimination est semblable à celle énoncée en conditionnement classique.


Si la généralisation permet une meilleure adaptation du comportement appris en assouplissant les stimuli, la discrimination limite cet assouplissement.

  • Les deux phénomènes sont donc contradictoires, mais aussi complémentaires dans leur fonction adaptatrice.
  • Il est en effet important qu'un animal puisse faire la distinction entre les stimuli qui sont suivis d'événements biologiquement significatifs et ceux qui ne le sont pas.

Le phénomène de discrimination est un outil précieux utilisé pour étudier les aptitudes des organes des sens des animaux.

ApprentissageDifférentes formes d'apprentissageConditionnement classique
Conditionnement opérantLois du CORenforcementsPunitionsDangers
HabituationSensibilisationImprégnationApprentissage par imitation
Apprentissage par observationApprentissage latentApprentissage par intuition
Apprentissages complexes

Bibliographie
  • Giffroy J.M. (Prof. Université de Namur, Belgique) - L'apprentissage et ses applications - 3ème cycle professionnel des écoles nationales vétérinaires, Toulouse, 2000