Accueil

Glossaire

Comportement du chien
et du chat, biologie, neurosciences

Renforcements positifs
Définitions et programmes de renforcement

Citation

« Une expérience bien faite est toujours positive. »

Léon Daudet

Sommaire

Bibliographie

Définitions

Pour définir le terme de renforcement positif, il nous faut d'abord définir celui de stimulus appétitif.

Stimulus appétitif

Un stimulus appétitif est une stimulation plaisante, agréable, désirable qui tend à la satisfaction.

Le stimulus appétitif est un stimulus dont l'animal veut se rapprocher ou qui provoque des sensations ou des réponses de bien-être.

Le stimulus appétitif est l'opposé du stimulus aversif.
Le stimulus appétitif sert également dans la punition négative.

La solution la plus couramment utilisée est la nourriture.

Un rat apprend plus vite à pousser sur un levier s'il reçoit cinq grammes de nourriture à chaque bonne réponse que s'il ne reçoit qu'un gramme.

Un rat court plus vite dans un labyrinthe s'il reçoit de l'eau saturée en glucose que de l'eau pure. Le même phénomène se produit s'il reçoit de la viande fraîche au lieu d'un plat d'aliment industriel.

Renforcement positif

Un renforcement positif est un stimulus appétitif qui apparaît suite à l'exécution d'une réponse, entraînant une augmentation de l'intensité, de la fréquence ou de la probabilité d'apparition de cette réponse.

Un renforcement positif apporte de la satisfaction à l'animal (loi de l'effet).

Le terme positif, valable pour les renforcements et les punitions, indique l'apport du stimulus (le terme négatif le retrait) et n'a donc rien à voir avec son action agréable ou désagréable sur l'animal.

Le terme " renforcement " est plus adéquat que le terme de " récompense " qui fait plutôt référence à un stimulus considéré - parfois à tort - par la personne qui le donne, comme satisfaisant pour l'animal.

Le renforcement positif peut être :

primaire, c'est-à-dire appétitif d'emblée (friandise, caresse...),
secondaire, c'est-à-dire devenu appétitif par conditionnement classique (félicitations...).

Le renforcement positif secondaire est préférable car il est plus commode à utiliser et s'atténue (ou s'estompe, - en anglais, fading -) moins rapidement ou pas du tout.

L'apprentissage par renforcement négatif est plus rapidement installé et plus résistant à l'extinction qu'un apprentissage par renforcement positif.

Au laboratoire comme dans la pratique, c'est cet apprentissage qui est le plus utilisé.

Programmes de renforcement

Les récompenses (renforcements positifs) permettent de mettre en place des comportements.

On peut différencier deux formes de renforcement.

Le renforcement est dit continu si on récompense toutes les bonnes réponses que l'animal exécute.
Le renforcement est dit intermittent si on ne récompense qu'un certain nombre de réponses.

Burrhus Frédéric Skinner (1904-1990) a démontré que le programme de renforcement intermittent, une fois qu'il est installé, provoque un apprentissage plus résistant à l'extinction que le programme par renforcement continu.

Dans la nature, le renforcement, comme la punition d'ailleurs, n'apparait pas toujours.

Du point de vue expérimental, c'est surtout le renforcement qui a été étudié à cet égard.
En laboratoire, de nombreux types de programmes ont été élaborés : on a observé leurs effets sur l'acquisition, sur le maintien et sur l'extinction des comportements appris.

Programme de renforcement continu

C'est le programme le plus simple : chaque réponse est renforcée.

Il est basé sur la loi de la contiguïté temporelle.

Pour l'installation d'une réponse, le renforcement immédiat permet un apprentissage facile et rapide.
Pour le maintien de la réponse, un délai peut s'écouler entre la réponse et le renforcement : on parle de renforcement différé.

Programme de renforcement intermittent

Les différents programmes de renforcement intermittent peuvent être définis selon deux types de critères :

le nombre de réponses ; dans ce premier cas, c'est le nombre de réponses renforcées par rapport au nombre total de réponses émises qui entre en jeu : il s'agit donc d'une proportion, d'un rapport.

Ce sont les programmes à proportion de réponses, la proportion pouvant être constante ou variable.

le temps qui s'écoule entre deux réponses renforcées ; dans le second cas, c'est le temps qui s'écoule entre une réponse renforcée et la réponse renforcée suivante qui entre en jeu : il s'agit donc d'un délai, d'un intervalle.

Ce sont les programmes à composante temporelle, l'intervalle pouvant être constant ou variable.

Expérimentalement, le procédé est le suivant :

la réponse est installée en utilisant le renforcement continu ;
ensuite, on passe à un renforcement intermittent, mais de façon progressive, de telle sorte que l'extinction ne se produise pas.

De nombreux autres programmes existent, dont un seul sera étudié, le programme de renforcement différentiel du débit lent des réponses.

Programme à proportion de réponses

Programme à proportion constante (FR : fixed ratio ou PF : proportion fixe)

On renforce toutes les 3 réponses correctes, ou toutes les 5 ou toutes les 10... réponses correctes (FR3, FR5, FR10...).

Le rapport entre le nombre total de réponses et le nombre de réponses renforcées reste constant.
A condition de procéder progressivement en commençant par des proportions faibles, il est possible d'atteindre des proportions très élevées.

L'animal continue à répondre un grand nombre de fois en plus à chaque séance.

Plus rapidement l'animal répond, plus il reçoit de renforcements dans le même laps de temps.
Il apprend, par ce type de programme, à répondre vite car, il est " payé à la pièce ".

L'administration du renforcement est parfois suivie d'une pause : cette pause est d'autant plus longue que la proportion est grande.

De plus, on constate que la réponse est d'autant plus résistante à l'extinction que la proportion est grande (FR50, FR100, ...).
Si on cesse de renforcer, la durée des pauses s'allonge et la fréquence des réponses diminue jusqu'à l'extinction.

Programme à proportion variable (VR : variable ratio ou PV : proportion variable)

La proportion des réponses correctes renforcées n'est pas toujours exactement la même : on renforce environ ou en moyenne toutes les 3 ou toutes les 5 ou toutes les 10... réponses (VR3, VR5, VR10...).

Le nombre des réponses nécessaires pour obtenir un renforcement varie au hasard entre certaines limites autour d'une moyenne (3, 5 ou 10...).

Un joueur, qui introduit des pièces de monnaie dans une machine à sous, gagne de temps en temps : il est renforcé selon un programme à proportion variable. Il en va de même pour tous les jeux de hasard.

Ce type de programme permet d'obtenir un débit de réponse encore plus rapide que le programme à proprtion constante.

Comme un représentant de commerce dont le démarchage n'est pas suivi par des ventes régulières, le sujet est " payé à la commission ".
Contrairement au programme à proportion fixe, on n'observe pas de pause - ou de très courtes pauses - après l'arrivée du renforcement.

C'est le mode de programme qui, selon certains auteurs, est à recommander pour la pratique habituelle de l'apprentissage chez les carnivores domestiques : au cours de la séance, le maître renforce sporadiquement les comportements corrects par quelques friandises ou par des félicitations.

C'est aussi par ce genre de programme que, inconsciemment, certaines personnes installent des réponses apprises non souhaitables, ce que les vétérinaires comportementalistes appellent des renforcements involontaires.

Elles sont d'autant plus difficiles à éteindre que la VR est élevée.

Supprimer par extinction ces réponses ainsi apprises demande qu'elles soient effectuées des centaines ou des milliers de fois sans être renforcées.

Programme à composante temporelle

Programme à intervalle fixe (FI : fixed interval ou IF : intervalle fixe)

On renforce la première réponse émise après qu'un temps déterminé s'est écoulé entre cette réponse et la réponse renforcée précédente.

L'animal peut répondre tout au long de l'intervalle, mais les réponses effectuées dans l'intervalle ne sont pas renforcées.
La durée du délai est constante : elle est de l'ordre de 2, 5, 10, 30, 60, ... secondes, (FI2, FI5, FI10, FI30, FI60, ...). On peut l'augmenter progressivement.

Les animaux qui sont conditionnés selon ce type de programme ne commencent à répondre qu'à la fin de l'intervalle de temps. Une réponse renforcée est suivie d'une période sans réponse appelée pause post-renforcement.

Tout se passe comme si l'animal évitait les réponses superflues et pouvait estimer le temps de telle sorte que seules les réponses susceptibles d'être renforcées apparaissent - une seule réponse suffit, d'ailleurs -, c'est-à-dire, celles qui sont émises juste à la fin de l'intervalle.
Cela atteste l'existence d'une horloge interne chez l'animal.

Le débit est moins rapide que dans les programmes à proportion de réponses.

Si on ne renforce plus, les pauses s'allongent et les périodes où les réponses sont fréquentes raccourcissent.

Le chien qui, à 06 h 55, se dirige vers son maître et s'assied est nourri (renforcé) toutes les 24 heures (à 07 h 00) selon un programme à intervalle fixe.

La personne qui, tous les matins à la même heure, regarde dans sa boîte aux lettres pour voir s'il y a du courrier agit de même.

Programme à intervalle variable (VI : variable interval ou IV : intervalle variable)

Il s'agit d'un programme identique au précédent sauf en ce qui concerne l'exactitude de la durée du délai.

Ce délai varie au hasard autour d'une moyenne. L'écoulement du délai est la condition pour qu'une réponse soit renforcée.
Le délai est, en moyenne, de 5, 10, 15, 20... secondes (VI5, VI10, VI15, VI20...).

Ce type de programme entraîne un débit de réponses plus élevé que le précédent.

On n'observe pas de pause après l'administration du renforcement.

Si on supprime le renforcement, l'extinction s'établit sans apparition de pauses.

On a vu qu'un chien peut apprendre à aboyer un grand nombre de fois (VR) pour recevoir de la nourriture quand son maître est à table par un programme de renforcement intermittent à proportion variable. Il peut aussi apprendre à aboyer pendant une longue durée (VI) pour obtenir ce renforcement par un programme de renforcement intermittent à intervalle variable.

La personne qui essaye d'atteindre quelqu'un par téléphone est sur programme à intervalle variable lorsque la ligne de son correspondant est occupée.

Il ne faut pas confondre le renforcement intermittent à intervalle fixe ou variable avec le renforcement différé.

Programme de renforcement différentiel du débit lent des réponses (DRL: differential renforcement of low rates of responses ou RDL : renforcement du débit lent)

La réponse est renforcée lorsqu'un délai déterminé la sépare de la réponse immédiatement précédente. Toute réponse renforcée ou non initiant un nouveau délai.

A l'encontre du programme de renforcement intermittent à intervalle fixe où l'animal peut, sans conséquences répondre pendant le délai, dans le programme DRL, toute réponse produite avant l'expiration du délai initie un nouveau délai.

L'intervalle n'est pas calculé à partir du dernier renforcement mais à partir de la dernière réponse renforcée ou non renforcée.
Quand les animaux font des erreurs, cela se produit généralement sous la forme de réponses apparaissant
- soit un peu avant la fin du délai,
- soit juste après l'obtention du renforcement.

Un pigeon qui picore un disque coloré selon un programme DRL 1 minute, doit s'abstenir de toucher le disque pendant une minute après le coup de bec précédent.

Ce type de programme est utilisé :

principalement dans l'étude de l'estimation des durées par les animaux ;
dans la mise en place expérimentale d'une situation de frustration chez l'animal ;
dans l'estimation des effets de l'utilisation des psychotropes.

Installation d'un conditionnement opérant

Apprentissage Différentes formes d'apprentissage Conditionnement classique
Conditionnement opérant Lois du CO RenforcementsRenforcements positifs
Renforcements négatifs Renforcements involontaires Punitions Dangers
Habituation Sensibilisation Imprégnation Apprentissage par imitation
Apprentissage par observation Apprentissage latent Apprentissage par intuition
Apprentissages complexes