Pour définir le terme de renforcement positif, il nous faut d'abord définir celui de stimulus appétitif.
Un stimulus appétitif est une stimulation
plaisante, agréable, désirable qui tend à la satisfaction.
Le stimulus appétitif est un stimulus dont l'animal veut se rapprocher ou qui provoque des sensations ou des réponses de bien-être.
La solution la plus couramment utilisée
est la nourriture.
Un rat apprend plus vite à pousser sur un levier s'il reçoit cinq grammes de nourriture à chaque bonne réponse que s'il ne reçoit qu'un gramme.
Un rat court plus vite dans un labyrinthe s'il reçoit de l'eau saturée en glucose que de l'eau pure. Le même phénomène se produit s'il reçoit de la viande fraîche au lieu d'un plat d'aliment industriel.
Un renforcement positif est un stimulus
appétitif qui apparaît suite à l'exécution d'une
réponse, entraînant une augmentation de l'intensité,
de la fréquence ou de la probabilité d'apparition de cette
réponse.
Un renforcement positif apporte de la satisfaction à l'animal (loi de l'effet).
Le terme positif, valable pour les renforcements et les punitions, indique l'apport du stimulus (le terme négatif le retrait) et n'a donc rien à voir avec son action agréable ou désagréable sur l'animal.
Le terme " renforcement " est plus adéquat
que le terme de " récompense " qui fait plutôt
référence à un stimulus considéré - parfois
à tort - par la personne qui le donne, comme satisfaisant pour l'animal.
Le renforcement positif peut être :
Le renforcement positif secondaire est préférable
car il est plus commode à utiliser et s'atténue (ou s'estompe, - en anglais,
fading -) moins rapidement
ou pas du tout.
L'apprentissage par renforcement négatif est plus rapidement installé et plus résistant
à l'extinction
qu'un apprentissage par renforcement positif.
Au laboratoire comme dans la pratique, c'est cet apprentissage qui est le plus utilisé.
Les récompenses (renforcements positifs)
permettent de mettre en place des comportements.
On peut différencier deux formes de renforcement.
Burrhus
Frédéric Skinner (1904-1990) a démontré
que le programme de renforcement intermittent, une fois qu'il est installé,
provoque un apprentissage plus résistant à l'extinction
que le programme par renforcement continu.
Dans la nature, le renforcement, comme la punition d'ailleurs, n'apparait pas toujours.
C'est le programme le plus simple : chaque réponse est renforcée.
Il est basé sur la loi de la contiguïté temporelle.
Les différents programmes de renforcement intermittent peuvent être définis selon deux types de critères :
Ce sont les programmes à proportion de réponses,
la proportion pouvant être constante ou variable.
Ce sont les programmes à composante temporelle, l'intervalle pouvant être constant ou variable.
Expérimentalement, le procédé est le suivant :
De nombreux autres programmes existent, dont un seul sera étudié, le programme de renforcement différentiel du débit lent des réponses.
On renforce toutes les 3 réponses
correctes, ou toutes les 5 ou toutes les 10... réponses correctes
(FR3, FR5, FR10...).
L'animal continue à répondre
un grand nombre de fois en plus à chaque séance.
L'administration du renforcement est parfois suivie d'une pause : cette pause est d'autant plus longue que la proportion est grande.
La proportion des réponses correctes
renforcées n'est pas toujours exactement la même : on renforce
environ ou en moyenne toutes les 3 ou toutes les 5 ou toutes les 10... réponses
(VR3, VR5, VR10...).
Le nombre des réponses nécessaires pour obtenir un renforcement varie au hasard entre certaines limites autour d'une moyenne (3, 5 ou 10...).
Un joueur, qui introduit des pièces de monnaie dans une machine à sous, gagne de temps en temps : il est renforcé selon un programme à proportion variable. Il en va de même pour tous les jeux de hasard.
Ce type de programme permet d'obtenir un débit de réponse
encore plus rapide que le programme à proprtion constante.
C'est le mode de programme qui, selon certains auteurs, est à recommander
pour la pratique habituelle de l'apprentissage chez les carnivores domestiques :
au cours de la séance, le maître renforce sporadiquement les
comportements corrects par quelques friandises ou par des félicitations.
C'est aussi par ce genre de programme que, inconsciemment,
certaines personnes installent des réponses apprises non souhaitables,
ce que les vétérinaires comportementalistes appellent des
renforcements involontaires.
Elles sont d'autant plus difficiles à éteindre que la VR est élevée.
Supprimer par extinction
ces réponses ainsi apprises demande qu'elles soient effectuées
des centaines ou des milliers de fois sans être renforcées.
On renforce la première réponse émise après
qu'un temps déterminé s'est écoulé entre cette
réponse et la réponse renforcée précédente.
Les animaux qui sont conditionnés selon ce type de programme ne commencent à répondre qu'à la fin de l'intervalle de temps. Une réponse renforcée est suivie d'une période sans réponse appelée pause post-renforcement.
Le débit est moins rapide que dans les programmes à
proportion de réponses.
Si on ne renforce plus, les pauses s'allongent et les périodes où les réponses sont fréquentes raccourcissent.
Le chien qui, à 06 h 55, se dirige vers son maître et s'assied est nourri (renforcé) toutes les 24 heures (à 07 h 00) selon un programme à intervalle fixe.
La personne qui, tous les matins à la même heure, regarde dans sa boîte aux lettres pour voir s'il y a du courrier agit de même.
Il s'agit d'un programme identique au précédent
sauf en ce qui concerne l'exactitude de la durée du délai.
Ce type de programme entraîne un débit de réponses plus
élevé que le précédent.
On n'observe pas de pause après l'administration du renforcement.
Si on supprime le renforcement, l'extinction s'établit sans apparition de pauses.
On a vu qu'un chien peut apprendre à aboyer un grand nombre de fois (VR) pour recevoir de la nourriture quand son maître est à table par un programme de renforcement intermittent à proportion variable. Il peut aussi apprendre à aboyer pendant une longue durée (VI) pour obtenir ce renforcement par un programme de renforcement intermittent à intervalle variable.
La personne qui essaye d'atteindre quelqu'un par téléphone est sur programme à intervalle variable lorsque la ligne de son correspondant est occupée.
Il ne faut pas confondre le renforcement intermittent à
intervalle fixe ou variable avec le renforcement
différé.
La réponse est renforcée
lorsqu'un délai déterminé la sépare de la réponse
immédiatement précédente. Toute réponse renforcée
ou non initiant un nouveau délai.
A l'encontre du programme de renforcement intermittent à intervalle fixe où l'animal peut, sans conséquences répondre pendant le délai, dans le programme DRL, toute réponse produite avant l'expiration du délai initie un nouveau délai.
Un pigeon qui picore un disque coloré selon un programme DRL 1 minute, doit s'abstenir de toucher le disque pendant une minute après le coup de bec précédent.
Ce type de programme est utilisé :
ApprentissageDifférentes
formes d'apprentissageConditionnement
classique
Conditionnement
opérantLois du CORenforcementsRenforcements positifs
Renforcements négatifsRenforcements involontairesPunitionsDangers
HabituationSensibilisationImprégnationApprentissage par imitation
Apprentissage par observationApprentissage
latentApprentissage
par intuition
Apprentissages complexes