Comportement du chien
et du chat, biologie, neurosciences

Renforcements positifs
Installation d'un conditionnement opérant

Citation

« C'est parfois l'échec qui est le meilleur gage de succès… Nous sommes rarement en mesure de nous rendre compte à quel point le négatif sert à produire le positif, à quel point le mal engendre le bien. »

Henry Miller

Sommaire

Bibliographie

Le procédé qui découle logiquement de programmes de renforcement est celui de l'apprentissage par essais et des erreurs. Cet apprentissage est basé sur les renforcements positifs.

Il faut attendre que le sujet, à qui on veut apprendre une nouvelle réponse, la produise spontanément : on la renforce à ce moment.

Le conditionnement s'installe graduellement, en suivant une courbe typique.

Il faut cependant tenir compte du fait que, si certains comportements apparaissent fréquemment, d'autres ne se manifestent que rarement ou jamais.

Par niveau opérant, on entend la probabilité ou la fréquence d'un comportement existant avant toute forme d'apprentissage.

Un comportement dont le niveau opérant est élevé a plus de chances d'être produit spontanément et donc est plus facilement appris par essais et erreurs.
Un comportement dont le niveau opérant est faible est plus difficile à apprendre d'emblée. Pour ce faire, il est nécessaire d'avoir recours à d'autres procédés, tels :
- le shaping,
- l'auto-shaping,
- l'incitation.

Chez le chien, aboyer possède un niveau opérant plus élevé que se dresser sur les membres postérieurs.

Si l'objectif est d'installer une suite de réponses différentes, c'est la procédure en chaîne qui est indiquée.

Comportement à niveau opérant élevé

Mise en oeuvre

Les récompenses permettent de fixer les comportements de façon durable, mais non définitive !

Par exemple, l'éducation fera l'objet de rappel constant pour que les ordres soient exécutés correctement (loi de la répétition).

La récompense doit avoir lieu à la fin de la séquence comportementale, immédiatement après le signal d'arrêt (loi de la contiguïté temporelle).

Lorsqu'on donne l'ordre « Assis ! », le chien doit être récompensé aussitôt après s'être assis.

Pour rendre un chien propre, on doit le récompenser immédiatement après qu'il est fini ses besoins.

Cette récompense motive le chien et augmente l'évocabilité des consignes qui régissent les comportements.

L'installation de la réponse se fait habituellement grâce à un programme continu apporté sans délai (renforcement immédiat).

Pendant la phase d'apprentissage, le bon comportement doit être systématiquement récompensé.

Son maintien est plutôt assuré par un programme intermittent (Marder & Reid, 1996) ou, éventuellement, un renforcement différé.

Puis, quand l'installation du comportement est acquise, on récompense de manière aléatoire, ce qui permet au chien de maintenir une bonne motivation.

Le renforcement positif peut être :

primaire, c'est-à-dire appétitif d'emblée (friandise, caresse...),
secondaire, c'est-à-dire devenu appétitif par apprentissage (félicitations...).

Le renforcement positif secondaire est préférable car il est plus commode à utiliser et s'atténue (ou s'estompe, - en anglais, fading -) moins rapidement ou pas du tout.

Indications

Le renforcement positif est indiqué dans l'installation de la plupart des comportements :

l'éducation, pour une relation homme-animal de compagnie harmonieuse ;
les dressages spécialisés ;
l'apprentissage des réponses incompatibles, mises en place dans le contre-conditionnement (ou déconditionnement) ou dans le cadre de la suppression de comportements gênants.

Se coucher dans le panier est incompatible avec aboyer quand on sonne à la porte ou quand le téléphone sonne.

Le chien coprophage qui mange ses propres matières fécales ne le fera plus si on lui donne de la nourriture immédiatement après la défécation.

Comportement à niveau opérant faible

Le shaping, l'auto-shaping, l'incitation et la procédure en chaîne peuvent être utilisés afin d'installer des réponses complexes ou dont le niveau opérant est faible.

Il est possible de provoquer une augmentation progressive des performances de l'animal en modulant l'intensité du renforcement.

L'éducateur donne une récompense de plus en plus intense au fur et à mesure que son élève se rapproche de la réponse idéale.
Il en résulte effectivement un " guidage " de l'animal vers l'objectif éducatif, au moyen d'un gradient de satisfaction.

Shaping

Le shaping ou façonnement est une technique par laquelle on apprend un comportement particulier en renforçant des approximations successives de ce comportement.

Les comportements appris, ainsi " façonnés " ou " modelés “ (to shape en anglais), peuvent être très complexes et très différents, par leur forme ou par leur intensité, des mouvements habituels figurant au répertoire de l'espèce considérée.

La pratique du shaping implique d'abord de définir clairement la réponse finale désirée et d'en déterminer les différents constituants élémentaires.

Ensuite, on renforce la première approximation que l'animal produit, généralement par hasard.
Quand il effectue une meilleure approximation, on renforce cette dernière en cessant de renforcer l'approximation précédente, moins parfaite, et ainsi de suite jusqu'à la réponse finale.

Le shaping tire parti de la variabilité naturelle du comportement : il suppose la présence d'un certain nombre de réponses dans le répertoire comportemental à partir desquelles une réponse jusqu'alors inexistante peut être obtenue.

Le shaping est une méthode lente et fastidieuse. Elle est pourtant souvent la seule à être efficace notamment chez les animaux :

qui interagissent difficilement avec l'homme parce qu'ils le craignent (rats, pigeons),
qui évoluent dans un environnement différent (dauphins).

Mauvais apprentissage de la propreté Chez le chiot, l'éducation à la propreté peut avoir recours au shaping.

On place sur le sol de la pièce un grand nombre de journaux et on renforce chaque fois qu'il urine sur un journal.
On diminue progressivement le nombre des journaux en renforçant toujours chaque fois que l'animal urine dessus.
Finalement, il ne reste plus qu'un journal. On place ensuite le journal derrière la porte et on renforce quand le chien demande qu'un ouvre la porte et qu'il urine sur le journal.

Cette méthode est proscrit par les vétérinaires comportementalistes, car elle ne fait que compliquer l'apprentissage de la propreté. Non seulement, il faut apprendre au chien à faire ses besoins à l'extérieur, mais il faut, en plus, éteindre le comportement qui consiste à faire à l'intérieur

Pour apprendre à un chien à retenir ses défécations pendant la nuit ou en l'absence de ses maîtres, on allonge progressivement la durée séparant deux promenades de propreté successives.

Un chien a appris que, lorsqu'il aboie, ses propriétaires ouvrent la porte, ce qui lui permet de rentrer dans la maison.

Plus ses vocalisations sont sonores et graves, plus vite ils réagissent et donc plus vite il est renforcé.
Le chien va donc façonner ses aboiements pour obtenir le renforcement le plus rapidement.

Auto-shaping

Lors du shaping, la personne qui façonne la réponse décide donc si le renforcement est présenté ou non en fonction des progrès de l'animal.

Dans l'auto-shaping, ou autofaçonnement, les conditions environnementales sont arrangées de telle manière que l'animal apprend par lui-même.

Cette procédure a été mise en évidence par une expérience réalisée par Brown & Jenkins, au cours de laquelle, plutôt que d'apprendre par shaping à un pigeon à picorer un disque, cet oiseau a été mis dans des conditions telles qu'il a appris tout seul. Un pigeon est placé dans une cage de Skinner dont une paroi comprend un disque lumineux.

Toutes les minutes, le disque est illuminé pendant 10 secondes. A la fin de cette période d'éclairement, de la nourriture est présentée automatiquement. Durant les 50 secondes restantes, le disque est éteint. La nourriture survient quel que soit le comportement de l'oiseau.
Après quelques dizaines de présentations, on observe que le sujet se met à picorer le disque à la fin de la période d'éclairement. Le disque éclairé et la nourriture ont donc été associés par conditionnement classique, même s'il n'y a aucune corrélation entre la réponse conditionnelle (RC) de picorage et la présentation du stimulus inconditionnel (SI) que constitue la nourriture. La RC est produite parce que le stimulus conditionnel (SC) constitue un indice précurseur : ce dernier est localisable dans l'espace.
Le pigeon montre donc une tendance à se comporter avec le disque comme il se comporterait avec de la nourriture.

La tendance dont font preuve les animaux à se comporter envers un stimulus conditionnel (SC) comme ils se comporteraient avec un stimulus inconditionnel (SI), est le phénomène sur est basé lequel l'auto-shaping.

Rapport On désire à apprendre à un chien le rapport d'objet. Or, l'animal refuse de prendre en gueule l'apportable et, même, ne montre aucun intérêt pour cet objet.

Avant l'heure de son repas, il est systématiquement placé dans un petit enclos où se trouve une gamelle vide.
Toutes les minutes, on jette l'apportable dans l'enclos. Ensuite, on place un peu de nourriture dans la gamelle. Quoi que le chien fasse, ces deux événements se répètent de cette manière avec régularité deux fois par jour pendant un quart d'heure.
Après une semaine environ, on observe que le chien guette l'arrivée de l'apportable.
Plus tard, il l'approche dès qu'il est tombé. Ensuite, il le flaire et le lèche.
Enfin, il se met à le manipuler et le prend dans sa gueule.
La première phase de l'apprentissage du rapport d'objet a donc été installée par auto-shaping. Les phases suivantes pourront être acquises suivant d'autres méthodes.

Incitation (prompting)

L'acquisition d'un nouveau comportement peut aussi s'appuyer sur l'utilisation d'une incitation - en anglais, prompting -.

Cette incitation est une stimulation agissant sur l'animal pour que la réponse correcte ait plus de chances d'être produite et/ou pour que des réponses incorrectes aient moins de chances d'être effectuées.

L'incitation peut être gestuelle, visuelle ou verbale.

Elle peut également avoir recours à divers instruments, dispositifs ou outils (harnachement particulier du cheval, collier Halti chez le chien...).

Elle précède la réponse et joue aussi le rôle de stimulus discriminatif.

Au départ, elle peut être aversive et fonctionner alors comme renforcement négatif.
Elle est souvent utilisée en combinaison avec le shaping.

Pour apprendre à un chien à s'asseoir, on peut recourir à une incitation gestuelle en effectuant une poussée de la main sur sa croupe. Lorsqu'il est assis, on le renforce.

On peut aussi utiliser une incitation visuelle en lui présentant une friandise à la verticale de sa tête, ce qui pousse l'animal à s'asseoir pour pouvoir mieux la voir.

Lorsque la réponse est installée, elle doit devenir indépendante de l'incitation : on élimine progressivement celle-ci par atténuation.

Lorsqu'on désire apprendre à un chien à ne pas prendre un objet, on agite rapidement ce dernier devant lui, en disant « Laisse-le ! ». L'incitation est le mouvement conféré à l'objet qui, ainsi, ne peut être pris facilement par l'animal.

Dès que le chien s'en désintéresse et s'éloigne, il reçoit un stimulus appétitif.
L'incitation est ensuite graduellement éliminée.

Une méthode proposée pour apprendre à un chat qui urine n'importe où à éliminer dans son bac est la suivante.

On place partout sur le sol du local des feuilles de papier d'aluminium. Le chat est éclaboussé lorsqu'il urine dessus. Cela constitue pour lui un stimulus aversif impératif servant d'incitation.
Il urinera donc dans son bac, seul lieu dépourvu de feuilles d'aluminium. Une fois cet usage établi, la quantité des feuilles sera progressivement réduite dans le local - c'est l'atténuation - jusqu'à ce qu'il n'y en ait plus.

Procédure en chaîne

Pour apprendre une séquence constituée de plusieurs réponses différentes qui se succèdent toujours dans le même ordre, on utilise souvent la procédure en chaîne.

Dans ce procédé, les réponses s'enchaînent de telle sorte que chacune d'entre elles représente le signal (SD) déclenchant la suivante.

Chaque réponse est renforcée par l'opportunité de produire la réponse qui la suit, seule la dernière étant suivie par un renforcement positif.
Il est possible de commencer par installer le première réponse et de continuer ainsi jusqu'à la dernière.

La méthode la plus utilisée est cependant la méthode dite régressive qui consiste à commencer par l'installation de la dernière réponse, puis celle de l'avant-dernière et ainsi de suite.

Supposons la chaîne des réponses à installer R1, R2, R3 et R4.

On installe d'abord R4 en la faisant suivre par le renforcement primaire.
Ensuite, on installe R3 dont le renforcement consiste en la possibilité de produire R4 : R4 devient un renforcement secondaire pour R3 qui, elle, constitue un stimulus discriminatif pour R4.
On procède de la même manière pour R2 et enfin pour R1.

La procédure en chaîne peut être utilisée pour apprendre un chien à rester assis quand un visiteur arrive dans une maison.

On apprend d'abord à rester assis à cette place, puis à aller dans le fond d'une pièce, puis à aller à sa place, puis à le faire quand un visiteur entre dans la maison et enfin quand il sonne à la porte.
A chaque étape, le renforcement n'est accordé que quand le visiteur le touche.

La suite des divers comportements que le chien doit apprendre pour suivre un parcours d'agility est apprise par une procédure en chaîne.

Apprentissage Différentes formes d'apprentissage Conditionnement classique
Conditionnement opérant Lois du CO RenforcementsRenforcements positifs
Renforcements négatifs Renforcements involontaires Punitions Dangers
Habituation Sensibilisation Imprégnation Apprentissage par imitation
Apprentissage par observation Apprentissage latent Apprentissage par intuition
Apprentissages complexes