Casino et frustration
#Animaux #ClickerTraining Le renforcement aléatoire est-il une bonne technique pour récompenser moins souvent (voir se passer de nourriture ?) dans le travail au clicker ?
Introduction : madame carotte
À mes tous débuts avec Néli, on est allé en stage chez Frédéric Pignon. Quelques chevaux avant nous, il y avait une dame qui avait tout le kit la Cense dont un stick orange, et une sacoche avec des carottes. Son petit cheval n'était pas très bien éduqué et ne faisait pas trop ce qu'elle demandait. Frédéric Pignon s'est moqué d'elle en l'appelant « madame carotte » et en l'humiliant devant le public d'auditeurs·trices du stage. J'utilisais quelques carottes moi aussi à l'époque, j'étais ultra inquiète de comment ça allait se passer pour moi ensuite. (spoiler : ça ne s'est pas bien passé non plus, mais au moins, je n'ai pas sorti de friandises et n'est pas subi cette humiliation).
Dans le monde du cheval, travailler avec des carottes, c'est mal. En tous cas, c'était largement le cas il y a 20 ans, et c'est toujours le cas aujourd'hui avec de nombreux professionnel·les.
C'est naze d'acheter ton cheval avec de la nourriture.
C'est un truc de nana sentimentale qui ne sait pas créer une relation avec son cheval parce qu'elle n'a pas le charisme des hommes-centaures.
Et puis l'autre argument contre la récompense, c'est :
Mais tu feras comment t'auras plus de friandises hein ? T'auras l'air bien bête avec ton cheval qui fera rien.
Alors du coup, quand on a commencé le clicker, on s'est toutes demandé :
On va faire comment ensuite pour se passer de la nourriture ?
Le renforcement aléatoire et le casino
À l'époque, je me souviens que la réponse était dans le renforcement aléatoire, avec l'analogie du casino.
Le casino, ou le mari violent
On trouve souvent deux situations pour expliquer le fonctionnement du renforcement aléatoire : le casino, ou le mari violent.
L'idée du casino, c'est de penser à une machine à sous. Tu viens, tu mets 3 sous, et bingo, tu reçois le double de ta mise. Grosse joie. Tu recommences, tu ne gagnes pas. Tu recommences : bam tu gagnes, et un peu plus que la première fois ! Alors tu continues à jouer avec de plus en plus d'intensité. Tu appuies plus fort sur les boutons, tu continues à jouer alors que ça fait 6 fois que tu ne gagnes pas et que tu as perdu tout ce que tu avais gagné. Et tu joues encore. La machine t'a dressé à jouer, et elle n'a même plus besoin de te donner de la nourriture (de l'argent) pour que tu continues.
Le mari violent, c'est un peu différent. Un mari violent ne séduit pas en étant violent et désagréable. Non, au début il est aimant et attentionné. Et puis petit à petit, les compliments et les attentions sont moins fréquentes, et les piques et les méchancetés font leur apparition. Et puis les piques deviennent des colères, des journées où le mari fait la tête, des humiliations, et puis, une fois de temps en temps, le mari redevient dou et aimant, il s'excuse et offre des cadeaux. Sa femme ne sait jamais si en rentrant elle va trouver un mari désagréable ou aimant, mais elle reste. Cyniquement, on pourrait dire qu'elle a besoin de moins en moins d'amour et de positif dans la relation pour rester.
Le renforcement aléatoire des pigeons
L'analogie au clicker est une expérience réalisée par les psychologues quand iels travaillaient sur les lois de l'apprentissage. On mettait un pigeon dans une cage qui devait appuyer sur un levier pour faire tomber une récompense alimentaire. Un jour, la friandise ne tombe pas. Et, au lieu de se décourager tout de suite et d'aller vivre sa vie de pigeon à l'autre bout de la cage, le pigeon s'énerve et appuie plusieurs fois d'affilée sur le levier. Les psychologues se sont rendu compte que une fois le comportement acquis, quand la récompense tombait aléatoirement, l'animal continuait à produire le comportement qui était récompensé aléatoirement. Et il le faisait avec plus d'intensité.
Le renforcement aléatoire dans l'entrainement en renforcement positif
La technique du renforcement aléatoire est donc devenue un mythe à atteindre quand on travaille son animal en R+. L'idée est de passer du renforcement systématique d'un comportement à un renforcement aléatoire pour que l'animal ne sache pas prédire quand il aura, ou pas, la récompense. Du coup, on (au moins moi) se disait :
Si je suis forte, je vais réussir à passer la plupart des comportements que je lui ai enseignés en renforcement aléatoire, et j'aurais besoin de beaucoup moins de récompenses.
J'ai beaucoup culpabilisé de ne pas réussir à passer plein de comportements en vrai renforcement aléatoire. Je me rappelle me faire la réflexion à chaque montoir avec Néli (chose qu'elle faisait en plus super bien. Mais ça me coutait un morceau de sucre ou une rondelle de carotte à chaque fois).
Le faux renforcement aléatoire
Pendant des années, j'ai essayé de diminuer le nombre de récompenses que je donnais. Pour certains comportements faciles pour Néli ou Amalhia, j'ai pu arrêter de récompenser. Par exemple, je ne récompense plus la mise du licol pour Néli, ou bien le fait de donner ses pieds. Pour Amalhia, on est plus fortes sur le travail à cheval. Je ne récompense plus aucune transition montante, mais je continue à récompenser pas mal de transitions descendantes ou de jolies attitudes dans le travail.
Mais pour la plupart des comportements, je fais ce que le monde du chien en éducation positive on appelle du « tradi-bonbon » (à prononcer avec un ton totalement condescendant). Je demande un comportement, par exemple « donne ton pied », si la jument ne donne pas, je vais tapoter sur la jambe et l'emmerder un peu, quand elle donne je le prends, si elle cherche à le retirer, je le retiens, et quand elle est détendue et que c'est vraiment super, je clique et je donne un bonbon. Si c'est juste OK, je donne rien. Du coup, je réduis vachement le nombre de récompenses que je donne, le tour est joué !
La révélation
Exit le renforcement aléatoire
J'ai demandé à Ken Ramirez ce qu'il pensait du renforcement aléatoire lors du séminaire, car c'est une technique dont il ne parlait pas du tout (et c'était présent dans son (vieux) livre).
Ken Ramirez recommande de ne pas utiliser le renforcement aléatoire car ça génère beaucoup de frustration chez l'animal et que ça n'est pas une technique juste.
Il a repris l'exemple du distributeur de nourriture qui est bloqué alors que d'habitude il donne systématiquement un gâteau quand on lui donne 2 euros. Alors oui, on continue à appuyer sur le bouton pour avoir le gâteau, mais pas franchement dans la décontraction et la bonne humeur 😬.
Et ça a été une révélation pour moi. Je galère à obtenir des juments calmes, décontractées et joyeuses dans le travail au clicker, et j'utilise une méthode qui génère par construction énormément de frustration ??
Alors on fait quoi ?
La première question à se poser il me semble, c'est :
Pourquoi on veut absolument se passer de nourriture ?
Que penserait-on d'un employeur qui voudrait que ses employés travaillent sans salaire ? Alors oui, mais peut être vous voulez une relation avec votre animal qui ne relève pas de la relation : employeur-employé.
- Certain·es rêvent peut être d'une relation comme entre deux ami·es, mais un ami ne me donne pas d'ordre et ne me dit pas ce que je dois faire.
- D'autres pensent peut être plutôt à une relation parent-enfant. Bon, il y a beaucoup de relations parent-enfant ou l'enfant obéit pour ne pas se faire engueuler, ou pour ne pas risquer qu'on ne l'aime plus, plutôt que par amour ou que sais-je.
En vrai, j'aime beaucoup cette question. Je me demande vraiment quelle est la nature des relations que l'on peut construire avec nos animaux.
Mais en réalité, à titre personnel, je n'ai aucun problème à donner de la nourriture toute la vie. J'ai aussi envie que mon animal soit content de me voir, et content de faire les trucs que je lui demande, et si je peux avoir ça avec des croquettes ou des carottes dans les poches, c'est ok pour moi !
Les stratégies pour diminuer la fréquence de renforcement alimentaire
J'ai l'impression qu'il y a deux stratégies qui vont réduire la fréquence du renforcement alimentaire.
Ken Ramirez nous a expliqué que dans un entraînement en renforcement positif, on devait tenir compte de deux aspects :
- L'animal doit être récompensé après chaque “clic” (et il faut prendre le point de vue de l'animal).
- L'animal a des attentes sur le type de récompense à donner en fonction du comportement qu'il vient de faire, et il ne faut pas décevoir ses attentes.
Entrainer de la durée
Quand on façonne un comportement, on va commencer par récompenser des choses très simples comme par exemple :
- Quand je te demande le pied, tu le soulèves un petit peu
Et progressivement, on va cliquer quand le mouvement sera plus rapide, ou avec davantage de durée. On va donc progressivement espacer les clics et diminuer la fréquence de nourrissage.
Je retiens vraiment de ce séminaire la distinction entre les comportements qui sont faciles pour l'animal et ceux qui sont plus difficiles. Avec le chien, la différence m'était très claire. J'ai d'ailleurs plusieurs types de récompenses :
- Les mini-croquettes du chat, pour les trucs super faciles
- Les croquettes mac do, pour les trucs qu'on travaille à la maison, ou les trucs simples en extérieur
- Les morceaux de saucisse ou de fromage, pour les trucs plus difficiles qu'on travaille dehors (comme la réactivité, ou la prédation).
Avec les chevaux, je ne me posais quasiment jamais cette question des comportements facile ou peu coûteux et de ceux qui coûtent davantage. Mais depuis le séminaire, ça a changé dans ma manière d'entrainer cf cet article :
Donc globalement, une manière de récompenser moins un comportement avec de la nourriture, c'est d'entrainer de la durée.
Les renforçateurs secondaires
La première demi-journée du séminaire avec Ken Ramirez était consacrée aux renforçateurs secondaires.
Comment entrainer des comportements qui pourront ensuite servir de temps en temps de récompense à d'autres comportements ?
Je ne vais pas résumer une demi-journée de formation en un paragraphe d'article de blog, mais j'ai retenu que :
- C'est un véritable travail, et ça prend plusieurs mois (au moins 5 ou 6) pour qu'un comportement ou un signal soit tellement associé à une récompense que l'on puisse l'utiliser pour récompenser un autre comportement.
- Il faut se méfier des renforçateurs tactiles comme les caresses ou les grattouilles : ces actions deviennent renforçantes au sein d'une relation entre le soigneur et l'animal. Mon chat apprécie mes grattouilles mais déteste celles des inconnus. Ken Ramirez recommande de toujours les entraîner comme des renforçateurs secondaires classiques.
- Il faut aussi se méfier des renforçateurs comme « la balle » ou un jouet. Ça marche, mais il faut bien comprendre qu'est-ce qui est renforçant pour l'animal : courir après la balle ? La mordiller ? Jouer à empêcher son maitre de l'attraper ? ...
Conclusion
Je veux assumer que mes animaux travaillent pour de la nourriture, et que ça n'est pas mon objectif que de me passer de nourriture.
L'autre idée intéressante de Ken Ramirez c'est de dire qu'on ne peut pas séparer les sessions d'entraînement du reste de la vie de l'animal : un animal apprend en permanence. Lui fait des sessions de travail avec une sacoche et un clicker. Au quotidien avec son chien, il a un clicker mais pas forcément de friandises dans sa poche. Par contre, il a des friandises qu'il peut rapidement aller chercher si besoin. Et par contre, il ne va jamais sortir son chien en ville sans ses « outils » au cas où : clicker, laisse et récompenses (si possible faible et haute valeur).