Belonen… daar komt meer bij kijken dan je denkt!
Wat is een beloning?
Een beloning kan alles zijn wat de hond leuk, lekker of veilig vindt. Wanneer de hond een beloning krijgt zal hij het vertoonde gedrag graag gaan herhalen. Wat voor jouw hond de grootste beloning is, zal je dan ook samen moeten gaan uitzoeken. Bedenk daarbij dat in een prikkelarme omgeving de hond zijn eigen voer best als beloning zal ervaren, maar het is zeer de vraag of dit ook nog het geval is in het trainingsveld met alle afleidingen. Ook kan, wat als beloning ervaren wordt, wisselen per context, of per leeftijd en fysiek/mentaal gestel.
Beloonschema’s
Het bekrachtigen/belonen van gedrag kan je doen volgens verschillende schema’s. Je kunt steeds bekrachtigen, dus elke keer dat het gewenste gedrag zich voordoet, een click-'woord’ (secundaire bekrachtiger) geven, gevolgd door de primaire bekrachtiging (brok, bal, spel enz.).
Je kunt gedrag ook zo nu en dan bekrachtigen, dus niet elke keer dat het gedrag vertoond wordt maar soms wel en soms niet. Vooral als een hond een oefening eenmaal beheerst, biedt dit vele voordelen.
Dit kan volgens verschillende schema’s: men kan volgens een tijdsschema bekrachtigen, en dat tijdsschema kan vast of variabel zijn. Bij een vast tijdsschema wordt bijvoorbeeld elke 4 seconden beloond, mits het gewenste gedrag gegeven wordt. Een variabel tijdsschema wil zeggen dat je gemiddeld elke 4 seconden beloond, dus de ene keer na 2 seconden, dan na 6 seconden, dan 10 seconden, dan na 4, 2 enz. enz. Daarnaast kun je volgens een ratioschema belonen, dus bijvoorbeeld elke 4de keer dat het gedrag vertoond wordt. Ook dit kan weer volgens een vast schema of variabel schema.
Bij het aanleren van nieuw gedrag beloon je continue. Eenmaal beheerst, ga je liever over zo nu en dan bekrachtigen, veel volgens een variabel ratio of tijd schema. Dit omdat gedrag dat aangeleerd is via zo-nu-en-dan-bekrachtigen/belonen veel minder gevoelig is voor uitdoving.
Uitdoven van aangeleerd gedrag
Uitdoving is het afnemen en uiteindelijk verdwijnen van gedrag, als het niet langer bekrachtigd/beloond wordt. Het gedrag levert de hond niets meer op, dus hij zal het uiteindelijk niet meer vertonen. Gedrag neemt immers alleen maar toe als het iets prettigs voor de hond oplevert, of als hij met zijn gedrag iets onplezierigs kan vermijden.
Uitdoving doet zich sneller voor bij schema’s van continue bekrachtigen dan bij zo-nu-en-dan belonen.
Dit wordt ook wel het gokkast-effect genoemd. De gokkast zal maar zo-nu-en-dan uitbetalen: je weet dat het een keer zal gebeuren, maar niet wanneer. Dat is precies de reden waarom gokken zo verslavend is, helemaal als je al weleens succes gehad hebt. Je weet van tevoren niet wanneer hij weer gaat uitbetalen, elke keer dat je er geld in gooit kan het gebeuren. Als je niets wint, blijf je toch doorgaan, want de volgende keer kun je wel succes hebben.
Een snoepautomaat werkt wel door middel van steeds belonen: elke keer dat je er geld in gooit, krijg je er snoep voor terug. Doet de machine dit een keer niet, dan zal je het hooguit nog een keer proberen en er weer geld in gooien, maar je blijft er niet mee doorgaan. Het gedrag van geld erin stoppen zal al heel snel uitdoven. Zoals ik in mijn vorige artikel heb beschreven, doofde bij Vidar het aangeleerde konijn-apport ook uit, nadat ik dit een jaar niet getrained en dus niet beloont had.. Om dezelfde reden blijf ik bijvoorbeeld ook een hondenleven lang de stop/zitfluit regelmatig belonen in het veld, maar ook blijf ik hem onderhouden - en interval belonen - tijdens de verschillende eet-/spelmomenten.
Uitdoof-frustratie
Iets wat je vaak ziet ontstaan voordat gedrag uitdooft, is zogenaamde uitdoof-frustratie. Stel, een hond vraagt om aandacht door steeds met zijn bal aan te komen en deze bij de voorjager voor de voeten te gooien. De voorjager reageert daar de ene keer wel op door a. toe te geven en met hem te gaan spelen, b. soms door te mopperen en c. soms niet, door geen aandacht aan het gedrag te schenken. Het gedrag is zo dus volgens een variabel schema bekrachtigd. De voorjager besluit toch van dit gedrag af te willen, en neemt zich voor er niet meer op te reageren om zo het gedrag te laten uitdoven. Doordat het gedrag soms wel en soms niet beloond is, is het vrij hardnekkig en laat het zich slecht uitdoven. De hond heeft immers geleerd vroeger of later, net als bij de gokkast, succes te krijgen.
De hond gaat dan ook steeds fanatieker en dwingender de bal voor de voeten gooien en begint er ook nog eens geluid bij te maken. Dit is uitdoof-frustratie.
De hond snapt niet dat het gedrag wat eerst zo goed en succesvol werkte om aandacht te krijgen, ineens niet meer werkt. Hij denkt dat hij harder zijn best moet doen, dus meer geluid maken, harder duwen, hoger gooien, want de voorjager wil vast meer van zijn gedrag zien.
Voor de voorjager is het dan erg verleidelijk toch weer toe te geven of te gaan mopperen en te denken dat je uitdoofpoging dus niet werkt. Terwijl het juist een teken is dat het gedrag op het punt van uitdoven staat. Nu toch weer in de oude gewoonte vervallen en toegeven betekent dat het ongewenste gedrag erger dan ooit op de C-schijf van de hond gebrand wordt!
Belooncriteria
Hou je belooncriteria scherp. Oftewel, wanneer de oefeningen eenmaal beheerst worden, click en beloon dan louter nog de snelle, of extra gretige, of extra nette varianten van het gevraagde gedrag of de gevraagde keten. Je bent niet boos op alle andere vormen van wat trager, slordiger, of later reageren, maar die leveren niet dezelfde beloning op als de betere uitvoeringen. Zo leert de hond dat wanneer de oefening eenmaal beheerst wordt, er wél voorwaarden aan de uitvoering van de oefeningen verbonden zijn om in aanmerking voor de beloning te komen.
Timing van belonen
De timing van de beloning is erg belangrijk. Wanneer we een bepaalde gedraging willen doen toenemen, zullen we dit gedrag binnen een seconde moeten bekrachtigen. In ieder geval moet het gebeuren voordat de hond alweer ander gedrag vertoond. De clicker/marker is hier een uitstekend middel voor, omdat je vaak wel binnen een seconde het gedrag kunt markeren. Met je click-’woord’ben je vaak net te laat met je daadwerkelijke beloning. Want hoe krijg je nou een koekje binnen een seconde bij de hond, wanneer de hond op 10 of 100 meter afstand een gewenst gedrag vertoont? Met marker/clicker training vertel je de hond dus perfect getimed om welk gedrag het gaat, en de daadwerkelijke beloning kan dan wat later gegeven/gebracht worden. De clicker/marker wordt om die reden ook wel de secundaire bekrachtiger of brugprikkel genoemd. En de daadwerkelijke beloning de primaire bekrachtiger.
Het is overigens wel belangrijk dat de primaire bekrachtiger de secundaire bekrachtiger niet overschaduwt. Dit betekent dat je het koekje pas geeft 1-3 seconde na het moment waarop je hebt geclicked voor bepaald gedrag. Wanneer dit eerder gebeurt zullen de hersenen van de hond niet goed opslaan voor welk gedrag de click nu werd gegeven, omdat ze al schakelen naar het lekkers/leuks. Het click-’woord’ moment moet dus goed getimed zijn, maar het daadwerkelijk geven van het koekje mag/moet meer tijd in beslag nemen. Bij een ervaren clicker-hond kunnen hier zelf meerdere seconden tot zelfs minuten tussen zitten. Ze weten immers waar de click voor was, en dat de afspraak van het krijgen van het voer/spel altijd wordt nagekomen.
Plek van belonen
Nadat de secundaire bekrachtiger (ofwel de click-’woord’) heeft verteld om welk gedrag het gaat, maakt het voor het vervolggedrag dat de hond zal gaan geven, wel degelijk uit waar de primaire beloning wordt gegeven. Dus, wil je bijvoorbeeld dat de hond uiteindelijk langer een target blijft aanraken, dan is het zaak dat de hond door een getimed click-’woord’ leert dat het gaat om het gedrag: met je neus of poot (afhankelijk van welk target je aanleert) tegen de hand aanzetten. Hij leert daar uiteindelijk ook langer te blijven door na de click telkens de daadwerkelijke beloning in/op het aan te raken target aan te bieden. Dit noemen we in positie belonen. Echter, wil je de hond ook leren snel naar het target toe te trekken, dan kies je ervoor om juist na de getimede click op het aanraken van de target, het voertje juist uit de positie weg te gooien. Bedenk dus altijd goed wat per fase je einddoel gaat zijn, en of je daarbij liever in of juist uit positie beloond. Een mooi verschil maak ik daarin bij het aanleren van de dirigeerlijn uit het A-diploma versus de uitstuur- en terugkomlijn uit het C-diploma. Bij beide lijnen click ik op het moment waarop ik de hond aangeef tevreden te zijn over de lengte/snelheid/rechtheid van de lijn. Echter, bij de A-variant breng ik na de click de beloning in positie: in het veld naar hem toe. Ja, zelfs ook nog steeds zo nu en dan in de beheersfase. Trainen is investeren, en aangeleerd gedrag moet je ook scherp blijven houden door het te blijven onder- en bijhouden. In deze A-variant wil ik immers niet dat hij gaat anticiperen, door hem steeds een beloning bij mij te laten halen (dus uit positie), op uit het veld naar mij inlopen. In de C-variant wil ik die anticipatie juist wel, immers daar is ook het einddoel: na het wegzenden weer zo snel mogelijk naar mij terugkomen. Uiteraard hebben staan beide lijnen ook op een ander commando. Of ik daarbij kies voor een actie- of voerbeloning, daar kom ik later op terug. Nog een mooi voorbeeld is dat ik voor een snelle recall dus eigenlijk altijd uit positie beloon en de beloning in dat geval achter me gooi of geef (soms langs me af, soms tussen mijn benen door) om daar mee de lengte van de lijn en snelheid naar mij toe extra te vergroten. Wil ik echter aan het einde van die recall ook nog de snelle en rechte ‘naast’ belonen, dan zal ik de beloning juist voor me uit gooien. Daarmee zal de hond de volgende keren nog sneller en rechter naast zal gaan zitten, doordat hij anticipeert op de plek van de uiteindelijke beloning. De variatie in de uitkomst van dezelfde oefening maakt dat de honden het leuk en verrassend blijven vinden. Dat houdt ze lekker gretig, en leert ze goed kijken naar wat jij met je lichaamstaal aangeeft, en leert ze goed luisteren naar wat met je verbale cue van ze vraagt. Dit geldt trouwens ook voor het variatie aanbrengen in de aanvang van je oefeningen!
Welke beloning?
Is alles wat de hond leuk of lekker vindt een geschikte beloning om mee te werken? Op zich zal alles wat de hond leuk of lekker vindt ervoor zorgen dat het door hem getoonde gedrag toeneemt. Toch is niet elke beloningsvorm altijd even handig. Dit zal per aan te leren oefening kunnen verschillen. Zo zijn kleine voerbeloningen verreweg het handigst als het gaat om reeksen die je achter elkaar door wilt clickeren/belonen. Kleine voerbeloningen kunnen ze namelijk doorslikken en meteen weer doorgaan. Een bal weg gooien in dezelfde setting is wat lastiger omdat je dan niet zo snel door kunt met je reeks. Deze bal kun je wel uitstekend inzetten als beloning voor je laatste of beste clickmoment. De zogenaamde ‘jackpot’. Naast het bepalen of soms iets minder of iets meer beloning handig is, is het ook goed om na te denken of je een actie of een passieve oefening aan het aanleren bent. Actie, zoals een snelle recall of een snel uitgaan naar je target, of een snelle reactie op de afstopfluit, beloon ik ook altijd graag met actie, daarbij is een bal gooien of het verdienen van een sjor/najaagspel na je clickmoment zeer geschikt. Wil je echter duur bekrachtigen in een stabiele rustige zit op post of in het veld, kies dan liever voor een wat passievere voerbeloning.
Welke beloning je ook kiest, een vereiste is dat de hond het als leuk of lekker moet ervaren. Besef dat wat de hond in een prikkelarme omgeving als lekker ervaart, misschien met veel afleiding om zich heen niet meer zo lekker is. Dus pas de leuk- of lekkerheid van een beloning ook aan op de moeilijkheidsgraad van de te leren oefening, of van de moeilijkheid van de context waarin je je bevindt. Zoals ik al in mijn vorige artikel schreef, vraagt najaaggedrag bijvoorbeeld om een andere concurrerende prikkel/beloning dan slechts een saai brokje bij een juist uitgevoerde recall. Waarbij aanleren van nieuw gedrag uiteraard in eerste instantie het liefst in een zo prikkelarm mogelijke context begint.
Heeft de hond geen enkele interesse in zijn beloning, vraag je dan af of je niet al te snel met teveel afleiding om je heen aan het werk bent gegaan. Of misschien heeft hij net voor je training zijn salaris al gratis en voor niks in zijn voerbak gekregen. Wanneer we een hond dagelijks heel veel willen aanlere,n is het een prima idee om de hond zijn salaris gedurende de dag te laten verdienen in plaats van gratis en voor niks in zijn bak te verschaffen. Veel honden vinden eten verdienen ook nog eens veel leuker dan hap-slik-weg uit een bak. Is teveel afleiding de oorzaak, probeer hier dan in kleinere stapjes naar toe te werken. Blijf dus onderdrempelig aan de afleidende prikkels en bijbehorende spanning, waardoor interesse in de extra lekkere of extra leuke beloning wel blijft bestaan.
Dit kan door bijvoorbeeld de afstand tot de afleiding te vergroten, of door niet gelijk van binnenshuis trainen naar de groepsles in de bossen te gaan. Maar probeer als tussenstappen bijvoorbeeld: de tuin, een voetbalveldje en het park te pakken. Of eerst samen met één hond, dan met 2, dan met 3 honden trainen, in plaats van in één keer overschakelen van alleen trainen naar een drukke groepsles. Sjor- of najaagspellen als beloning is vaak iets dat we onze honden moeten leren. Vaak wordt gedacht dat honden daar hard van in de bek worden. Ik, en vele wetenschappelijke onderzoeken delen deze mening niet. Hardheid in de bek ontstaat vaak juist door te veel spanning/stress, en daarbij vrijkomende hormonen worden dan graag gebruikt door het kauwen op voorwerpen als stressrelease, vergelijkbaar met het nagelbijten bij ons mensen. Om hardheid in de bek te voorkomen moeten we het dus zoeken in onderdrempelig te blijven aan die gemoedstoestand, en niet in het wel of niet belonen met sjorren (op overigens totaal andere voorwerpen dan het apport). Eigenlijk is sjorren daarmee juist een hele mooie stress release.
Waar komen mijn beloningen vandaan?
Leer de hond gelijk dat beloningen overal kunnen zijn, en dat dit niet betekent dat je deze uit eigen beweging kunt verkrijgen. Dus in jaszakken, heuptasjes maar ook in bakjes die naast je staan. Maak direct de afspraak dat beloningen uitsluitend verkrijgbaar zijn als gevolg van de click/marker voor het gewenste gedrag en nooit eerder. Voor veel honden is het nodig om te werken aan verschillende impulscontrole oefeningen om deze afspraak heel duidelijk te krijgen.
Uitsluitend wanneer we deze afspraak helder hebben met de hond, hoeft een lekkere of leuke beloning in zicht niet meer garant te staan voor het uitspugen van bijvoorbeeld de dummy of het stoppen met volgen, of wat er nog meer kan gebeuren wanneer een hond de verleiding van het voer of spel ervaart. In de gewenste setting zijn voer/ballen/speeltjes er gewoon voor het grijpen, maar de hond weet dat hij het alleen verkrijgt na de secundaire bekrachtig van de clicker/marker, dus nadat hij eerst zijn ‘taakje” goed heeft uitgevoerd.
Hoe bouw ik beloningen af?
In de uitleg van de verschillende beloonschema’s werd al duidelijk dat variabel belonen de meest krachtige manier is om reeds aangeleerd gedrag mee te onderhouden. Dit liet immers het meest slecht aangeleerd gedrag weer uitdoven. Kortom, denk in je beloningen aan het effect dat de gokkast heeft op ons. Blijf dus soms uitbetalen voor gewenst gedrag, maar wees onvoorspelbaar in wanneer en hoe vaak, en hoeveel en waarmee. Dan hou je je hond een leven lang gemotiveerd en gretig!
Gwen Pieters
www.leschienssportives.com