Belonen….daar komt meer bij kijken dan je denkt!

Wat is een beloning?

Een beloning kan alles zijn wat de hond leuk, lekker of veilig vind waardoor de hond als hij dit verkrijgt het door hem vertoonde gedrag graag zal gaan herhalen. Wat voor jouw hond de grootste beloning is, is dan ook iets wat je samen uit zal moeten gaan zoeken. Bedenk daarbij dat in een prikkelarme omgeving de hond zijn eigen voer best als beloning zal ervaren, maar of dit ook nog het geval is in het trainingsveld met alle afleidingen is maar zeer de vraag. Ook kan wat als beloning ervaren wordt naast per context ook per leeftijd en fysiek/mentaal gestel kunnen wisselen.

Beloon schema’s

Het bekrachtigen/belonen van gedrag kan volgens verschillende schema’s. Je kunt steeds bekrachtigen, dus elke keer dat het gewenste gedrag zich voordoet, een click ‘woord’ (secundaire bekrachtiger) gevolgd door de primaire bekrachtiging (brok, bal, spel enz.) geven.

Je kunt gedrag ook zo nu en dan bekrachtigen, dus niet elke keer dat het gedrag vertoond wordt maar soms wel en soms niet. Vooral als een hond een oefening eenmaal beheerst biedt dit vele voordelen.

Dit kan volgens verschillende schema’s: men kan volgens een tijdsschema bekrachtigen, en dat tijdsschema kan vast of variabel zijn. Bij een vast tijdsschema wordt bijvoorbeeld elke 4 seconden beloond, mits het gewenste gedrag gegeven wordt. Een variabel tijdsschema wil zeggen dat je gemiddeld elke 4 seconden beloond, dus de ene keer na 2 seconden, dan na 6 seconden, dan 10 seconde, dan na 4 ,2 enz. enz. Daarnaast kun je volgens een ratioschema belonen, dus bijvoorbeeld elke 4de keer dat het gedrag vertoond wordt. Ook dit kan weer volgens een vast schema of variabel schema.

Bij het aanleren van nieuw gedrag beloon je continue, eenmaal beheerst ga je liever over zo nu en dan bekrachtiging veel volgens een variabel ratio of tijd schema. Dit omdat gedrag dat aangeleerd is via zo nu en dan bekrachtigen/belonen veel minder gevoelig is voor uitdoving.

Uitdoven van aangeleerd gedrag.

Uitdoving is het afnemen en uiteindelijk verdwijnen van gedrag als het niet langer bekrachtigd/beloond wordt. Het gedrag levert de hond niets meer op, dus hij zal het uiteindelijk niet meer vertonen. Gedrag neemt immers alleen maar toe als het iets voor de hond prettigs oplevert of hij met zijn gedrag iets onplezierigs kan vermijden.

Uitdoving doet zich sneller voor bij schema’s van continue bekrachtigen dan bij zo nu en dan belonen.

Dit wordt ook wel het gokkast effect genoemd. De gokkast zal maar zo nu en dan uitbetalen, je weet dat het een keer zal gebeuren maar niet wanneer. Dat is precies de reden waarom gokken zo verslavend is, helemaal als je al weleens succes gehad hebt. Je weet niet van tevoren wanneer hij weer gaat uitbetalen, elke keer dat je er geld in gooit kan het gebeuren. Als je niets wint, blijf je toch doorgaan, want de volgende keer kun je wel succes hebben.

Een snoepautomaat werkt wel door middel van steeds belonen, elke keer dat je er geld in gooit, krijg je er snoep voor terug. Doet de machine dit een keer niet, dan zal je het hooguit nog een keer proberen en er weer geld in gooien, maar je blijft er niet mee doorgaan. Het gedrag van geld erin stoppen zal al heel snel uitdoven. Zo doofde bij Vidar ook , zoals in mijn vorige artikel beschreven, aangeleerde konijn apport uit na dit een jaar niet trainen en dus niet belonen. Om dezelfde reden blijf ik bijvoorbeeld ook een honden leven lang de stop/zitfluit regelmatig belonen in het veld maar ook blijf ik hem onderhouden en interval belonen tijdens de verschillende eet/spel momenten.

Uitdoof frustratie.

Iets wat je vaak ziet ontstaan voor gedrag uitdooft is zogenaamde uitdoof frustratie. Stel een hond vraagt om aandacht door steeds met zijn bal aan te komen en deze bij de voorjager voor de voeten te gooien. De voorjager reageert daar de ene keer wel op door toe te geven en met hem te gaan spelen, soms door te mopperen en soms niet, door geen aandacht aan het gedrag te schenken. Het gedrag is zo dus volgens een variabel schema bekrachtigd. De voorjager besluit toch van dit gedrag af te willen en neemt zich voor er niet meer op te reageren om zo het gedrag te laten uitdoven. Doordat het gedrag soms wel en soms niet beloond is, is het vrij hardnekkig en laat het zich slecht uitdoven. De hond heeft immers geleerd vroeger of later, net als bij de gokkast, succes te krijgen.

De hond gaat dan ook steeds fanatieker en dwingender de bal voor de voeten gooien en begint er ook nog eens geluid bij te maken. Dit is uitdoof frustratie.

De hond snapt niet dat het gedrag wat eerst zo goed en succesvol werkte om aandacht te krijgen, ineens niet meer werkt. Hij denkt dat hij harder zijn best moet doen, dus meer geluid maken, harder duwen, hoger gooien want de voorjager wil vast meer van zijn gedrag zien.

Voor de voorjager is het dan erg verleidelijk toch weer toe te geven of te gaan mopperen en te denken dat je uitdoof poging dus niet werkt, terwijl het juist een teken is dat het gedrag op het punt van uitdoven staat. Nu toch weer in de oude gewoonte vervallen en toegeven betekend dat het ongewenste gedrag erger dan ooit op de C schijf van de hond gebrand wordt!

Belooncriteria

Hou je beloon criteria scherp. Ofwel wanneer de oefeningen eenmaal beheerst worden click en beloon dan louter nog de snelle of extra gretige of extra nette varianten van het gevraagde gedrag of de gevraagde keten. Alle andere vormen van wat trager, slordiger, later reageren ben je niet boos op maar leveren niet dezelfde beloning op dan de betere uitvoeringen. Zo leert de hond dat wanneer de oefening eenmaal beheerst wordt er wel voorwaarden aan de uitvoering van de oefeningen zijn om in aanmerking voor de beloning te komen.

Timing van belonen

De timing van de beloning is erg belangrijk, wanneer we een bepaalde gedraging willen doen toenemen zullen we dit gedrag binnen een seconde moeten bekrachtigen. In ieder geval moet het gebeuren voor de hond alweer ander gedrag vertoond. De clicker/marker is hier een uitstekend middel voor, omdat je vaak wel binnen een seconde het gedrag kunt markeren met je click ’woord’ maar vaak net te laat bent met je daadwerkelijke beloning. Want hoe krijg je nou een koekje binnen een seconde bij de hond wanneer de hond op 10 of 100 meter afstand een gewenst gedrag vertoont? Met marker/clicker training vertel je de hond dus perfect getimed om welk gedrag het gaat en de daadwerkelijke beloning kan dan wat later gegeven/gebracht worden. De clicker/marker wordt om die reden ook wel de secundaire bekrachtiger of brugprikkel genoemd. En de daadwerkelijke beloning de primaire bekrachter.

Het is overigens wel belangrijk dat de primaire bekrachtiger de secundaire bekrachtiger niet overschaduwd. Dit betekent dat wanneer je hebt geclicked voor bepaald gedrag je het koekje pas 1-3 seconde na dit moment geeft. Wanneer dit eerder gebeurt zullen de hersenen van de hond niet goed opslaan voor welk gedrag de click nou werd gegeven omdat ze al schakelen naar het lekkers/leuks. Het click ’woord’ moment moet dus goed getimed zijn, maar het daadwerkelijk geven van het koekje mag/moet meer tijd in beslag nemen. Bij een ervaren clicker hond kunnen hier zelf meerdere seconden tot zelf minuten tussen zitten. Ze weten immers waar de click voor was en dat de afspraak het krijgen van het voer/spel altijd wordt nagekomen.

Plek van belonen.

Waar de primaire beloning wordt gegeven nadat de secundaire bekrachtiger ofwel de click ’woord’ heeft verteld om welk gedrag het gaat maakt wel degelijk uit voor het vervolg gedrag dat de hond zal gaan geven. Dus wil je bijvoorbeeld dat de hond uiteindelijk langer een target aan blijft raken is het zaak dat de hond leert door het verkrijgen van getimede click ’woord’ informatie dat het gaat om het gedrag met je neus of poot (afhankelijk van welke target je aan het aanleren bent) tegen de hand aanzetten. Het daar uiteindelijk langer blijven leert hij ook door na de click steeds de daadwerkelijke beloning in/op de aan te raken target aan te bieden. Dit noemen we in positie belonen. Wil je echter de hond ook leren snel naar de target toe te trekken kies je ervoor om juist na de getimede click op het aanraken van de target, het voertje juist uit de positie weg te gooien. Bedenk dus altijd goed wat per fase je einddoel gaat zijn en of je daarbij liever in of juist uit positie beloond. Een mooi verschil maak ik daarin bij het aanleren van de dirigeer lijn uit het A diploma versus de uitstuur en terugkom lijn uit het C diploma. Bij beide lijnen click ik om een moment waarmee ik de hond aangeef tevreden te zijn over de lengte/snelheid/rechtheid van de lijn echter bij de A variant breng ik na de click de beloning in positie, in het veld naar hem toe. Ja, zelfs ook nog steeds zo nu en dan in de beheers fase. Trainen is investeren en aangeleerd gedrag moet je ook blijven scherp houden door het te blijven onder- en bijhouden. In deze A variant Ik wil immers niet dat hij gaat anticiperen, door steeds. beloning bij mij ( dus uit positie ) te laten halen, op uit het veld naar mij inlopen. In de C variant wil ik die anticipatie juist wel, immers daar is ook het einddoel na het wegzenden weer zo snel mogelijk naar mij terugkomen. Uiteraard hebben staan beide lijnen ook op een ander commando. Of ik daarbij kies voor een actie of voer beloning kom ik later op terug. Nog een mooi voorbeeld is dat ik voor een snelle recall dus eigenlijk altijd uit positie beloon en de beloning in dat geval achter me gooi of geef (soms langs me af, soms tussen mijn benen door) om daar mee de lengte van de lijn en snelheid naar me toe extra te vergroten. Wil ik echter aan het einde van die recall ook nog de snelle en rechte ‘naast’ belonen zal ik de beloning juist voor me uit gooien waarmee door anticipatie op de plek van de uiteindelijke beloning de hond de volgende keren nog sneller en rechter naast zal gaan zitten. De variatie in de uitkomst van dezelfde oefening maakt dat de honden het leuk en verassend blijven vinden wat ze lekker gretig houd en goed leren kijken naar wat jij met je lichaamstaal aangeeft en goed leren luisteren naar wat met je verbale cue van ze vraagt. Dit geld ook voor variatie aanbrengen in de aanvang van je oefeningen trouwens!

Welke beloning?

Is alles wat de hond leuk of lekker vindt een geschikte beloning om mee te werken? Op zich zal alles wat de hond leuk of lekker vindt verkrijgen het door hem getoonde gedrag doen toenemen. Toch is niet elke beloningsvorm altijd even handig en dit zal per aan te leren oefening kunnen verschillen. Zo zijn kleine voerbeloningen verreweg het handigst als het gaat om reeksen achter elkaar door te willen clickeren/belonen. Deze kunnen ze namelijk doorslikken en gelijk weer doorgaan. Een bal weg gooien in dezelfde setting is wat lastiger omdat je dan niet zo snel door kunt met je reeks. Deze kun je wel uitstekend in zetten als beloning voor je laatste of beste clickmoment. De zogenaamde ‘jackpot’. Naast dat soms iets minder of iets meer handig is, is het ook goed na te denken of je een actie of en passieve oefening aan het aanleren bent. Actie zoals een snelle recall of een snel uitgaan naar je target of een snelle reactie op de afstop fluit beloon ik ook altijd graag met actie, daarbij is een bal gooien of een sjors/najaagspel verdienen na je clickmoment zeer geschikt. Wil je echter duur in een stabiele rustige zit op post of in het veld bekrachtigen, kies dan liever voor een wat passievere voerbeloning.

Wat je ook voor je ook voor beloning kiest een vereiste is dat de hond het als leuk of lekker moet ervaren. Besef dat wat de hond in een prikkel arme omgeving als lekker ervaart , misschien met veel afleiding om zich heen niet meer het geval is. Dus pas de leuk of lekkerheid van een beloning ook aan op de moeilijkheidsgraad van de te leren oefening of van de moeilijkheid van de context waarin je je bevindt. Zoals ik al in mijn vorige artikel schreef vraagt najaag gedrag bijvoorbeeld om een andere concurrerende prikkel/beloning dan slechts een saai brokje bij een juist uitgevoerde recall. Waarbij aanleren van nieuw gedrag uiteraard in eerste instantie het liefst in een zo prikkelarm mogelijke context begint.

Heeft de hond geen enkele interesse in zijn beloning, vraag je dan af of je niet al te snel met teveel afleiding om je heen aan het werk bent gegaan. Of misschien heeft hij net voor je training zijn salaris al gratis en voor niks in zijn voerbak gekregen. Wanneer we een hond dagelijks heel veel willen aanleren is het een prima idee om de hond zijn salaris gedurende de dag te laten verdienen in plaats van gratis en voor niks in zijn bak te verschaffen. Veel honden vinden eten verdienen ook nog eens veel leuker dan hap slik weg uit een bak. Is teveel afleiding de oorzaak probeer hier dan in kleinere stapjes naar toe te werken. Blijf dus onderdrempelig aan de afleidende prikkels en bijbehorende spanning waardoor interesse in de extra lekkere of extra leuke beloning wel blijft bestaan.

Dit kan door bijvoorbeeld de afstand tot de afleiding te vergroten of door niet gelijk van binnenshuis trainen naar de groepsles in de bossen te gaan, maar als tussenstappen bijvoorbeeld; de tuin, een voetbalveldje en het park te pakken. Samen met 1 hond dan 2 dan 3 honden trainen ipv van alleen trainen naar in 1 keer overschakelen naar een drukke groepsles. Sjor of najaag spellen als beloning is vaak iets dat we onze honden moeten leren. Vaak wordt gedacht dat honden daar hard van in de bek worden, ik en vele wetenschappelijke onderzoeken delen deze mening niet. Hardheid in de bek ontstaat vaak juist door te veel spanning/stress en daarbij vrijkomende hormonen worden dan graag gedrukt door het kauwen op voorwerpen als stressrelease, vergelijkbaar met het nagelbijten bij ons mensen. Om hardheid in de bek te voorkomen moeten we het dus zoeken in onderdrempelig aan die gemoedstoestand blijven en niet in het wel of niet belonen met sjorren op overigens totaal andere voorwerpen dan het apport. Eigenlijk is sjorren daarmee juist een hele mooie stress release.

Waar komen mijn beloningen vandaan?

Leer de hond gelijk dat beloningen overal kunnen zijn en dat dit niet betekent dat je deze uit eigen beweging kunt verkrijgen. Dus in jaszakken, heuptasjes maar ook in bakjes die naast je staan. Maak direct de afspraak dat beloningen uitsluitend verkrijgbaar zijn als gevolg van de click/marker voor het gewenste gedrag en nooit eerder. Voor veel honden is het nodig om te werken aan verschillende impuls controle oefeningen om deze afspraak heel duidelijk te krijgen.

Uitsluitend wanneer we deze afspraak helder hebben met de hond hoeft een lekkere of leuke beloning in zicht niet garant meer te staan voor het uitspugen van bijvoorbeeld de dummy of het stoppen met volgen of wat er nog meer kan gebeuren wanneer een hond de verleiding van het voer of spel ervaart. In de gewenste setting is dat voer/ballen/speeltjes er gewoon voor het grijpen maar weet de hond dat hij het alleen verkrijgt na de secundaire bekrachtig van de clicker/marker nadat hij eerst zijn ‘taakje” goed heeft uitgevoerd.

Hoe bouw ik beloningen af?

In de uitleg van de verschillende beloonschema’s werd al duidelijk dat variabel belonen de meest krachtige manier is om reeds aangeleerd gedrag mee te onderhouden. Dit liet immers het meest slecht aangeleerd gedrag weer uitdoven. Kortom wordt in je beloningen zoals die gokkast zijn effect heeft op ons. Blijf dus soms uitbetalen voor gewenst gedrag maar wees onvoorspelbaar in wanneer en hoe vaak en hoe veel en waarmee. Dan hou je ze een leven lang gemotiveerd en gretig!

Gwen Pieters