Czym właściwie jest kwadrat wzmocnień i trening pozytywny?

Jeśli interesujesz się treningiem i szkoleniem zwierząt, pewnie nie raz spotkałeś się z takimi pojęciami jak kwadrat wzmocnień i trening pozytywny. Natomiast czy spotkałeś się kiedykolwiek z kontrowersjami związanymi z tymi określeniami? – Ja tak, i to nie raz. 

Kiedyś myślałam, że to bez znaczenia, bo przecież wiadomo o co chodzi. Jednak im więcej siedzę w behawiorystyce i szkoleniu psów, tym bardziej mi one nie odpowiadają. Może Ci się wydawać, że to tylko jakiś dziwny rodzaj puryzmu albo zboczenia zawodowego. Jednak dla mnie dbałość o odpowiednią nomenklaturę jest ważna z tego względu, że zoopsychologia to dziedzina nauki, a nie jakiś tam wolnożyjący twór, który rządzi się własnymi prawami. A jeśli już jesteśmy w świecie nauki, to stosowanie odpowiednich pojęć ma znaczenie

Dlatego w dzisiejszym poście postanowiłam wam wyjaśnić skąd biorą się te kontrowersje i dlaczego się z nimi zgadzam.

Kwadrat wzmocnień

Zacznijmy od tego, czym tak naprawdę jest kwadrat wzmocnień. Jak to wygląda, o co tu chodzi. 

W analizie zachowania mamy coś takiego, jak wzmocnienia (reinforcement) i kary (punishment). Mogą być one pozytywne (+) lub negatywne (-)

A więc mamy: wzmocnienie pozytywne, wzmocnienie negatywne, karę pozytywną i karę negatywną. Pozytywność oznacza tutaj nic innego jak dodanie bodźca, a negatywność odjęcie bodźca. Bardzo często ludzie mylą pojęcia i myślą, że pozytywność musi oznaczać coś dobrego, a negatywność coś złego. W analizie zachowania zupełnie tak nie jest. Tutaj wchodzimy na bardziej abstrakcyjną płaszczyznę pojęć, a także wracamy nieco bliżej korzeni tych słów. A więc raz jeszcze – pozytywny czyli “na plusie”, negatywny czyli “na minusie”. I nie wartościujemy tego w tym kontekście na dobry/zły!

Wzmocnienia

Jaki jest cel wzmocnienia? Jak sama nazwa sugeruje – wzmocnienie ma sprawić, żeby zachowanie w przyszłości występowało z większą częstością, z większym prawdopodobieństwem. A więc – wzmacniamy jego występowanie w repertuarze zachowań danej jednostki. Zatem niezależnie od tego, czy mamy wzmocnienie pozytywne czy negatywne, cel jest ten sam – chcemy, aby zachowanie w przyszłości występowało częściej

Wzmocnienie pozytywne

Czym w takim razie będzie wzmocnienie pozytywne? Wzmocnienie pozytywne to takie, w którym dodajemy taki bodziec wzmacniający, który sprawi, że zachowanie będzie miało szansę występować częściej. Tutaj dla ułatwienia możemy wprowadzić już pojęcie nagrody. W zależności od kontekstu, jednostki i jej preferencji możemy mieć przeróżne nagrody. To będzie między innymi dawanie smaczków za podanie łapki, zezwolenie na zjadanie śmieci na spacerze, pogoń za dziką zwierzyną w lesie. U psów pracujących, wzmocnieniem może być również na przykład sama możliwość wykonania zadania – znane will to please u border collie. 

To samo dotyczy częstowania psa jedzeniem z talerza i na tym przykładzie pokażę wam schemat wzmocnienia pozytywnego.

jedzenie z talerza właściciela (bodziec wzmacniający) -> pies “żebrze” (wzmacniane zachowanie) -> pies dostaje jedzenie z talerza (wzmocnienie pozytywne) -> pies następnym razem znowu “żebrze” przy stole (konsekwencja – zwiększenie częstości prezentowania zachowania)

Wzmocnienie negatywne

W takim razie czym są wzmocnienia negatywne? – To chyba jeden z trudniejszych „typów”, ponieważ często się myli z karą negatywną. Postaram się wytłumaczyć możliwie jak najdokładniej na dwóch przykładach – bardziej życiowym i nieco bardziej szkoleniowym. Wzmocnienie negatywne też będzie sprawiało, że w konsekwencji zachowanie zostanie prezentowane z większą częstością. Z tym, że tutaj bodziec zostaje wycofany, a nie dodany, jak poprzednio. Muszę jeszcze zaznaczyć, że wycofywanym bodźcem będzie bodziec awersyjny.

Wyobraź sobie, że na dworze jest upał powyżej 30 stopni Celsjusza, otwarta przestrzeń, zero zbiorników wodnych, ale kilka metrów dalej rośnie dość duże drzewo, które rzuca całkiem spory cień. Zwierzę chcąc uniknąć upału i jego przykrych konsekwencji, zacznie szukać schronienia. W końcu trafi do cienia pod drzewem. Chowając się w cieniu po chwili dozna ulgi – odczuwalna niższa temperatura, lekki wiatr od gałęzi drzewa. Czyli wraz ze schowaniem się w cień następuje odjęcie bodźca awersyjnego (upał). W konsekwencji tego zachowania, w analogicznych sytuacjach, zwierzę częściej będzie poszukiwało zacienionego miejsca, aby schować się przed upałem. 

A jak to będzie wyglądało w treningu? Wydaje mi się, że popularna metoda walczenia z ciągnięciem na smyczy może być odpowiednim przykładem.

Pies ciągnie na smyczy (zachowanie) -> zatrzymujemy się (bodziec awersyjny – dokładnie bodźcem awersyjnym jest tutaj niemożność pójścia dalej, a nie samo zatrzymanie się człowieka*) -> pies luzuje smycz (konsekwencja, wzmacniane zachowanie) -> idziemy dalej (wzmocnienie negatywne – wycofujemy bodziec awersyjny)

– Czyli w przyszłości pies, który to “rozkmini” powinien częściej luzować smycz. Ciągnięcie na smyczy można też przeanalizować pod kątem kar, jednak w tym przypadku chodzi mi o sytuację, w której pies nie przestaje ciągnąć, kiedy się zatrzymujemy. Czyli przedłużamy stanie z ciągnącym psem i dopiero na przykład po zawróceniu do nas, kiedy smycz przestaje być napięta, idziemy dalej w kierunku, w którym pies chciał pójść. Zatem tutaj nie wycofujemy bodźca nagradzającego, którym może być określony punkt/osobnik na naszej drodze, poprzez zmianę trasy, tylko po prostu „przeczekujemy” ciągnięcie, co działa awersyjnie dla psa. Kiedy zaprezentuje pożądane przez nas zachowanie – kontynuujemy spacer. (Od razu też dodam, że to nie jest jedyna słuszna metoda pracy nad luźną smyczą – żeby nie było! Ale o tym innym razem).

Kary

A jaki jest cel kary? Myślę, że łatwo można się domyślić, że kara służy do zmniejszenia częstości występowania danego zachowania lub całkowitego jego zaniku z prezentowanego repertuaru zachowania danej jednostki. Zatem jest czymś zupełnie odwrotnym do wzmocnienia. 

Kara pozytywna

To po prostu dodanie bodźca awersyjnego, czyli nieprzyjemnego, który ma sprawić, że zachowanie zacznie być rzadziej prezentowane lub całkowicie zaniknie. W praktyce mało skuteczna metoda, bo żeby kara pozytywna faktycznie miała zadziałać, musiałaby być zastosowana równocześnie z wystąpieniem zachowania, a także być do niego adekwatna. Przykładem skutecznej kary pozytywnej może być działanie pastucha elektrycznego. Zwierzę, które chce wydostać się przez ogrodzenie, zostaje porażone prądem – w przyszłości powinno unikać próby przechodzenia przez ogrodzenie. 

Natomiast przykładem jednej z bardziej bezsensownych kar pozytywnych, niestety nagminnie stosowanych przez wielu właścicieli psów, jest opierniczanie psa, który nie wrócił na przywołanie, tylko pojawił się przy właścicielu dopiero po jakimś czasie. Notorycznie spotykam taką sytuację nawet na własnym podwórku. Właściciel podnosi głos na psa, zestresowany pies w końcu do niego wraca i jeszcze nieraz dostaje w tyłek… Nie dość, że kara odroczona w czasie to bezsens, to jeszcze w ten sposób taki właściciel tylko zraża do siebie psa. Nie wiem jak wy, ale gdybym była takim psem i miałabym możliwość polecieć za wiewiórką albo do drącego się na mnie właściciela, bez dwóch zdań poleciałabym za wiewiórką i jeszcze specjalnie poszukałabym kolejnych, bo skoro niezależnie od tego jak długo mnie nie będzie, dostanę karę, to co mam do stracenia? 😉 

Kara negatywna

Tutaj odejmujemy bodziec nagradzający. To jest ważne. We wzmocnieniu negatywnym odejmowaliśmy bodziec awersyjny, tutaj odejmujemy ten nagradzający! Podobnie jak w przypadku kary pozytywnej, kara negatywna ma sprawić, że w przyszłości zachowanie będzie prezentowane rzadziej, z mniejszym prawdopodobieństwem

Mam chyba dość prosty, życiowy przykład. 

Wyobraź sobie, że bawisz się z nakręconym psem – nie wiem, niech to będzie Jack Russell Terrier i rzucanie piłki. Pies jest mega nakręcony, przybiegł właśnie ze swoją ulubioną piłą, a w tym momencie ktoś do Ciebie napisał wiadomość i chcesz ją odczytać, a dopiero po chwili wrócić do zabawy. Pies zaczyna na Ciebie szczekać, skakać i “wymuszać” rzucenie piłki. Chyba większość ludzi w takiej sytuacji rzuca ją psu (i wtedy zadziała wzmocnienie pozytywne), ale Ty możesz ją schować i zakończyć zabawę. I to właśnie będzie kara negatywna. Przerywasz zachowanie poprzez zabranie bodźca nagradzającego. Pies w końcu nauczy się, że szczekanie na Ciebie, bo już-szybko-w-tej-chwili trzeba rzucić piłkę nie przynosi pożądanych przez niego rezultatów. 

Podsumowanie kwadratu wzmocnień

Widzisz już dlaczego skrótowe określenie kwadrat wzmocnień jest mylące? Kwadrat nie składa się z samych wzmocnień, tylko również i kar. Do tego pozytywnych i negatywnych. Ten kwadrat to tak naprawdę tabelka, jednak to już (chyba) tylko techniczny szczegół. Spotkałam się w internecie z bardziej wyczerpującym, aczkolwiek trochę za długim określeniem kwadratu wzmocnień i wygaszania zachowań. Na pewno jest lepsze, bardziej adekwatne, ale za długie. Szczerze mówiąc nie wiem jakie określenie byłoby najlepsze. Nie mam chyba żadnych propozycji, ale nie chodzi mi teraz o zmienianie całego słownictwa wielu szkoleniowców. Chciałam Ci tylko pokazać, dlaczego to określenie jest kiepskie i jak słabo oddaje sens tego, co opisuje. 

Trening pozytywny

Dlaczego w takim razie jeszcze uparłam się, że określenie trening pozytywny jest słabe? Myślę, że też już się możesz domyślać, jeśli przeczytałeś wszystko co napisałam o kwadracie wzmocnień. 

Warto się najpierw zastanowić czym niby ma być ten trening pozytywny? Przychodzisz do uśmiechniętego trenera, który traktuje Twojego psa jak najlepszego kumpla, razem podbijacie świat, bawicie się genialnie i wszystko jest super? A może stosujecie tylko wzmocnienia pozytywne, a wszystko inne to zło wcielone? Kurczę, ale wiesz, że to nie jest realne? Patrząc przez pryzmat analizy zachowania, i my i nasze psy, króliki, konie czy mrówki, uczymy się cały czas, a to oznacza, że wzmocnienia i kary są nieodłączną częścią naszego życia – czy tego chcemy czy nie. I okej, w treningu i szkoleniu możemy zrobić wszystko co w naszej mocy, żeby był on etyczny, przyjemny, żeby panowała przyjacielska atmosfera, żebyśmy współpracowali z naszymi zwierzętami i skupiali się na drodze, a nie tylko na celach, ale nie nazwałabym tego treningiem pozytywnym. Nazwałabym to etycznym treningiem bazującym na wzmocnieniach pozytywnych, w którym skupiamy się na relacji i zapewnieniu potrzeb naszego zwierzęcia. Na pewno ktoś już wymyślił jakieś sensowne określenie na taki trening. Nie wierzę, że nie. 

Patrząc na to z drugiej strony (tej jeszcze bardziej czepialskiej), przeanalizujmy sobie nieco to określenie w oparciu o to, co napisałam o kwadracie wzmocnień. Trening pozytywny – wyjmijmy z niego słowo pozytywny i trochę mu się przyjrzyjmy. Patrząc na wspomniany wcześniej kwadrat, pozytywność nie wyklucza tutaj kary. A więc z logicznego punktu widzenia trening pozytywny powinien bazować na stosowaniu wzmocnień pozytywnych i kar pozytywnych, a nie na uśmiechu i dobrej zabawie (przynajmniej dla mnie 😉 ).

EDIT 29.01.2023: Widzę, że coraz częściej trenerzy i psie szkoły dopisują, że trening pozytywny opiera się na wzmocnieniach pozytywnych i negatywnych. Nie rozumiem czemu w takim razie to nie jest „trening wzmacniający”, ale niech im będzie. Post dotyczył przede wszystkim określeń używanych przez trenerów stosujących same nagrody w pracy z psem. 😉

Mam nadzieję, że już wiesz czym jest tak naprawdę kwadrat wzmocnień i rozumiesz jego składowe. Ciekawa jestem co uważasz o tych określeniach. Czy sądzisz, że słabo oddają to, co mają opisywać? Czy może tak jak ja kiedyś, nie zwracasz na to uwagi, bo to nieznaczący szczegół, skoro wszyscy wiedzą o co chodzi? 🙂 

Dodaj komentarz