Ugrás a tartalomhoz

intrinsic motivation

A Wikiszótárból, a nyitott szótárból


Főnév

intrinsic motivation (tsz. intrinsic motivations)

  1. (informatika) A belső motiváció (intrinsic motivation) fogalma a pszichológiából származik, és olyan viselkedéseket ír le, amelyeket nem külső jutalom, hanem maga a tevékenység élvezete, újdonsága vagy kíváncsisága vezérel. Ez az emberi viselkedés egyik alapvető mozgatórugója, amelyet a mesterséges intelligencia (AI) területén is egyre inkább igyekeznek modellezni. A cél az, hogy az AI rendszerek ne csak előre meghatározott célokat kövessenek, hanem képesek legyenek önállóan tanulni, felfedezni, és alkalmazkodni új helyzetekhez — még akkor is, ha nincs közvetlen külső jutalom.



1. A belső motiváció fogalma és szerepe az AI-ban

A hagyományos AI rendszerek – például a megerősítéses tanulás (reinforcement learning, RL) alapú modellek – jutalmak és büntetések alapján tanulnak. Például egy AI megtanulhat sakkozni úgy, hogy pontot kap győzelemért és levonást vereségért. Ez külső motiváció (extrinsic motivation).

Ezzel szemben a belső motivációs AI modellek nem csupán a külső jutalomért cselekszenek, hanem az újdonság, a tanulás vagy a bizonytalanság csökkentése érdekében. Céljuk lehet például egy környezet felfedezése vagy egy modell saját bizonytalanságának csökkentése.



2. Alapötletek, amelyekből a belső motivációs rendszerek táplálkoznak

a) Kíváncsiságvezérelt tanulás (curiosity-driven learning)

Az ilyen rendszerek jutalmazzák önmagukat, amikor új vagy meglepő információt fedeznek fel. A rendszer például pozitív megerősítést adhat magának, ha egy előre nem látott eseményt sikerül megtanulnia előrejelezni.

b) Információs jutalom (information gain)

Az AI rendszer célja lehet, hogy minél több információt szerezzen a világról. Ha egy új tapasztalat jelentősen javítja a környezeti modelljét, akkor azt jutalomként érzékeli.

c) Tanulási előrehaladás (learning progress)

Nem maga az újdonság számít, hanem az, hogy mennyit fejlődik a rendszer az adott környezetben. Az ilyen megközelítések elkerülik a túl komplex vagy túl egyszerű helyzeteket – csak ott tanul, ahol érdemben lehet fejlődni.



3. A belső motiváció alkalmazása mesterséges intelligenciában

a) Felfedező viselkedés erősítése

A kíváncsiság-alapú AI jobban képes feltérképezni a környezetét. Ez különösen hasznos olyan környezetekben, ahol a külső jutalom ritka vagy nehezen elérhető. Például egy robot, amelyik felfedezi a világot, anélkül is tanulhat, hogy konkrét feladatot kellene elvégeznie.

b) Tanulás korlátozott visszacsatolás mellett

Sok valódi probléma esetén nincs vagy kevés visszacsatolás – például autonóm robotok vagy játékok felfedezésekor. A belső motiváció lehetővé teszi, hogy ezek a rendszerek tovább tanuljanak még akkor is, ha a külső jutalom elmarad.

c) Általánosítás képessége

A kíváncsiság-alapú rendszerek gyakran jobb általánosítási képességgel rendelkeznek, mivel nem csak a jutalmazott viselkedéseket tanulják meg, hanem szélesebb körben tapasztalatokat gyűjtenek.



4. Híres példák és modellek

i) ICM – Intrinsic Curiosity Module (2017)

A kíváncsiság vezérelt tanulás egyik híres megközelítése, amit játékos AI-kban alkalmaztak (pl. Atari játékok). Az ICM belső jutalmat generál az alapján, hogy mennyire képes a rendszer előrejelezni a saját cselekvéseinek hatásait.

ii) RND – Random Network Distillation

Itt az újdonság úgy van definiálva, hogy mennyire tér el egy új állapot egy rögzített, véletlen hálózat által adott előrejelzéstől. Ha az eltérés nagy, az állapot „új” és a rendszer jutalmat kap.

iii) Empowerment-based AI

Ez a megközelítés azt vizsgálja, hogy az ügynök (agent) mennyire képes befolyásolni a környezetét. A nagyobb kontroll lehetőség motiváló tényező lehet.



5. Matematikai megközelítések

A belső motivációs rendszerekben a jutalomfüggvény nem külső tényezőkhöz van kötve, hanem a rendszer belső állapotaihoz:

  • r(t) = extrinsic_reward(t) + α * intrinsic_reward(t)

Ahol:

  • r(t) az összjutalom,
  • extrinsic_reward(t) a klasszikus külső jutalom,
  • intrinsic_reward(t) például az előrejelzési hiba vagy információnyereség,
  • α súlyozási tényező.

Példa: Ha a rendszer megtanulja előrejelezni a következő állapotot egy környezetben, de az előrejelzés pontatlan, az nagyobb belső jutalmat jelent, ami arra ösztönzi, hogy tanuljon.



6. Kapcsolat más területekkel

  • Fejlett robotika: A belső motiváció lehetővé teszi, hogy robotok önállóan fedezzenek fel tereket, tanuljanak új eszközhasználatot anélkül, hogy minden lépést kézzel programoznánk.
  • Életszerű szimulációk: Az emberi viselkedés szimulálásához használt AI-knál – például játékokban – a belső motiváció életszerűbb döntéshozatalt tesz lehetővé.
  • Meta-tanulás (meta-learning): A belső motiváció egyfajta „tanulni tanulás” ösztönzője lehet, ahol a rendszer megtanulja, hol érdemes újra és újra gyakorolni.



7. Kihívások

  • Túlzott felfedezés: A rendszer elkalandozhat a céltól, ha az újdonságot túlértékeli.
  • Mérési nehézségek: Hogyan definiáljuk pontosan a belső jutalmat? Nehéz lehet jó metrikát találni.
  • Összehangolás a külső célokkal: Biztosítani kell, hogy a belső motiváció segítse és ne akadályozza a külső célok elérését.



8. Összegzés

A belső motivációs rendszerek izgalmas irányt jelentenek az AI fejlődésében. Hasonlóan az emberekhez, az ilyen rendszerek nem csak a külső elvárások mentén működnek, hanem saját „kíváncsiságuk”, tanulási igényük vezérli őket. Ez jelentősen növelheti az alkalmazhatóságukat, különösen összetett, dinamikus vagy ismeretlen környezetekben.

Ahogy az AI fejlődik, egyre inkább szükség lesz olyan ügynökökre, amelyek önállóan tanulnak, keresnek, fejlődnek — nem csak akkor, amikor konkrét célokat állítunk eléjük, hanem akkor is, amikor „csak úgy” van lehetőségük új dolgokat felfedezni.