capsule neural network
Főnév
capsule neural network (tsz. capsule neural networks)
- (informatika, mesterséges intelligencia) A Capsule Neural Network (röviden: CapsNet) egy mély tanulási architektúra, amelyet Geoffrey Hinton és munkatársai vezettek be 2017-ben. A célja, hogy leküzdje a hagyományos konvolúciós neurális hálózatok (CNN-ek) korlátait, különösen az objektumok pozícióinak, orientációinak és hierarchikus viszonyainak felismerésében.
🎯 Mi a probléma a hagyományos CNN-ekkel?
A CNN-ek kiválóan detektálják, hogy mi van egy képen, de kevésbé pontosak abban, hogy hol és milyen orientációban van az adott objektum. Ez azért van, mert:
- Max-pooling műveletek eldobhatják a térbeli viszonyokat
- Nincs valódi reprezentáció az objektumok részeinek kapcsolatáról
🧠 Mi az a “Capsule”?
Egy capsule nem egyetlen neuron, hanem egy neuroncsoport, amely:
- Vektor (vagy mátrix) formában kódolja az információt (nem csak skalárt!)
- A vektor hossza az adott entitás jelenlétének valószínűségét mutatja
- A vektor iránya az entitás állapotát (pl. pozíció, skála, dőlésszög) kódolja
Ezáltal a hálózat “tudja”, hogyan néz ki az objektum, és képes felismerni különböző pozíciókban vagy nézőpontból is.
🏗️ Hálózati felépítés
A tipikus Capsule Network két fő rétegből áll:
- Primary Capsules (elsődleges kapszulák):
- Vektoros kimeneteket hoznak létre konvolúciós rétegek után
- Digit Capsules (vagy más objektum-szintű kapszulák):
- A magasabb szintű entitásokat (pl. számjegyek) reprezentálják
- A dynamic routing módszerrel tanulják meg, hogy melyik alacsonyabb szintű kapszulát vegyék figyelembe
🔁 Dynamic Routing
Ez egy tanulható figyelemmechanizmus, amely meghatározza, hogy egy kapszula mennyire “bízik meg” egy másik kapszulában.
- Ahelyett, hogy fix kapcsolat lenne az alacsonyabb és magasabb szint között, a routing dinamikusan súlyozza őket.
- Ez lehetővé teszi a kompozicionális hierarchiák tanulását (pl. szem → arc → fej).
📈 Előnyök a CNN-ekkel szemben
| Jellemző | CNN | CapsNet |
|---|---|---|
| Térbeli információ | Gyenge | Erős |
| Pooling | Igen (elveti az infót) | Nem szükséges |
| Pozíció-invariancia | Részben | Irány-invariancia (tudja a pozíciót) |
| Robusztusság torzításra | Alacsony | Magas |
| Minta-méret igény | Nagy | Kisebb adathalmazon is jól tanulhat |
📊 Példák és eredmények
A Hinton-féle első CapsNet modell:
- MNIST kézírott számfelismerésben 0.25% hibaarányt ért el
- Javította a generalizációt torzított vagy részleges bemenetekre
- A hálózat vizuálisan is értelmezhető volt: módosított bemeneti képek alapján a vektorok eltolódtak, de a predikció megmaradt
⚠️ Kihívások
- Számításigény: Dynamic Routing több iterációt igényel
- Skálázhatóság: nagyobb és összetettebb adatbázisokon (pl. ImageNet) még nem bizonyított
- Kísérleti stádiumban van – még kevés az ipari alkalmazás
🧩 TL;DR
A Capsule Neural Network egy új neurális hálózati architektúra, ahol a neuronok csoportjai (kapszulák) nemcsak egy osztály valószínűségét, hanem annak térbeli és hierarchikus állapotát is kódolják. Ezáltal pontosabb és robosztusabb felismerést nyújt a hagyományos CNN-ekhez képest.
- capsule neural network - Szótár.net (en-hu)
- capsule neural network - Sztaki (en-hu)
- capsule neural network - Merriam–Webster
- capsule neural network - Cambridge
- capsule neural network - WordNet
- capsule neural network - Яндекс (en-ru)
- capsule neural network - Google (en-hu)
- capsule neural network - Wikidata
- capsule neural network - Wikipédia (angol)