Ugrás a tartalomhoz

vision transformer

A Wikiszótárból, a nyitott szótárból


Főnév

vision transformer (tsz. vision transformers)

  1. (informatika) Vision Transformer (ViT) egy mélytanuló modell az számítógépes látás (computer vision) területén, amely a Transformer architektúrát alkalmazza képek feldolgozására. Ez a megközelítés forradalmi újítás volt, mert korábban a konvolúciós neurális hálózatok (CNN-ek) voltak a legelterjedtebbek a képfeldolgozásban.



1. Mi az a Vision Transformer?

A Vision Transformer a Transformer modellt használja, amelyet eredetileg természetes nyelvfeldolgozásra (NLP) fejlesztettek ki, például a BERT vagy GPT modellekhez. A ViT a képet kisebb, fix méretű “patch”-ekre (részletekre) bontja, majd ezeket a patch-eket egyfajta szekvenciaként kezeli, hasonlóan a szavakhoz a szövegben.



2. Működésének fő lépései

  • Patch-ekre bontás: A bemeneti kép kisebb négyzetes darabokra van osztva (például 16x16 pixeles patch-ek).
  • Patch embedding: Ezeket a patch-eket egy lineáris beágyazó (embedding) rétegen keresztül vektorrá alakítják.
  • Positional encoding: A patch-ek sorrendjét jelző pozíciós információt adnak hozzá, hogy a modell megtartsa a kép térbeli struktúráját.
  • Transformer rétegek: A patch-ek vektoraiból a Transformer egységekkel feldolgozza a globális összefüggéseket.
  • Kimenet: A végső reprezentáció alapján osztályoz vagy egyéb képfeldolgozási feladatot végez.



3. Előnyök

  • Globális figyelem (attention): Minden kép részletét figyelembe veszi a teljes képre vonatkozó összefüggések alapján.
  • Skálázhatóság: Nagy adatkészleteken jól működik, és könnyen bővíthető.
  • Általánosíthatóság: A Transformer architektúra alkalmazása megkönnyíti a többféle adatformátum kezelését (például multimodális adatok).



4. Hátrányok

  • Nagy adatigény: Jó eredményekhez sok tanító adat szükséges.
  • Számítási erőforrás: Több számítási kapacitást igényel, mint a hagyományos CNN-ek.
  • Kevésbé intuitív térbeli feldolgozás: A patch-alapú megközelítés miatt nem annyira lokális, mint a konvolúciós megoldások.



5. Alkalmazási területek

  • Képosztályozás
  • Objektumfelismerés
  • Képfeldolgozó feladatok (pl. szegmentáció, képgenerálás)
  • Multimodális rendszerek (kép és szöveg kombinációja)



6. Összefoglalás

A Vision Transformer egy új paradigmát hozott a számítógépes látásba, amely a Transformer architektúrát alkalmazza képek globális jellemzőinek hatékony feldolgozására. Bár nagyobb adat- és számítási igényű, jelentős előrelépést jelent a komplex képfeldolgozó feladatok megoldásában.