Ugrás a tartalomhoz

számítógépes látás

A Wikiszótárból, a nyitott szótárból

Kiejtés

  • IPA: [ ˈsaːmiːtoːɡeːpɛʃlaːtaːʃ]

Főnév

számítógépes látás

  1. (informatika, mesterséges intelligencia)

A számítógépes látás (computer vision) a mesterséges intelligencia és az informatika egyik legdinamikusabban fejlődő területe, amelynek célja, hogy a számítógépek és digitális rendszerek értelmezni, elemezni és értelmes módon feldolgozni tudják a vizuális információkat (képeket, videókat) – hasonlóan ahhoz, ahogyan az emberi látás működik.



🧠 Mi az a számítógépes látás?

A számítógépes látás célja, hogy a gépek „lássonak” és „megértsék”, amit látnak, például:

  • felismerjenek tárgyakat, embereket, szöveget, mozgást,
  • képesek legyenek osztályozni, szegmentálni vagy nyomon követni vizuális elemeket,
  • automatizálják a döntéshozatalt képek alapján.



🧩 Alapvető feladatok

Feladat Leírás
Képosztályozás (classification) Egy kép melyik kategóriába tartozik? (pl. kutya, macska)
Tárgyfelismerés (object detection) Hol van a képen az adott objektum?
Képszegmentálás (segmentation) Melyik pixel hova tartozik?
Arc-/szemfelismerés Azonosítás személy vagy arcvonás alapján
Mozgáskövetés (tracking) Egy objektum követése videón belül
Szövegfelismerés (OCR) Képből szöveg kiolvasása
Pózbecslés (pose estimation) Emberi test pontjainak azonosítása
3D rekonstrukció Térbeli modell létrehozása síkbeli képekből



🧪 Példa: objektumfelismerés képen

👉 Cél: felismerni egy képen például autót, embert, biciklit 📌 Eredmény: az objektum neve + pozíció (pl. téglalappal körbejelölve) 🛠️ Algoritmus: YOLOv5, SSD, Faster R-CNN



🤖 Gépi tanulás szerepe

A modern számítógépes látás mélytanuláson (deep learning) alapul, különösen:

  • Konvolúciós neurális hálózatok (CNN-ek): alapja minden képalapú feladatnak
  • ResNet, MobileNet, EfficientNet – képosztályozó modellek
  • YOLO, SSD, Mask R-CNN – objektumdetektálók
  • U-Net – képszegmentáló architektúra
  • OpenAI CLIP, DINO, SAM – fejlett látásmodellek szöveg+vizuális inputokra



📦 Népszerű könyvtárak és keretrendszerek

Eszköz Leírás
OpenCV Alacsony szintű képfeldolgozás és alapvető látásfunkciók
TensorFlow / PyTorch Mélytanulás képfeldolgozási modellekhez
MediaPipe Valós idejű arcfelismerés, kéz-, test-póz követés
Tesseract OCR Képekből szöveg kiolvasása
Detectron2 / YOLOv8 Haladó objektumfelismerés és szegmentálás



🏗️ Tipikus alkalmazások

Terület Példa
Ipar és gyártás Hibakeresés gépi látással
Autonóm járművek Sávkövetés, gyalogos-felismerés, táblák olvasása
Egészségügy Röntgen, MRI képek automatikus elemzése
Biztonságtechnika Arcazonosítás, rendszámfelismerés
Kiskereskedelem Vásárlók mozgásának nyomon követése
Mobilalkalmazások Szűrők, arcfelismerő kamera, AR-funkciók
Agrárium Növénybetegségek képi azonosítása



📈 Előnyök

  • Automatikus, gyors képelemzés
  • Objektív döntések – nem fárad, nem hibázik mint az ember
  • Nagy mennyiségű adat valós idejű feldolgozása
  • Kiválóan kombinálható más AI-technológiákkal



⚠️ Kihívások

  • Zaj vagy rossz fényviszonyok → pontatlan eredmény
  • Általánosítási nehézségek: egy új környezethez újra kell tanítani
  • Etikai kérdések: arcfelismerés, megfigyelés, adatvédelem
  • Magas számítási igény (főleg valós idejű rendszereknél)



🧾 Összefoglalás

A számítógépes látás a mesterséges intelligencia „szeme”, amely képes értelmezni, felismerni és feldolgozni képi információkat hasonlóan az emberi látásmódhoz. Segítségével automatizálhatók bonyolult vizuális feladatok, és rengeteg iparágban hoz forradalmi fejlődést – az orvostudománytól az önvezető autókon át a gyártósorokig.


Fordítások