számítógépes látás
Kiejtés
- IPA: [ ˈsaːmiːtoːɡeːpɛʃlaːtaːʃ]
Főnév
A számítógépes látás (computer vision) a mesterséges intelligencia és az informatika egyik legdinamikusabban fejlődő területe, amelynek célja, hogy a számítógépek és digitális rendszerek értelmezni, elemezni és értelmes módon feldolgozni tudják a vizuális információkat (képeket, videókat) – hasonlóan ahhoz, ahogyan az emberi látás működik.
🧠 Mi az a számítógépes látás?
A számítógépes látás célja, hogy a gépek „lássonak” és „megértsék”, amit látnak, például:
- felismerjenek tárgyakat, embereket, szöveget, mozgást,
- képesek legyenek osztályozni, szegmentálni vagy nyomon követni vizuális elemeket,
- automatizálják a döntéshozatalt képek alapján.
🧩 Alapvető feladatok
| Feladat | Leírás |
|---|---|
| Képosztályozás (classification) | Egy kép melyik kategóriába tartozik? (pl. kutya, macska) |
| Tárgyfelismerés (object detection) | Hol van a képen az adott objektum? |
| Képszegmentálás (segmentation) | Melyik pixel hova tartozik? |
| Arc-/szemfelismerés | Azonosítás személy vagy arcvonás alapján |
| Mozgáskövetés (tracking) | Egy objektum követése videón belül |
| Szövegfelismerés (OCR) | Képből szöveg kiolvasása |
| Pózbecslés (pose estimation) | Emberi test pontjainak azonosítása |
| 3D rekonstrukció | Térbeli modell létrehozása síkbeli képekből |
🧪 Példa: objektumfelismerés képen
👉 Cél: felismerni egy képen például autót, embert, biciklit 📌 Eredmény: az objektum neve + pozíció (pl. téglalappal körbejelölve) 🛠️ Algoritmus: YOLOv5, SSD, Faster R-CNN
🤖 Gépi tanulás szerepe
A modern számítógépes látás mélytanuláson (deep learning) alapul, különösen:
- Konvolúciós neurális hálózatok (CNN-ek): alapja minden képalapú feladatnak
- ResNet, MobileNet, EfficientNet – képosztályozó modellek
- YOLO, SSD, Mask R-CNN – objektumdetektálók
- U-Net – képszegmentáló architektúra
- OpenAI CLIP, DINO, SAM – fejlett látásmodellek szöveg+vizuális inputokra
📦 Népszerű könyvtárak és keretrendszerek
| Eszköz | Leírás |
|---|---|
| OpenCV | Alacsony szintű képfeldolgozás és alapvető látásfunkciók |
| TensorFlow / PyTorch | Mélytanulás képfeldolgozási modellekhez |
| MediaPipe | Valós idejű arcfelismerés, kéz-, test-póz követés |
| Tesseract OCR | Képekből szöveg kiolvasása |
| Detectron2 / YOLOv8 | Haladó objektumfelismerés és szegmentálás |
🏗️ Tipikus alkalmazások
| Terület | Példa |
|---|---|
| Ipar és gyártás | Hibakeresés gépi látással |
| Autonóm járművek | Sávkövetés, gyalogos-felismerés, táblák olvasása |
| Egészségügy | Röntgen, MRI képek automatikus elemzése |
| Biztonságtechnika | Arcazonosítás, rendszámfelismerés |
| Kiskereskedelem | Vásárlók mozgásának nyomon követése |
| Mobilalkalmazások | Szűrők, arcfelismerő kamera, AR-funkciók |
| Agrárium | Növénybetegségek képi azonosítása |
📈 Előnyök
- Automatikus, gyors képelemzés
- Objektív döntések – nem fárad, nem hibázik mint az ember
- Nagy mennyiségű adat valós idejű feldolgozása
- Kiválóan kombinálható más AI-technológiákkal
⚠️ Kihívások
- Zaj vagy rossz fényviszonyok → pontatlan eredmény
- Általánosítási nehézségek: egy új környezethez újra kell tanítani
- Etikai kérdések: arcfelismerés, megfigyelés, adatvédelem
- Magas számítási igény (főleg valós idejű rendszereknél)
🧾 Összefoglalás
A számítógépes látás a mesterséges intelligencia „szeme”, amely képes értelmezni, felismerni és feldolgozni képi információkat hasonlóan az emberi látásmódhoz. Segítségével automatizálhatók bonyolult vizuális feladatok, és rengeteg iparágban hoz forradalmi fejlődést – az orvostudománytól az önvezető autókon át a gyártósorokig.
Fordítások
- számítógépes látás - Értelmező szótár (MEK)
- számítógépes látás - Etimológiai szótár (UMIL)
- számítógépes látás - Szótár.net (hu-hu)
- számítógépes látás - DeepL (hu-de)
- számítógépes látás - Яндекс (hu-ru)
- számítógépes látás - Google (hu-en)
- számítógépes látás - Helyesírási szótár (MTA)
- számítógépes látás - Wikidata
- számítógépes látás - Wikipédia (magyar)