computer vision
Megjelenés
| part of a series on |
| artificial intelligence (ai) |
|---|
Főnév
computer vision (tsz. computer visions)
A computer vision, magyarul számítógépes látás, a mesterséges intelligencia egyik ága, amelynek célja, hogy a gépek értelmezni tudják a vizuális világot – azaz képekből, videókból vagy élő kameraképekből információt nyerjenek ki, hasonlóan ahhoz, ahogyan az emberi látás működik.
Ez nem csupán „képfeldolgozás”, hanem magas szintű értelmezés: például mi van a képen, hol található, mit csinál, stb.
🎯 Alapvető célok
- 🧭 Felismerés – pl. arcok, tárgyak, rendszámok azonosítása
- 📍 Helymeghatározás – hol található az adott objektum a képen?
- 🧠 Megértés – milyen kapcsolat van objektumok között, mit csinálnak?
- 🔄 Műveletek vezérlése – pl. robotok, önvezető autók navigációja vizuális jelek alapján
🧩 Tipikus feladatok
| Feladat | Leírás |
|---|---|
| Képklasszifikáció | Melyik kategóriába tartozik a kép? (pl. macska vagy kutya) |
| Objektumdetektálás | Mi van a képen, és hol? (pl. autó és hol található a képen) |
| Szegmentálás | Melyik képpont melyik objektumhoz tartozik? (pixel-pontos lehatárolás) |
| Pózbecslés | Emberi test (csontváz) helyzete a képen |
| Arcfelismerés | Kinek az arca szerepel a képen? |
| OCR (optikai karakterfelismerés) | Szöveg kiolvasása képből |
| 3D rekonstrukció | Képek alapján 3D modell létrehozása |
| Mozgáskövetés | Objektum követése több képkockán keresztül |
📦 Alkalmazási területek
| Terület | Alkalmazás |
|---|---|
| Ipari automatizálás | Minőségellenőrzés, robotvezérlés |
| Egészségügy | Röntgen, MRI, CT képek automatikus értelmezése |
| Autonóm járművek | Útjelzések, gyalogosok, járművek észlelése |
| Közbiztonság | Tömegfigyelés, rendszámfelismerés |
| Kiskereskedelem | Polcfelismerés, vásárlói viselkedés elemzése |
| AR/VR | Térbeli jelenetek elemzése valós időben |
| Mezőgazdaság | Beteg növények azonosítása, hozambecslés |
| Sportelemzés | Játékosok, labda, mozgáskövetés videóból |
🧪 Módszertanok
1. Klasszikus képfeldolgozás
- Szűrők: élek, textúrák, kontraszt
- Alakzatfelismerés: kontúrok, szegmensek
- OpenCV, PIL, scikit-image stb.
2. Gépi tanulás
- Jellemzők extrakciója (pl. SIFT, HOG)
- Klasszikus tanulók: SVM, KNN
3. Mélytanulás (Deep Learning)
- Konvolúciós neurális hálók (CNN-ek)
- Objektumdetektorok: YOLO, SSD, Faster R-CNN
- Szegmentálók: U-Net, DeepLab, Mask R-CNN
- Arcmodellek: FaceNet, Dlib, OpenFace
🤖 Mélytanulás és CNN-ek
A konvolúciós neurális hálók (CNN) különösen hatékonyak képek feldolgozására:
- Lépésről lépésre megtanulják a vizuális mintázatokat
- Automatikusan felismerik: élek → alakzatok → objektumok
- Nem igényel kézi jellemző-kivonást
📘 Egyszerű CNN Pythonban (Keras)
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Conv2D, MaxPooling2D, Flatten, Dense
model = Sequential([
Conv2D(32, kernel_size=3, activation='relu', input_shape=(64, 64, 3)),
MaxPooling2D(pool_size=2),
Flatten(),
Dense(64, activation='relu'),
Dense(1, activation='sigmoid') # bináris osztályozás
])
model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])
🛠️ Népszerű eszközök és könyvtárak
| Név | Cél |
|---|---|
| OpenCV | Klasszikus képfeldolgozás |
| TensorFlow, PyTorch | Mélytanulás modellek |
| Detectron2 | Objektumdetektálás és szegmentálás |
| YOLO | Valós idejű objektumfelismerés |
| MediaPipe | Arckövetés, kézmozgás, pózbecslés |
| Tesseract | OCR (szövegfelismerés képből) |
📈 Kiértékelési metrikák
| Feladat | Metrika |
|---|---|
| Képklasszifikáció | Accuracy, top-k accuracy |
| Objektumdetektálás | mAP (mean average precision) |
| Szegmentálás | IoU (Intersection over Union), Dice score |
| OCR | Karakter / szó hibaarány (CER, WER) |
✅ Előnyök
- 🧭 Automatizálható a vizuális értelmezés
- 🧠 Mély modellek képesek „megtanulni látni”
- 📊 Nagy adathalmazokból pontos mintafelismerés
- ⚙️ Beépíthető gyártási, egészségügyi, közlekedési rendszerekbe
⚠️ Kihívások
| Probléma | Magyarázat |
|---|---|
| Adatéhség | Nagyon sok címkézett kép kell a tanításhoz |
| Számításigény | GPU szükséges a mély modellekhez |
| Általánosítás | Egy új kamera, fényviszony már tönkreteheti a modellt |
| Etikai kérdések | Arcazonosítás, adatvédelem, diszkrimináció veszélye |
| Valós idejű követelmények | Nagy sebesség, kis késleltetés |
🧾 Összefoglalás
| Tulajdonság | Leírás |
|---|---|
| Definíció | Képekből és videóból történő automatikus információkinyerés |
| Cél | Felismerés, követés, elemzés, vezérlés |
| Fő technikák | Klasszikus képfeldolgozás, gépi tanulás, CNN |
| Alkalmazások | Orvosi képalkotás, önvezetés, gyártás, biztonság |
| Eszközök | OpenCV, TensorFlow, YOLO, MediaPipe |
| Előnyök | Automatikus értelmezés, sok területre alkalmazható |
| Hátrányok | Adatigényes, számításigényes, érzékeny a változásokra |
- computer vision - Szótár.net (en-hu)
- computer vision - Sztaki (en-hu)
- computer vision - Merriam–Webster
- computer vision - Cambridge
- computer vision - WordNet
- computer vision - Яндекс (en-ru)
- computer vision - Google (en-hu)
- computer vision - Wikidata
- computer vision - Wikipédia (angol)
