diffusion model
Főnév
diffusion model (tsz. diffusion models)
- (informatika, mesterséges intelligencia) A diffusion model – magyarul: diffúziós modell – egy olyan generatív mesterséges intelligencia-architektúra, amely képek, hangok vagy más adatok előállítására képes, azáltal, hogy fokozatosan zajt ad egy meglévő adatponthoz, majd megtanulja visszafordítani ezt a folyamatot, így új adatmintákat generál tiszta zajból.
Ez a módszer rendkívül népszerűvé vált az utóbbi években, különösen a képalkotó modellek (pl. DALL·E 2, Stable Diffusion, Midjourney) és a hanggeneráló rendszerek körében.
🧠 1. Alapötlet
A diffúziós modellek megtanulják fokozatosan „elrontani” (zajossá tenni) egy bemeneti adatot, majd megtanulják a visszafordítást, hogy a zajból adatot tudjanak generálni.
Két fázis:
- Forward process (diffusion) – az eredeti adatból (pl. kép) fokozatosan tiszta zaj lesz
- Reverse process (denoising) – a modell megtanulja, hogyan „takarítsa ki” a zajt és állítsa elő az adatot
🔁 2. Hogyan működik?
- Zaj hozzáadása: az adathoz (pl. képhez) véletlenszerű Gauss-zajt adunk sok lépésen keresztül.
- Tanítás: a modell (pl. U-Net + időbeágyazás) megtanulja megjósolni az adott lépésnél lévő zajt, hogy visszafejthető legyen.
- Generálás: új mintát zajból indítva iteratívan alkalmazzuk a megtanult „zajtalanító” lépéseket.
🧪 3. Matematikai háttér (egyszerűsítve)
A forward folyamat:
A cél, hogy megtanuljuk -t, azaz hogy egy zajos mintából rekonstruáljunk egy tisztább állapotot.
🖼️ 4. Alkalmazások
| Terület | Példa |
|---|---|
| Képalkotás | Stable Diffusion, DALL·E, Midjourney |
| Hanggenerálás | Audio diffusion, vocoder modellek |
| Képrekonstrukció | Hiányzó képrészletek kiegészítése |
| Adatszimuláció | Molekuláris modellezés, protein folding |
| Text-to-image | Szöveg alapján képgenerálás (prompting) |
📦 5. Népszerű diffúziós modellek
| Modell | Funkció |
|---|---|
| DDPM (Ho et al., 2020) | Alapmodell, elindította a trendet |
| Improved DDPM | Gyorsabb, jobb minták |
| Stable Diffusion | Szövegből képet → nyílt forrású |
| Imagen (Google) | Nagy pontosságú szöveg–kép modell |
| OpenAI’s GLIDE | Szöveges kondicionált diffúziós modell |
🧰 6. Alap építőelemek
- U-Net architektúra – a zajtalanító hálózat
- Time embedding – a modell figyelembe veszi, melyik zajszintnél tart
- Variational Inference / ELBO – a tanulás matematikai alapja
- Classifier-free guidance – képgenerálás pontosságának növelése
🧠 7. Előnyök
✅ Magas minőségű minták ✅ Nagyobb kontroll a generálás felett ✅ Szöveges vagy képi kondicionálással irányítható ✅ Jobb mint GAN-ek sok területen (kevésbé hajlamos a “mode collapse”-re)
⚠️ 8. Kihívások
❌ Lassú generálás – több száz lépés ❌ Erőforrás-igényes – GPU-kon tanítandó ❌ Hosszabb betanítási idő ❌ Érzékeny a tanítási paraméterekre
🧾 9. Összefoglalás
A diffusion model:
- Egy generatív modell, amely adatokat zajból állít elő, fokozatos zajtalanítással
- Kiváló minőségű képek, hangok és más típusú adatminták előállítására képes
- Jelentős előrelépés a GAN-ekhez és VAE-khez képest sok területen
- A mesterséges intelligencia modern, kreatív alkalmazásainak központi technológiája
- diffusion model - Szótár.net (en-hu)
- diffusion model - Sztaki (en-hu)
- diffusion model - Merriam–Webster
- diffusion model - Cambridge
- diffusion model - WordNet
- diffusion model - Яндекс (en-ru)
- diffusion model - Google (en-hu)
- diffusion model - Wikidata
- diffusion model - Wikipédia (angol)