Ugrás a tartalomhoz

acoustic model

A Wikiszótárból, a nyitott szótárból


Főnév

acoustic model (tsz. acoustic models)

  1. (informatika) akusztikai modell

Az akusztikus modell egy kulcsfontosságú komponens a beszédfelismerő rendszerekben, amely a hangjelek és a hozzájuk tartozó fonémák (beszédhangok) közötti kapcsolatot modellezi.



Mi az az akusztikus modell?

  • Egy olyan statisztikai vagy gépi tanuláson alapuló modell, amely a hanghullámokat és a beszédben előforduló fonémákat vagy hangegységeket köti össze.
  • Segít a számítógépnek abban, hogy a bemeneti hangjelből megértse, milyen beszédhangok vannak jelen.
  • Alapja lehet például rejtek Markov-modelleknek (HMM), neurális hálóknak vagy deep learning alapú megközelítéseknek.



Mire használják?

  • Automatikus beszédfelismerés (ASR): A hangfelvételt fonémákra vagy szavakra bontja, amelyeket aztán a nyelvi modell segítségével értelmeznek.
  • Hangalapú asszisztensek: Siri, Alexa, Google Assistant működésének alapja.
  • Beszédalapú rendszerek: Hangvezérelt eszközök, átírási rendszerek.



Hogyan működik?

  1. Bemenet: Egy rövid hangszegmens (pl. néhány tizedmásodpercnyi hang).
  2. Jellemzők kinyerése: A hangból kiszámolják az ún. akusztikus jellemzőket (pl. Mel-frekvencia cepstrum koefficiensek, MFCC).
  3. Modellezés: Az akusztikus modell meghatározza annak valószínűségét, hogy az adott jellemzők melyik fonémának felelnek meg.
  4. Kombináció nyelvi modellel: A fonémákból szavak lesznek, figyelembe véve a nyelvtani szabályokat, szógyakoriságokat.



Típusai

  • Hagyományos akusztikus modellek: Rejtett Markov-modellek (HMM), GMM-HMM (Gauss-összegek és HMM kombinációja).
  • Modern modellek: Mély neurális hálók (DNN), konvolúciós és rekurzív neurális hálók (CNN, RNN), transzformerek.



Összefoglaló

Az akusztikus modell a beszéd hangzását matematikailag és statisztikailag reprezentálja, hogy a gép meg tudja érteni a hallott beszédet fonémák és szavak szintjén. Ez az első és egyik legfontosabb lépés az automatikus beszédfelismerésben.