computer audition
Megjelenés
Főnév
computer audition (tsz. computer auditions)
- (informatika, mesterséges intelligencia) Computer Audition (magyarul: számítógépes hallás vagy gépi hangérzékelés) az a kutatási és alkalmazási terület, amelyben számítógépek vagy mesterséges intelligencia rendszerek hangalapú adatok automatikus feldolgozására, elemzésére és értelmezésére képesek — hasonlóan ahhoz, ahogy az emberi hallás érzékeli és értelmezi a hangokat.
🧠 Alapötlet
Ahogyan a számítógépes látás (computer vision) célja a vizuális világ megértése, úgy a computer audition célja az akusztikus világ észlelése és feldolgozása.
Ez nemcsak hangfelismerést jelent, hanem sokkal többet:
- zene elemzése
- beszéd felismerés
- hangforrás azonosítás
- térbeli hangfeldolgozás
- akciók és események akusztikus észlelése
📦 Alkalmazási területek
| Terület | Példák |
|---|---|
| Beszédfelismerés | Automatikus átirat készítése (pl. Google Speech-to-Text) |
| Zeneinformációs visszakeresés (MIR) | Dallam-keresés, ritmusfelismerés, zenei műfaj-azonosítás |
| Hangforrás szeparáció | Egyes hangszerek vagy beszélők kiszűrése zajból |
| Hangos eseménydetektálás | Pl. üvegtörés, vészjelzés, taps |
| Akusztikus helymeghatározás | Forrás lokalizálása mikrofonhálóval |
| Hangulatérzékelés | Zenei vagy beszédből származó érzelmi állapotok felismerése |
| Többhangos interakció | Különböző beszélők vagy zajok egyidejű elemzése |
🔧 Fő technológiák
| Módszer / Modell | Használat |
|---|---|
| MFCC (Mel-Frequency Cepstral Coefficients) | Jellemzők kinyerése beszédből vagy zenéből |
| Spectrogram | Idő-frekvencia reprezentáció |
| Hidden Markov Models (HMM) | Beszédfelismerés, időfüggő hangmodellezés |
| Recurrent Neural Networks (RNN) | Hangos események sorozatainak elemzése |
| Convolutional Neural Networks (CNN) | Spektrogram képek elemzése |
| Self-supervised learning (Wav2Vec, HuBERT) | Beszédmodellek nagy mennyiségű adaton tanítva |
| Blind Source Separation (ICA, NMF) | Hangforrások szétválasztása (pl. ének és zene szétválasztása) |
🎵 Példa: Zenei műfaj azonosítás (Python + librosa)
import librosa
import numpy as np
# Hangfájl betöltése
y, sr = librosa.load('song.mp3')
# MFCC jellemzők kinyerése
mfcc = librosa.feature.mfcc(y=y, sr=sr, n_mfcc=13)
# Átlagos MFCC jellemző az idő mentén
mfcc_mean = np.mean(mfcc, axis=1)
print("MFCC jellemzők:", mfcc_mean)
Ezeket a jellemzőket aztán egy osztályozónak (pl. döntési fa, SVM, neurális háló) lehet átadni, amely az adott jellemzők alapján eldönti a műfajt.
🧰 Hasznos könyvtárak
| Név | Funkció |
|---|---|
| librosa | Zene és hangjel-feldolgozás Pythonban |
| PyDub | Audió fájlok manipulálása |
| SpeechRecognition | Egyszerű beszédfelismerés |
| OpenSMILE | Akusztikus jellemzők kivonása |
| ESPnet / Wav2Vec | Beszédfeldolgozás neurális modellekkel |
| Soundfile / torchaudio | Hangfájlok olvasása és konvertálása |
| Madmom | Zenei eseménydetekció, ütemfelismerés, tempóanalízis |
🧩 Computer Audition vs Speech Recognition
| Szempont | Computer Audition | Speech Recognition |
|---|---|---|
| Cél | Bármilyen hang automatikus értelmezése | Csak beszéd átalakítása szöveggé |
| Példa | Üvegtörés felismerése, háttérzaj-szűrés | „Hey Siri, open calendar” felismerése |
| Modell | Általánosabb hangfeldolgozás | Speciálisan emberi nyelvre tanított modell |
🧠 TL;DR
A computer audition olyan rendszerek és algoritmusok összessége, amelyek képesek akusztikus információt érzékelni, feldolgozni és értelmezni, hasonlóan az emberi halláshoz. Felhasználható beszédfelismerésre, zeneanalízisre, zajok és események felismerésére, sőt térbeli helymeghatározásra is.
- computer audition - Szótár.net (en-hu)
- computer audition - Sztaki (en-hu)
- computer audition - Merriam–Webster
- computer audition - Cambridge
- computer audition - WordNet
- computer audition - Яндекс (en-ru)
- computer audition - Google (en-hu)
- computer audition - Wikidata
- computer audition - Wikipédia (angol)