Ugrás a tartalomhoz

computer audition

A Wikiszótárból, a nyitott szótárból


Főnév

computer audition (tsz. computer auditions)

  1. (informatika, mesterséges intelligencia) Computer Audition (magyarul: számítógépes hallás vagy gépi hangérzékelés) az a kutatási és alkalmazási terület, amelyben számítógépek vagy mesterséges intelligencia rendszerek hangalapú adatok automatikus feldolgozására, elemzésére és értelmezésére képesek — hasonlóan ahhoz, ahogy az emberi hallás érzékeli és értelmezi a hangokat.



🧠 Alapötlet

Ahogyan a számítógépes látás (computer vision) célja a vizuális világ megértése, úgy a computer audition célja az akusztikus világ észlelése és feldolgozása.

Ez nemcsak hangfelismerést jelent, hanem sokkal többet:

  • zene elemzése
  • beszéd felismerés
  • hangforrás azonosítás
  • térbeli hangfeldolgozás
  • akciók és események akusztikus észlelése



📦 Alkalmazási területek

Terület Példák
Beszédfelismerés Automatikus átirat készítése (pl. Google Speech-to-Text)
Zeneinformációs visszakeresés (MIR) Dallam-keresés, ritmusfelismerés, zenei műfaj-azonosítás
Hangforrás szeparáció Egyes hangszerek vagy beszélők kiszűrése zajból
Hangos eseménydetektálás Pl. üvegtörés, vészjelzés, taps
Akusztikus helymeghatározás Forrás lokalizálása mikrofonhálóval
Hangulatérzékelés Zenei vagy beszédből származó érzelmi állapotok felismerése
Többhangos interakció Különböző beszélők vagy zajok egyidejű elemzése



🔧 Fő technológiák

Módszer / Modell Használat
MFCC (Mel-Frequency Cepstral Coefficients) Jellemzők kinyerése beszédből vagy zenéből
Spectrogram Idő-frekvencia reprezentáció
Hidden Markov Models (HMM) Beszédfelismerés, időfüggő hangmodellezés
Recurrent Neural Networks (RNN) Hangos események sorozatainak elemzése
Convolutional Neural Networks (CNN) Spektrogram képek elemzése
Self-supervised learning (Wav2Vec, HuBERT) Beszédmodellek nagy mennyiségű adaton tanítva
Blind Source Separation (ICA, NMF) Hangforrások szétválasztása (pl. ének és zene szétválasztása)



🎵 Példa: Zenei műfaj azonosítás (Python + librosa)

import librosa
import numpy as np

# Hangfájl betöltése
y, sr = librosa.load('song.mp3')

# MFCC jellemzők kinyerése
mfcc = librosa.feature.mfcc(y=y, sr=sr, n_mfcc=13)

# Átlagos MFCC jellemző az idő mentén
mfcc_mean = np.mean(mfcc, axis=1)

print("MFCC jellemzők:", mfcc_mean)

Ezeket a jellemzőket aztán egy osztályozónak (pl. döntési fa, SVM, neurális háló) lehet átadni, amely az adott jellemzők alapján eldönti a műfajt.



🧰 Hasznos könyvtárak

Név Funkció
librosa Zene és hangjel-feldolgozás Pythonban
PyDub Audió fájlok manipulálása
SpeechRecognition Egyszerű beszédfelismerés
OpenSMILE Akusztikus jellemzők kivonása
ESPnet / Wav2Vec Beszédfeldolgozás neurális modellekkel
Soundfile / torchaudio Hangfájlok olvasása és konvertálása
Madmom Zenei eseménydetekció, ütemfelismerés, tempóanalízis



🧩 Computer Audition vs Speech Recognition

Szempont Computer Audition Speech Recognition
Cél Bármilyen hang automatikus értelmezése Csak beszéd átalakítása szöveggé
Példa Üvegtörés felismerése, háttérzaj-szűrés „Hey Siri, open calendar” felismerése
Modell Általánosabb hangfeldolgozás Speciálisan emberi nyelvre tanított modell



🧠 TL;DR

A computer audition olyan rendszerek és algoritmusok összessége, amelyek képesek akusztikus információt érzékelni, feldolgozni és értelmezni, hasonlóan az emberi halláshoz. Felhasználható beszédfelismerésre, zeneanalízisre, zajok és események felismerésére, sőt térbeli helymeghatározásra is.