Ugrás a tartalomhoz

approximate string matching

A Wikiszótárból, a nyitott szótárból


Főnév

approximate string matching (tsz. approximate string matchings)

  1. (informatika, mesterséges intelligencia) Az approximate string matching (magyarul: közelítő karakterlánc-illesztés vagy helyközi illesztés) egy algoritmikus technika, amely arra szolgál, hogy két sztring (karakterlánc) hasonlóságát megtalálja, még akkor is, ha azok nem teljesen egyeznek meg — például helyesírási hibák, hiányzó vagy plusz karakterek esetén.



Mi az az approximate string matching?

  • Egy olyan keresési és összehasonlító módszer, amely nem csak a pontos egyezést, hanem a közelítő egyezést is képes kezelni.
  • Általában számolja vagy méri a különbségeket (például beillesztés, törlés, helyettesítés) a két sztring között, és ha ez a különbség egy előre megadott küszöbön belül van, akkor az egyezés elfogadott.



Mire használják?

  • Szövegszerkesztők: Helyesírás-ellenőrzés, hibás szavak keresése.
  • Bioinformatika: DNS- vagy fehérjeláncok összehasonlítása.
  • Keresőmotorok: Pontatlan keresőkifejezések kezelése.
  • Adattisztítás: Duplikált vagy hibás adatok felismerése.
  • Feldolgozó rendszerek: Szöveg-feldolgozás, beszédfelismerés.



Legismertebb algoritmusok és távolságmértékek

  1. Levenshtein-távolság (szerkesztési távolság): A két sztring közötti minimum számú karakterbeillesztés, törlés vagy cserék száma.
  2. Damerau-Levenshtein távolság: Levenshtein-távolság továbbfejlesztése, amely figyelembe veszi a karakterek helycseréjét is.
  3. Hamming-távolság: Csak az azonos hosszúságú sztringeknél értelmezett, a különböző karakterek száma a két sztringben.



Példa

Sztringek: "alma" és "alna"

  • Levenshtein-távolság: 1 (kicseréljük az ‘m’-et ‘n’-re)
  • Ez alapján a két szó közelítőleg egyezik.



Összefoglaló

Az approximate string matching egy hasznos módszer a karakterláncok hasonlóságának mérésére, különösen hibás vagy pontatlan szövegek esetén, amely lehetővé teszi a rugalmas és toleráns keresést vagy összehasonlítást.