Ugrás a tartalomhoz

information retrieval

A Wikiszótárból, a nyitott szótárból


Főnév

information retrieval (tsz. information retrievals)

  1. (informatika) Az információkeresés (angolul information retrieval, röviden IR) egy olyan tudományterület, amely az információ (elsősorban szöveges dokumentumok) hatékony megtalálását vizsgálja strukturálatlan vagy részben strukturált adathalmazokból. Az IR leggyakoribb alkalmazása a webes keresőmotorokban valósul meg, mint amilyen a Google, Bing vagy DuckDuckGo, de fontos szerepet játszik adatbázisokban, könyvtári rendszerekben, orvosi adatkeresésben és jogi dokumentumok kezelésében is.



1. Alapfogalmak

  • Dokumentum: Az információ egysége, amelyet visszakeresni próbálunk (pl. egy cikk, könyv, weboldal).
  • Korpusz (corpus): Dokumentumok összessége, amelyen az IR rendszer dolgozik.
  • Lekérdezés (query): A felhasználó által megadott keresési kifejezés.
  • Relevancia: Egy dokumentum mértéke, hogy mennyire válaszol a lekérdezésre.



2. Az IR rendszer működése

Az IR rendszer célja, hogy egy lekérdezés alapján a legrelevánsabb dokumentumokat adja vissza a felhasználónak. Ennek fő lépései:

  1. Indexelés: A dokumentumokat előfeldolgozzák és indexelik, hogy gyorsan kereshetővé váljanak. A folyamat tartalmazza:

    • Tokenizálás (szavakra bontás)
    • Stop word szűrés (gyakori szavak, pl. „és”, „az” eltávolítása)
    • Lemmatizálás vagy szótövezés (szavak alapalakra hozása)
  2. Fordított index (inverted index): Az egyik leggyakoribb indexstruktúra, amely azt jegyzi meg, hogy egy adott szó mely dokumentumokban fordul elő. Olyan, mint egy fordított szótár:

    szó: [dokumentumID1, dokumentumID2, ...]
  3. Dokumentum reprezentációja: A dokumentumokat vektorként is reprezentálhatjuk, ahol minden dimenzió egy-egy szó (vektortér-modell, lásd később).



3. Vektortér-modell (Vector Space Model, VSM)

A dokumentumokat és a lekérdezéseket vektorokként ábrázoljuk egy többdimenziós térben. A hasonlóságot a koszinusz hasonlóság méri:

cos(θ) = (D · Q) / (|D||Q|)

ahol:

  • D a dokumentum vektora
  • Q a lekérdezés vektora
  • · a skalárszorzat

Minél nagyobb az érték (maximum 1), annál hasonlóbbak.

TF-IDF súlyozás

A szavak súlyozása két tényező alapján történik:

  • TF (Term Frequency): adott szó hányszor fordul elő a dokumentumban.
  • IDF (Inverse Document Frequency): mennyire ritka a szó a korpuszban.

A TF-IDF képlet:

TF-IDF(t, d) = tf(t, d) × log(N / df(t))

Ahol:

  • t a szó
  • d a dokumentum
  • N az összes dokumentum száma
  • df(t) azon dokumentumok száma, ahol t előfordul



4. Bools logika alapú keresés

A legegyszerűbb IR modell, ahol a lekérdezés logikai operátorokkal történik:

  • AND – csak azokat a dokumentumokat adja vissza, amelyek mindkét szót tartalmazzák
  • OR – bármelyik szót tartalmazó dokumentumokat adja vissza
  • NOT – kizárja a megadott szót tartalmazó dokumentumokat

Példa: (cica AND kutya) NOT hörcsög



5. Értékelés (Evaluation)

Az IR rendszerek minőségét különböző mutatókkal mérjük:

  • Precision: A visszaadott dokumentumok közül mennyi releváns.

    Precision = releváns & visszaadott / visszaadott
  • Recall: A releváns dokumentumok közül mennyit találtunk meg.

    Recall = releváns & visszaadott / releváns összesen
  • F-measure: A precision és recall harmonikus átlaga.

  • Mean Average Precision (MAP): Több lekérdezés esetén a precision átlagát adja vissza.



6. Modern keresőmotorok

A mai webes keresők (pl. Google) a klasszikus IR technikák mellett gépi tanulást, linkanalízist és természetes nyelvfeldolgozást is alkalmaznak. Néhány kulcsfogalom:

  • PageRank: A Google egyik alapötlete, ami szerint egy oldal akkor értékes, ha sok más értékes oldal hivatkozik rá.
  • Klikkalapú tanulás: A rendszer tanul a felhasználók kattintásaiból, hogy mely találatok voltak hasznosak.
  • Query expansion: A lekérdezést automatikusan kibővíti rokon vagy szinonim szavakkal (pl. „auto” → „jármű”, „kocsi”).



7. Nyelvi modellek az IR-ben

A 2020-as évektől kezdve a természetes nyelv feldolgozásban (NLP) használt nyelvi modellek (pl. BERT, GPT) egyre inkább előtérbe kerülnek az IR rendszerekben is.

Példa alkalmazások:

  • Neural IR: mélytanulásra épülő modellek dokumentum-lekérdezés párokhoz
  • Semantic Search: nem csak kulcsszavak, hanem a jelentés alapján keres



8. Specializált IR rendszerek

  • Orvosi IR: orvosi cikkek és adatok keresése (pl. PubMed)
  • Jogász IR: precedensek, törvényszövegek keresése
  • Multimodális IR: szöveg + kép + hang együttese alapján való keresés



9. Nehézségek és kihívások

  • Szinonimák, többértelműség: „bank” lehet pénzintézet vagy folyópart
  • Felhasználói szándék felismerése: mi a lekérdezés célja? vásárlás, tanulás, információ?
  • Skálázhatóság: milliárdnyi dokumentum gyors kezelése
  • Élő adatok kezelése: weboldalak folyamatos változása



10. Jövője

Az IR jövője a semantikus keresés, a gépi tanulás és a kontekstuális megértés egyesítésén alapul. A cél nemcsak az, hogy megtaláljuk az információt, hanem hogy megértsük, mit keres a felhasználó.



Összefoglalás

Fogalom Leírás
IR Információkeresés, dokumentumok relevancia alapján való visszakeresése
TF-IDF Szavak súlyozása dokumentum- és korpuszgyakoriság alapján
Fordított index Szó → dokumentumlisták indexelése
Vektortér-modell Szövegek vektoros reprezentációja, hasonlóságmérés
Bools keresés Lekérdezés logikai operátorokkal
Evaluation Precision, Recall, F-measure, MAP
Modern IR NLP, gépi tanulás, semantikus keresés, clickstream-elemzés