information retrieval
Főnév
information retrieval (tsz. information retrievals)
- (informatika) Az információkeresés (angolul information retrieval, röviden IR) egy olyan tudományterület, amely az információ (elsősorban szöveges dokumentumok) hatékony megtalálását vizsgálja strukturálatlan vagy részben strukturált adathalmazokból. Az IR leggyakoribb alkalmazása a webes keresőmotorokban valósul meg, mint amilyen a Google, Bing vagy DuckDuckGo, de fontos szerepet játszik adatbázisokban, könyvtári rendszerekben, orvosi adatkeresésben és jogi dokumentumok kezelésében is.
1. Alapfogalmak
- Dokumentum: Az információ egysége, amelyet visszakeresni próbálunk (pl. egy cikk, könyv, weboldal).
- Korpusz (corpus): Dokumentumok összessége, amelyen az IR rendszer dolgozik.
- Lekérdezés (query): A felhasználó által megadott keresési kifejezés.
- Relevancia: Egy dokumentum mértéke, hogy mennyire válaszol a lekérdezésre.
2. Az IR rendszer működése
Az IR rendszer célja, hogy egy lekérdezés alapján a legrelevánsabb dokumentumokat adja vissza a felhasználónak. Ennek fő lépései:
Indexelés: A dokumentumokat előfeldolgozzák és indexelik, hogy gyorsan kereshetővé váljanak. A folyamat tartalmazza:
- Tokenizálás (szavakra bontás)
- Stop word szűrés (gyakori szavak, pl. „és”, „az” eltávolítása)
- Lemmatizálás vagy szótövezés (szavak alapalakra hozása)
Fordított index (inverted index): Az egyik leggyakoribb indexstruktúra, amely azt jegyzi meg, hogy egy adott szó mely dokumentumokban fordul elő. Olyan, mint egy fordított szótár:
szó: [dokumentumID1, dokumentumID2, ...]
Dokumentum reprezentációja: A dokumentumokat vektorként is reprezentálhatjuk, ahol minden dimenzió egy-egy szó (vektortér-modell, lásd később).
3. Vektortér-modell (Vector Space Model, VSM)
A dokumentumokat és a lekérdezéseket vektorokként ábrázoljuk egy többdimenziós térben. A hasonlóságot a koszinusz hasonlóság méri:
cos(θ) = (D · Q) / (|D||Q|)
ahol:
- D a dokumentum vektora
- Q a lekérdezés vektora
- · a skalárszorzat
Minél nagyobb az érték (maximum 1), annál hasonlóbbak.
TF-IDF súlyozás
A szavak súlyozása két tényező alapján történik:
- TF (Term Frequency): adott szó hányszor fordul elő a dokumentumban.
- IDF (Inverse Document Frequency): mennyire ritka a szó a korpuszban.
A TF-IDF képlet:
TF-IDF(t, d) = tf(t, d) × log(N / df(t))
Ahol:
- t a szó
- d a dokumentum
- N az összes dokumentum száma
- df(t) azon dokumentumok száma, ahol t előfordul
4. Bools logika alapú keresés
A legegyszerűbb IR modell, ahol a lekérdezés logikai operátorokkal történik:
- AND – csak azokat a dokumentumokat adja vissza, amelyek mindkét szót tartalmazzák
- OR – bármelyik szót tartalmazó dokumentumokat adja vissza
- NOT – kizárja a megadott szót tartalmazó dokumentumokat
Példa: (cica AND kutya) NOT hörcsög
5. Értékelés (Evaluation)
Az IR rendszerek minőségét különböző mutatókkal mérjük:
Precision: A visszaadott dokumentumok közül mennyi releváns.
Precision = releváns & visszaadott / visszaadott
Recall: A releváns dokumentumok közül mennyit találtunk meg.
Recall = releváns & visszaadott / releváns összesen
F-measure: A precision és recall harmonikus átlaga.
Mean Average Precision (MAP): Több lekérdezés esetén a precision átlagát adja vissza.
6. Modern keresőmotorok
A mai webes keresők (pl. Google) a klasszikus IR technikák mellett gépi tanulást, linkanalízist és természetes nyelvfeldolgozást is alkalmaznak. Néhány kulcsfogalom:
- PageRank: A Google egyik alapötlete, ami szerint egy oldal akkor értékes, ha sok más értékes oldal hivatkozik rá.
- Klikkalapú tanulás: A rendszer tanul a felhasználók kattintásaiból, hogy mely találatok voltak hasznosak.
- Query expansion: A lekérdezést automatikusan kibővíti rokon vagy szinonim szavakkal (pl. „auto” → „jármű”, „kocsi”).
7. Nyelvi modellek az IR-ben
A 2020-as évektől kezdve a természetes nyelv feldolgozásban (NLP) használt nyelvi modellek (pl. BERT, GPT) egyre inkább előtérbe kerülnek az IR rendszerekben is.
Példa alkalmazások:
- Neural IR: mélytanulásra épülő modellek dokumentum-lekérdezés párokhoz
- Semantic Search: nem csak kulcsszavak, hanem a jelentés alapján keres
8. Specializált IR rendszerek
- Orvosi IR: orvosi cikkek és adatok keresése (pl. PubMed)
- Jogász IR: precedensek, törvényszövegek keresése
- Multimodális IR: szöveg + kép + hang együttese alapján való keresés
9. Nehézségek és kihívások
- Szinonimák, többértelműség: „bank” lehet pénzintézet vagy folyópart
- Felhasználói szándék felismerése: mi a lekérdezés célja? vásárlás, tanulás, információ?
- Skálázhatóság: milliárdnyi dokumentum gyors kezelése
- Élő adatok kezelése: weboldalak folyamatos változása
10. Jövője
Az IR jövője a semantikus keresés, a gépi tanulás és a kontekstuális megértés egyesítésén alapul. A cél nemcsak az, hogy megtaláljuk az információt, hanem hogy megértsük, mit keres a felhasználó.
Összefoglalás
| Fogalom | Leírás |
|---|---|
| IR | Információkeresés, dokumentumok relevancia alapján való visszakeresése |
| TF-IDF | Szavak súlyozása dokumentum- és korpuszgyakoriság alapján |
| Fordított index | Szó → dokumentumlisták indexelése |
| Vektortér-modell | Szövegek vektoros reprezentációja, hasonlóságmérés |
| Bools keresés | Lekérdezés logikai operátorokkal |
| Evaluation | Precision, Recall, F-measure, MAP |
| Modern IR | NLP, gépi tanulás, semantikus keresés, clickstream-elemzés |
- information retrieval - Szótár.net (en-hu)
- information retrieval - Sztaki (en-hu)
- information retrieval - Merriam–Webster
- information retrieval - Cambridge
- information retrieval - WordNet
- information retrieval - Яндекс (en-ru)
- information retrieval - Google (en-hu)
- information retrieval - Wikidata
- information retrieval - Wikipédia (angol)