training data set
Megjelenés
(training dataset szócikkből átirányítva)
Főnév
training data set (tsz. training data sets)
- (informatika) A training data set, magyarul tanító adathalmaz vagy tanítóadat-készlet, a gépi tanulás (machine learning) és a mesterséges intelligencia (AI) egyik legfontosabb fogalma. Ez az az adathalmaz, amelyet egy algoritmus felhasznál az ismeretek elsajátítására, azaz a modell megtanítására. A tanító adatok alapján a rendszer megtanulja felismerni az összefüggéseket, mintákat, szabályokat, amelyeket később ismeretlen adatokkal is alkalmazni tud.
Mi az a tanító adathalmaz?
A tanítóadat egy olyan strukturált adatcsomag, amely példákon keresztül mutatja meg a modellnek, hogy hogyan néz ki a megoldandó probléma. Minden példa tartalmaz:
- Bemeneti jellemzőket (input features),
- és sokszor kimeneti címkét (label), amit a modellnek meg kell tanulnia.
Példa (felügyelt tanulás):
| Magasság (cm) | Súly (kg) | Nem |
|---|---|---|
| 170 | 65 | Férfi |
| 160 | 55 | Nő |
| 180 | 80 | Férfi |
A bemenet: magasság, súly A címke (label): nem → a modell célja: megtanulni megjósolni a nemet új emberek esetén.
Típusai a felhasználás szerint
| Típus | Jellemzők |
|---|---|
| Felügyelt tanulás (supervised) | Tartalmazza a bemeneteket és a helyes kimeneteket is |
| Felügyelet nélküli tanulás (unsupervised) | Csak a bemeneteket tartalmazza, nincs címke |
| Félig felügyelt (semi-supervised) | A példák egy része címkézett, a többi nem |
| Megerősítéses tanulás (reinforcement) | Közvetett visszacsatolást (jutalmat vagy büntetést) használ tanulásra |
A tanító adathalmaz szerepe
- Minták megtanítása: a modell statisztikai kapcsolatokat keres a jellemzők és a kimenetek között.
- Általánosítás megtanulása: cél, hogy ne csak az ismert adatokon teljesítsen jól, hanem új példákon is.
- Kimenetbecslés: pl. osztályozás, regresszió, döntéshozatal.
Mi van a tanító adathalmazban?
1. Jellemzők (features)
- Numerikus (pl. kor, súly)
- Kategóriás (pl. ország, szín)
- Szöveges (pl. e-mailek, vélemények)
2. Címkék (labels)
- Osztályozás (pl. kutya / macska)
- Számérték (pl. ház árának becslése)
3. Metaadatok
- Forrás, időbélyeg, szenzor, stb.
Előkészítési lépések
- Adattisztítás
- Hiányzó értékek kezelése
- Zaj eltávolítása
- Skálázás, normalizálás
- Mértékegységek egységesítése
- Kódolás
- Kategóriás változók numerikussá alakítása (pl. one-hot encoding)
- Jellemzők kiválasztása
- Fontos inputok megtartása, irrelevánsak eltávolítása
- Adatok szétosztása
- Tanító adathalmaz (training set) – modell tanítása
- Tesztadat (test set) – a modell ellenőrzése
- Érvényesítő halmaz (validation set) – paraméterhangolás
Tipikus arányok
- 80–20: 80% tanító, 20% teszt
- 70–15–15: tanító–validációs–teszt
- Ezek nem kőbe vésett szabályok, de segítenek az általánosítás értékelésében.
Problémák a tanítóadatokkal
| Probléma | Következmény |
|---|---|
| Kevés adat | A modell nem tud tanulni (underfitting) |
| Túl sok zaj | Rossz általánosítás (overfitting) |
| Torzítás (bias) | Részrehajló döntések (pl. diszkrimináció) |
| Hiányzó értékek | Pontatlan becslések |
| Nem reprezentatív minta | A valós világot nem fedi le |
Példák különböző területekről
| Terület | Bemeneti jellemzők | Kimeneti címke |
|---|---|---|
| Egészségügy | Életkor, vérnyomás, cukorszint | Betegség típusa |
| Képfelismerés | Pixelértékek (képek) | Kategória (kutya, autó, stb.) |
| Természetes nyelv | Szövegek (pl. e-mail tárgya) | Spam vagy nem spam |
| Pénzügy | Jövedelem, hiteltörténet | Jóváhagyandó hitel? (igen/nem) |
Példa Pythonban (gépi tanulási keretrendszerrel – scikit-learn)
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
# Bemenet (X) és címke (y)
X = [[170, 65], [160, 55], [180, 80]]
y = ["Férfi", "Nő", "Férfi"]
# Adatok szétosztása
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33)
# Modell tanítása
model = LogisticRegression()
model.fit(X_train, y_train)
# Előrejelzés tesztadatra
print(model.predict(X_test))
Adatkészletek példák gyakorláshoz
| Adatkészlet | Leírás | Hol található |
|---|---|---|
| Iris dataset | Virágok mérései, osztályozás | sklearn.datasets |
| MNIST | Kézzel írt számjegyek képei | tensorflow_datasets |
| Titanic | Túlélés becslése | Kaggle |
| CIFAR-10 | Képosztályozás | torchvision |
Összegzés
A tanító adathalmaz az egyik legfontosabb elem a gépi tanulás során. Ez határozza meg, mit tanul meg a modell, hogyan általánosít, és mennyire lesz megbízható. Még a legfejlettebb algoritmus is rossz tanítóadattal gyengén fog teljesíteni, ezért a tanító adatok minősége, mennyisége és reprezentativitása kulcsfontosságú.
- training data set - Szótár.net (en-hu)
- training data set - Sztaki (en-hu)
- training data set - Merriam–Webster
- training data set - Cambridge
- training data set - WordNet
- training data set - Яндекс (en-ru)
- training data set - Google (en-hu)
- training data set - Wikidata
- training data set - Wikipédia (angol)