fault tolerance
Főnév
fault tolerance (tsz. fault tolerances)
A hibatűrés (angolul: fault tolerance) egy rendszer azon képessége, hogy részleges hibák vagy meghibásodások esetén is képes működni, anélkül, hogy teljesen leállna vagy elveszítené adatait.
🧠 Miért fontos a hibatűrés?
A valóságban semmilyen rendszer nem hibamentes:
- Hardver elromolhat (pl. merevlemez)
- Szoftver összeomolhat (pl. memóriaszivárgás)
- Emberi hibák történhetnek (pl. törlés, rossz konfiguráció)
A cél: minél kevésbé érezze meg a felhasználó ezeket a hibákat!
⚙️ Hibatípusok, amikre fel kell készülni
| Hibatípus | Példa |
|---|---|
| Hardverhiba | Meghibásodott merevlemez, RAM, hálózati kártya |
| Szoftverhiba | Lefagyott program, rossz frissítés |
| Hálózati hiba | Kapcsolat megszakadása szerver és kliens között |
| Emberi hiba | Törölt adatbázis, hibás parancs |
| Természeti esemény | Áramkimaradás, tűz, árvíz |
🧩 Hibatűrés eszközei és módszerei
1. Redundancia (tartalék erőforrás)
- Több példány (replika) az adatokból vagy szolgáltatásból
- Példa: RAID háttértár (tükrözés), több adatközpont
2. Failover mechanizmus
- Ha egy komponens meghibásodik, egy másik automatikusan átveszi a helyét
- Példa: másodlagos szerver aktiválása első kiesésekor
3. Load balancing (terheléselosztás)
- Több kiszolgáló között osztják szét a kéréseket → ha az egyik kiesik, a többi átveszi
4. Checkpointing / mentés
- A rendszer időnként menti az állapotát, és hiba után onnan folytatja
5. Monitoring és automatikus újraindítás
- Hibadetektálás → újraindítás, értesítés, javítási kísérlet
🖥️ Példák hibatűrő rendszerekre
| Rendszer típusa | Hibatűrés megvalósítása |
|---|---|
| Webszerver | Terheléselosztás + több példány |
| Felhőszolgáltatás (pl. AWS) | Availability Zone-ok és régiók |
| Adatbázis | Replikáció, naplózás, backup |
| Repülőgépek vezérlése | Többszörös érzékelő és döntéshozatal |
| Űrhajók | Fizikai redundancia + szoftveres megkerülés |
📶 Hibatűrés és elosztott rendszerek
Az elosztott rendszerek (pl. mikroservice-ek, adatbázis klaszterek) különösen érzékenyek a részleges hibákra.
A CAP-elv szerint egy elosztott rendszer egyszerre csak kettőt garantál a következőkből:
- Konzisztencia
- Elérhetőség
- Hálózati partíciótűrés
A hibatűrés lényege: a rendszer maradjon működőképes hálózati hibák és szerverkiesés esetén is.
🧪 Példa: hibatűrő webalkalmazás
- Több backend szerver: ha egy meghal, a load balancer átirányít
- Adatbázis-replika: fő adatbázis kiesése esetén a másodlagos lép életbe
- Mentés (backup): napi mentés S3-ra
- Monitoring (pl. Prometheus + Alertmanager): automatikus értesítés hiba esetén
💬 Összefoglalás
A hibatűrés lényege:
“Ne az legyen a kérdés, hogy lesz-e hiba, hanem az, hogy hogyan állunk fel utána.”
Egy jól megtervezett rendszer nem omlik össze egyetlen hiba miatt, hanem visszaáll vagy átvált egy másik működési módra, és az adatok sem vesznek el.
- fault tolerance - Szótár.net (en-hu)
- fault tolerance - Sztaki (en-hu)
- fault tolerance - Merriam–Webster
- fault tolerance - Cambridge
- fault tolerance - WordNet
- fault tolerance - Яндекс (en-ru)
- fault tolerance - Google (en-hu)
- fault tolerance - Wikidata
- fault tolerance - Wikipédia (angol)