Ugrás a tartalomhoz

hibatűrés

A Wikiszótárból, a nyitott szótárból

Kiejtés

  • IPA: [ ˈhibɒtyːreːʃ]

Főnév

hibatűrés

  1. (informatika) A hibatűrés (angolul: fault tolerance) olyan rendszertervezési képesség, amely lehetővé teszi, hogy egy rendszer tovább működjön részleges meghibásodás esetén is, anélkül hogy az teljesen leállna vagy komolyan megsérülne. Ez különösen fontos a kritikus rendszerekben (pl. repülőgépek, kórházi eszközök, adatközpontok, pénzügyi rendszerek), de ma már az általános informatikai rendszerekben is elvárt tulajdonság.



🧠 Mit jelent a hibatűrés?

Egy hibatűrő rendszer képes észlelni, lokalizálni, és kompenzálni a részleges hibákat úgy, hogy közben a működés zavartalan marad, vagy legfeljebb minimálisan romlik.

Példa:

  • Egy többtárolós adattároló rendszer (pl. RAID) akkor is működőképes, ha egy merevlemez elromlik.
  • Egy webszerver-rendszer automatikusan átirányítja a forgalmat egy másik gépre, ha az egyik szerver leáll.



🧩 A hibatűrés kulcselemei

Elem Leírás
Hibadetektálás A rendszer észleli, ha valami nem működik rendesen (pl. időzítés, ellenőrzőösszeg, szenzor).
Hiba lokalizálás Meghatározza, melyik komponens hibásodott meg.
Hibakezelés A rendszer kijavítja vagy megkerüli a hibát (pl. redundancia, újraindítás).
Helyreállítás (recovery) Visszatér normál működéshez, ha lehetséges.



🛠️ Hibatűrés megvalósítása

1. Redundancia

Többszörözés – több komponens áll rendelkezésre ugyanazon funkció ellátására:

  • Hardveres redundancia: Több tápegység, RAID lemezek, két hálózati kártya.
  • Szoftveres redundancia: Több példányban futó alkalmazás, replikált adatbázis.
  • Adatredundancia: Ellenőrző kódok, paritásbitek, ECC (hibajavító kódok).

2. Failover / átváltás

Ha egy komponens meghibásodik, egy másik automatikusan átveszi a helyét.

  • Aktív–passzív: Az egyik működik, a másik készenlétben van.
  • Aktív–aktív: Több példány párhuzamosan működik és elosztják a terhelést.

3. Hibatűrő algoritmusok

  • Byzantine fault tolerance (BFT) – elosztott rendszerekben, ahol hibás vagy rosszindulatú komponensek lehetnek.
  • Paxos, Raft – elosztott konszenzusprotokollok.
  • Checkpointing – a rendszer időnként mentést készít, hogy hibánál vissza tudjon állni.



🧪 Példák hibatűrésre

📀 RAID (Redundant Array of Independent Disks)

  • RAID 1: tükrözés → ha egy lemez kiesik, a másik tartalmazza ugyanazt.
  • RAID 5/6: paritásos hibatűrés → helyre tud állítani kiesett adatokat.

☁️ Felhőalapú rendszerek

  • Amazon Web Services (AWS), Google Cloud redundáns adatközpontokat használnak.
  • Auto-scaling, load balancer, replikált tárolás biztosítja a szolgáltatásfolytonosságot.

✈️ Beágyazott rendszerek

  • Repülőgépek fedélzeti számítógépei triplán redundánsak (Triple Modular Redundancy – TMR).
  • Kritikus rendszerekben a hibatűrés életeket menthet.



🧱 Hibatűrés szintjei

Szint Példa
Hardverszint ECC RAM, RAID, tartalék CPU-k
Operációs rendszer Watchdog timer, szolgáltatás újraindítás
Alkalmazás Többszörözött szerverek, replikáció
Hálózati szint Több útvonal, BGP route switching
Adatszint Ellenőrzőösszeg, kriptográfiai hash



⚠️ Korlátok és kompromisszumok

Hátrány / kihívás Magyarázat
Többletköltség Redundancia hardver/szoftver szinten többletkiadással jár.
Komplexitás nő Több komponens = bonyolultabb tervezés, hibakeresés.
Nem teljesen hibaálló Hibatűrés ≠ hibamentesség. Kritikus hibák még mindig tönkretehetik a rendszert.
Teljesítménycsökkenés Bizonyos hibatűrő megoldások (pl. logolás, backup) lassíthatják a rendszert.



🧾 Összefoglalás

A hibatűrés kulcsfontosságú tervezési szempont minden olyan rendszerben, ahol a megbízhatóság, elérhetőség és adatbiztonság kritikus. A hibatűrő rendszerek képesek meghibásodások közepette is működőképesek maradni, ami nagyban javítja az üzemidőt és szolgáltatásminőséget. Ennek eléréséhez azonban gondos tervezésre, redundanciára és intelligens hibakezelésre van szükség.


Fordítások