data warehouse
Főnév
data warehouse (tsz. data warehouses)
A data warehouse (magyarul: adattárház) egy speciális típusú adatbázis-rendszer, amelyet kifejezetten nagy mennyiségű strukturált adat hosszú távú tárolására, elemzésére és riportálására terveztek. Az adattárházak célja, hogy különböző forrásokból származó adatokat összevonjanak, megtisztítsanak, átalakítsanak és egységes szerkezetbe integráljanak, majd ezeket üzleti intelligencia (BI) rendszerek számára elérhetővé tegyék.
🧠 Mire való egy adattárház?
- Döntéstámogatás (pl. értékesítési trendek, pénzügyi elemzések)
- Történeti adatmegőrzés (évek adatainak összevetése)
- Különböző rendszerek adatainak egyesítése
- Adatok gyors elérése és aggregálása elemzési célokra
🧩 Adattárház jellemzői (Inmon vs. Kimball definíció alapján)
| Tulajdonság | Leírás |
|---|---|
| Tárgyorientált | Üzleti entitásokra (pl. termékek, ügyfelek) épül |
| Integrált | Különböző forrásokból származó adatokat egységesít |
| Időhöz kötött | Minden adat időbélyeggel rendelkezik |
| Nem változó | A betöltött adatok nem módosulnak, csak bővülnek (historikus tárolás) |
🔄 Adattárház működése (ETL-folyamat)
- Extract – Adatok kinyerése forrásrendszerekből (pl. CRM, ERP, IoT, web)
- Transform – Tisztítás, konvertálás, szabványosítás
- Load – Betöltés a cél-adattárházba
📌 Ezt a folyamatot nevezzük ETL-nek (Extract, Transform, Load).
🛠️ Komponensek
| Komponens | Feladata |
|---|---|
| Adattárház (DW) | A központi adattároló rendszer |
| ODS (Operational Data Store) | Rövid távú operatív adattárolás |
| Data Mart | Témaspecifikus részhalmaz (pl. értékesítés, HR) |
| ETL-eszközök | Adatkinyerés és -feldolgozás (pl. Talend, Informatica, Apache Nifi) |
| OLAP | Gyors lekérdezések multidimenziós adatokra |
| BI eszközök | Riportok, dashboardok (pl. Power BI, Tableau, Qlik) |
🧱 Adattárház architektúra
Forrásrendszerek (ERP, CRM, Weblogok, IoT)
↓
ETL folyamat (adatkinyerés, transzformálás)
↓
Adattárház (Data Warehouse)
↓
BI eszközök, dashboardok, riportok
📊 Dimenziós modellezés (Kimball-modell)
- Fakt-tábla: számszerű mérőszámokat tartalmaz (pl. eladások összege)
- Dimenziótábla: kontextus (pl. termék, idő, bolt, vevő)
- Csillag séma (star schema) és hópehely séma (snowflake schema) a gyakori elrendezések
🧪 Példa: értékesítési adattárház
| Dimenziók | Fakt |
|---|---|
termék_id, bolt_id, idő_id |
eladott_darab, bevétel |
🚀 Modern adattárház-platformok
| Szolgáltató | Platform |
|---|---|
| Amazon | Redshift |
| BigQuery | |
| Microsoft | Azure Synapse Analytics |
| Snowflake | Snowflake |
| Oracle | Oracle Data Warehouse |
| IBM | Db2 Warehouse |
✅ Előnyök
- Gyors elemzések és riportálás nagy adatmennyiségen is
- Historikus elemzések akár évek távlatából
- Különböző rendszerek adatainak összefogása
- Skálázható és optimalizált lekérdezésekre
- Adattisztaság és minőségellenőrzés
⚠️ Hátrányok / kihívások
- ETL komplexitás és hibakezelés
- Kezdeti beruházási költségek
- Karbantartás és frissítés
- Nem alkalmas valós idejű adatelemzésre (bár ez változik streaming technológiákkal)
🧾 Összefoglalás
A data warehouse egy speciális adattároló rendszer, amely integrált, megbízható és elemzésre optimalizált adatokat biztosít a döntéshozatal támogatásához. Fontos része a modern üzleti intelligencia ökoszisztémáknak, és az ETL-folyamatokon keresztül képes átalakítani a nyers adatokat értékes információvá.
- data warehouse - Szótár.net (en-hu)
- data warehouse - Sztaki (en-hu)
- data warehouse - Merriam–Webster
- data warehouse - Cambridge
- data warehouse - WordNet
- data warehouse - Яндекс (en-ru)
- data warehouse - Google (en-hu)
- data warehouse - Wikidata
- data warehouse - Wikipédia (angol)