John Tukey
Főnév
John Tukey (tsz. John Tukeys)
- (informatika) John Wilder Tukey (1915. június 16. – 2000. július 26.) amerikai matematikus és statisztikus volt, akinek munkássága forradalmasította az adatok elemzésének és megjelenítésének módszereit. Ő a modern adatelemzés (data analysis) egyik megalkotó atyja, aki nemcsak új eljárásokat, hanem új gondolkodásmódot is bevezetett a statisztikába.
Tukey karrierje során számos elméleti és gyakorlati újítással gazdagította a tudományt, és számos kifejezés, amely ma mindennapos (pl. bit, software), tőle származik.
Élete és pályafutása
John Tukey 1915-ben született New Bedford városában, Massachusetts államban. Szülei tanárok voltak, így korán támogatták szellemi kíváncsiságát. Bár otthon tanult, kiemelkedő matematikai tehetsége korán megmutatkozott.
A Brown Egyetemen szerzett diplomát kémia szakon, de hamarosan a matematika felé fordult. Princeton Egyetemen szerzett PhD-fokozatot matematikából. Pályafutása során szoros kapcsolatban állt a Princeton Egyetemmel és a Bell Telephone Laboratories-szel is, ahol számos úttörő munkát végzett.
Tukey és a statisztika
Tukey nevét leginkább a statisztikai adatelemzés területén végzett munkái tették halhatatlanná. Míg a 20. század első felének statisztikája nagyrészt a hipotézisvizsgálat, paraméterbecslés és a formális matematikai modellek köré épült, Tukey felismerte, hogy az adatok feltárása és vizuális elemzése legalább ilyen fontos.
Ő volt az egyik első tudós, aki hangsúlyozta az exploratív adatelemzés (Exploratory Data Analysis, EDA) jelentőségét. Véleménye szerint a statisztikának nem csupán arra kell törekednie, hogy az előre megfogalmazott hipotéziseket tesztelje, hanem arra is, hogy új mintázatokat, trendeket, anomáliákat fedezzen fel az adatokban.
Exploratory Data Analysis (EDA)
Tukey talán legismertebb könyve az 1977-ben megjelent Exploratory Data Analysis. Ebben az adatelemzés egy új filozófiáját mutatta be:
- Az adatok vizsgálatát vizuális eszközökkel kell kezdeni.
- Az adatok “megszólaltatása” legalább olyan fontos, mint a formális modellezés.
- Az egyszerű ábrázolások (pl. boxplot, histogram, scatterplot) rendkívül sok információt hordozhatnak.
Tukey szerint az EDA nem helyettesíti a klasszikus statisztikát, hanem kiegészíti azt. Gyakran segít abban, hogy a statisztikus a helyes modellt válassza, vagy észrevegyen váratlan összefüggéseket.
Boxplot (dobozdiagram)
A boxplot vagy dobozdiagram az egyik legismertebb eszköz, amit Tukey népszerűsített. Ez egy egyszerű grafikon, amely:
- megmutatja az adatok mediánját,
- az alsó és felső kvartiliseket (25% és 75% percentilis),
- a szélső értékeket és esetleges outliereket.
A boxplot révén gyorsan áttekinthetjük egy eloszlás szóródását, aszimmetriáját és szélső értékeit.
A gyors számítások és vizualizáció híve
Tukey mindig azt vallotta, hogy a statisztikusnak gyorsan kell tudnia visszajelzést kapnia az adatairól. Ennek érdekében számos robosztus (outlierekre nem érzékeny), nem parametrikus eszközt is kifejlesztett vagy népszerűsített.
A stem-and-leaf plot, a median polish, a különféle transzformációs módszerek is hozzájárultak ahhoz, hogy az adatelemzés egyre inkább a felfedezés művészetévé váljon.
Egyéb statisztikai hozzájárulások
Tukey az EDA mellett más területeken is jelentős hatást gyakorolt:
- Fast Fourier Transform (FFT) — Cooley-val közösen dolgozott ki hatékony algoritmust a Fourier-transzformáció gyors számítására. Ez az FFT algoritmus számos területen (jelfeldolgozás, képalkotás, kommunikáció) alapvető fontosságú.
- Multiple Comparisons Problem — Tukey kidolgozott eljárásokat az úgynevezett többszörös összehasonlítási problémára, amely akkor merül fel, ha sok statisztikai tesztet hajtunk végre egyszerre.
- Tukey’s range test és Tukey HSD (Honestly Significant Difference) — a varianciaanalízis után alkalmazott módszer, amely lehetővé teszi a páronkénti összehasonlításokat anélkül, hogy túl nagy lenne a téves pozitív eredmény kockázata.
- Tukey lambda distribution — egy speciális eloszláscsalád, amelyet a valós adatokhoz való illeszkedés vizsgálatára fejlesztett ki.
Nyelvújító is volt
Tukey nemcsak kiváló matematikus volt, hanem nyelvi érzékkel is rendelkezett. Ő alkotta meg többek között a ma már teljesen elterjedt:
- bit — binary digit (kettes számrendszerbeli számjegy)
- software — a hardverrel szemben azokat a programokat jelölte, amelyek a számítógépet vezérlik.
Stílusa és szemlélete
Tukey közismerten független gondolkodó volt. Bár matematikailag kiválóan képzett volt, mindig az adatelemzés gyakorlati hasznát tartotta szem előtt. Véleménye szerint a túlságosan formális statisztika gyakran elveszíti a kapcsolatot az adatok valós természetével.
Számára az adatok vizsgálata, ábrázolása, értelmezése legalább olyan fontos volt, mint a matematikai modellezés.
Hatása
John Tukey hatása a statisztikára felmérhetetlen:
- Az EDA ma már minden statisztikai tanfolyam alapja.
- A boxplot minden modern adatelemző eszközben alapvető vizualizációs eszköz.
- Az FFT algoritmus az egyik legfontosabb numerikus algoritmus a modern tudományban.
- A “data science” mozgalom, amely az adatok feltárását és vizualizációját hangsúlyozza, nagyban épít az ő filozófiájára.
Ő maga úgy fogalmazott:
“The greatest value of a picture is when it forces us to notice what we never expected to see.” (“Egy ábra legnagyobb értéke az, amikor olyasmit veszünk észre általa, amit soha nem vártunk volna.”)
Öröksége
John Tukey 2000-ben hunyt el. Öröksége azonban élőbb, mint valaha:
- A data science és a big data korában az ő gondolatai ma is érvényesek.
- Az EDA ma már a gépi tanulás, az AI, és az üzleti intelligencia alapvető része.
- A vizuális adatelemzés mára központi szerepet tölt be a döntéshozatalban.
John Tukey bebizonyította, hogy az adatelemzés nem csupán száraz számítás, hanem felfedezés, játékosság és intuíció kérdése is.
- John Tukey - Szótár.net (en-hu)
- John Tukey - Sztaki (en-hu)
- John Tukey - Merriam–Webster
- John Tukey - Cambridge
- John Tukey - WordNet
- John Tukey - Яндекс (en-ru)
- John Tukey - Google (en-hu)
- John Tukey - Wikidata
- John Tukey - Wikipédia (angol)