artificial intelligence
Főnév
artificial intelligence (tsz. artificial intelligences)
Mesterséges intelligencia – Általános ismeretterjesztő áttekintés
Bevezetés
A mesterséges intelligencia (röviden MI) a modern technológia egyik legizgalmasabb és leggyorsabban fejlődő területe. Legyen szó a science fiction klasszikusairól – mint a 2001: Űrodüsszeia című filmben HAL-9000 számítógépe vagy a Mátrix gépei –, vagy a mindennapok valóságáról, például az okostelefonunk hangalapú asszisztenséről, esetleg egy önvezető autóról, az MI régóta foglalkoztatja az emberiséget. Ami egykor csupán a képzelet szüleménye volt, mára már nem sci-fi: a mesterséges intelligencia mindennapjaink része lett. Naponta használunk MI-t tartalmazó alkalmazásokat, amikor például online fordítóprogramot veszünk igénybe, személyre szabott filmajánlást kapunk egy streamingszolgáltatótól, vagy beszélgetünk egy chatbot programmal az interneten.
De mit is értünk pontosan mesterséges intelligencia alatt? Általánosságban azokat a számítógépes rendszereket, szoftvereket vagy algoritmusokat soroljuk ide, amelyek képesek olyan feladatok elvégzésére, amelyekhez normál esetben emberi intelligenciára lenne szükség. Ilyen feladat lehet a tanulás és következtetés (például egy játék stratégia megtanulása), a problémamegoldás, a természetes nyelv megértése vagy akár a kreatív tevékenységek. Az MI-rendszerek “intelligensnek” tűnnek, mert a környezetükből érkező információk alapján döntéseket hoznak, alkalmazkodnak, és bizonyos mértékig önállóan is képesek új megoldásokat kialakítani.
Ez a fejezetekre bontott áttekintő szöveg bemutatja a mesterséges intelligencia kulcsfogalmait, történelmi fejlődését és legfontosabb alakjait, valamint áttekinti a terület jelentős technológiáit és módszereit. Szó esik majd többek között olyan alapfogalmakról, mint a gépi tanulás, a neurális hálózatok, a megerősítéses tanulás és a mélytanulás. Megismerkedünk az MI kutatásának úttörőivel – Alan Turingtól és Neumann Jánostól egészen napjaink sztárkutatóiig –, és áttekintjük a terület néhány fontosabb mérföldkövét. Részletesen kitérünk továbbá a modern MI legfontosabb alkalmazásaira és fogalmaira: például a képfelismerést lehetővé tévő konvolúciós neurális hálózatokra, a beszédfelismerésre és a természetes nyelvfeldolgozásra, az önvezető autókra vagy a legújabb generatív MI-modellekre (mint amilyenek a GPT nyelvi modellek, a DALL-E képgenerátor, a Go játékban diadalmaskodó AlphaGo vagy a fehérjekutatást forradalmasító AlphaFold). Foglalkozunk a gépi tanulási technikákkal is – például a gradiensalapú tanulással, a visszaterjesztés algoritmusával, a túlillesztés problémájával és a regulárizációval –, melyek az MI algoritmusok működése mögött állnak. Végül, de nem utolsósorban, áttekintjük azokat a társadalmi és filozófiai kérdéseket, amelyeket az MI felvet: az etikai dilemmákat, a gépi intelligencia és tudatosság problémakörét, az automatizáció munkaerőpiacra gyakorolt hatását, és általában azt, hogyan viszonyul az MI az emberhez.
Alapfogalmak: MI, gépi tanulás, neurális hálózatok, mélytanulás, megerősítéses tanulás
A mesterséges intelligencia (MI) kifejezést 1956-ban alkották meg hivatalosan, John McCarthy amerikai informatikus javaslatára. Azóta számos definíciója született, de lényegében minden olyan számítógépes megoldást ide sorolhatunk, amely képes valamiféle értelmes tevékenységre. Fontos azonban megérteni, hogy az MI nem egyetlen konkrét technológia vagy program, hanem egy gyűjtőfogalom, amely sokféle módszert és megközelítést takar. Az MI rendszereket gyakran két fő kategóriába sorolják: gyenge (szűk) MI és erős (általános) MI. A gyenge MI (narrow AI) olyan rendszert jelent, amely egy jól körülhatárolt feladatban nagyon ügyes – például egy sakkprogram, egy arcfelismerő algoritmus vagy egy digitális asszisztens, mint Siri –, de kizárólag arra az egy területre korlátozódik. Ezzel szemben az erős MI (artificial general intelligence, AGI) egy elméleti koncepció: olyan mesterséges értelem, amely az emberhez hasonló módon, általános értelemben képes bármilyen kognitív feladatot ellátni. Jelenleg (2025-ben) még nem rendelkezünk erős MI-vel, és kérdéses, hogy egyáltalán megvalósítható-e ilyesmi a közeljövőben.
Gépi tanulás (machine learning): A gépi tanulás az MI egyik legfontosabb részterülete. Olyan módszerek gyűjteményéről van szó, amelyek során a számítógépet nem explicit utasításokkal programozzuk minden egyes esetre, hanem példák alapján tanítjuk. A gépi tanuló algoritmusoknak bemenetként rengeteg adatot adunk (például képeket, szövegeket, szenzorméréseket), és ezekből az adatokból a rendszer mintázatokat és összefüggéseket ismer fel. Így képes lesz új, ismeretlen bemenetekre is használható választ adni anélkül, hogy minden eshetőségre előre beprogramoztuk volna. A gépi tanulás tehát azt jelenti, hogy a program a saját tapasztalataiból tanul. Hétköznapi példa: ha rengeteg macskás és kutyás fényképpel “megtanítunk” egy gépi tanuló algoritmust, akkor képes lesz új képeken is felismerni, hogy macskát vagy kutyát lát-e. Fontos megjegyezni, hogy a gépi tanulás az MI fogalmán belül helyezkedik el: minden gépi tanulás MI, de nem minden MI használ gépi tanulást. A klasszikus MI rendszerek között voltak olyanok is, amelyeket teljesen ember által megadott szabályok irányítottak (ezeket gyakran szimbolikus MI-nek nevezik), míg a modern trend inkább a tanuláson alapuló megközelítéseket részesíti előnyben.
Neurális hálózatok (mesterséges neurális hálózatok): A neurális hálózat a gépi tanulás egy speciális modellje, amelyet az emberi agy idegsejt-hálózatának működése inspirált. Képzeljünk el sok apró számítási elemet (neuronokat), amelyek egyszerű műveleteket végeznek, és számtalan kapcsolattal (szinapszissal) össze vannak kötve. Minden kapcsolatnak van egy súlyértéke, amely azt határozza meg, hogy az egyik neuron mennyire hat a másikra. A mesterséges neurális hálózat ezen analógia alapján épül fel: az input adatok (például egy kép pixelértékei) a hálózat első rétegébe kerülnek, majd a neuronszerű egységek rétegről rétegre egyre absztraktabb jellemzőket számítanak ki. A hálózat végén kapott kimenet lehet például annak valószínűsége, hogy a bemeneti képen egy macska látható. A hálózat tanulása azt jelenti, hogy a súlyokat addig módosítjuk sok példa alapján, amíg a kimenetek a lehető legpontosabbak nem lesznek. A neurális hálózatok ereje abban rejlik, hogy nagyon összetett, nemlineáris összefüggéseket is fel tudnak térképezni az adatokban, és elegendő adat esetén magas szintű absztrakciókat képesek megtanulni.
Mélytanulás (deep learning): Amikor a neurális hálózatoknak nem csak egy vagy néhány, hanem nagyon sok rétegük van (akár tucatnyi vagy még több), akkor mély neurális hálózatokról beszélünk – innen ered a “mélytanulás” elnevezés. A mélytanulás napjaink gépi tanulásának legerősebb irányzata, amely forradalmasította az MI számos területét az elmúlt évtizedben. A mély neurális hálózatok képesek igen bonyolult feladatok megoldására, mert a sok réteg egymásra épülő műveletei révén az adatok egyre absztraktabb és összetettebb jellemzőit tudják kinyerni. Például egy képfelismerő mélyháló első rétegei egyszerű vonalakat vagy színmintázatokat ismernek fel, a középső rétegek már alakzatokat (orr, fül, szem stb.), a legfelső rétegek pedig komplex koncepciókat (macska vagy kutya) különítenek el. A mélytanulási megközelítések látványos sikereket hoztak többek között a képfelismerésben, a beszédfelismerésben és a nyelvfeldolgozásban is, amiről később még részletesen szó lesz. A mélytanulás térnyerésének oka részben az, hogy a nagy mennyiségű digitális adat és a megnövekedett számítógépes kapacitás lehetővé tette ezen összetett modellek betanítását, amely korábban nem volt kivitelezhető. Olyan kutatók, mint Geoffrey Hinton, Yoshua Bengio és Yann LeCun – akiket gyakran a mélytanulás “úttörőinek” vagy “atyáinak” neveznek – kulcsszerepet játszottak abban, hogy ezek a technikák a 2010-es évekre széles körben elfogadottá és eredményessé váltak.
Megerősítéses tanulás (reinforcement learning): A gépi tanulás egy másik fontos paradigmája a megerősítéses tanulás. Itt az algoritmus nem statikus adathalmazból tanul, mint a hagyományos felügyelt tanulás esetén (amikor például bemenet-kimenet párokat adunk meg neki), hanem egy interaktív folyamat során. A rendszer egy agent (ügynök), amely egy környezetben cselekszik, és minden egyes cselekvéséért visszajelzést kap a környezettől valamilyen jutalom vagy büntetés (negatív jutalom) formájában. A megerősítéses tanuló algoritmus célja, hogy a hosszú távú jutalmat maximalizálja, tehát idővel megtanulja, mely akciók vezetnek több jutalomhoz. Egy klasszikus példa a megerősítéses tanulásra a játékok megtanulása: például egy algoritmust rá lehet venni, hogy saját maga játsszon le számtalan sakkjátszmát, és mindig a végső eredmény (győzelem vagy vereség) alapján kap jutalmat, ezáltal idővel megtanul nyerni. A megerősítéses tanulás különösen hasznos olyan problémáknál, ahol a jó döntések sorozatát kell meghozni folyamatos visszacsatolás alapján. Látni fogjuk, hogy ez a megközelítés tette lehetővé olyan látványos eredmények elérését is, mint az AlphaGo program sikere a Go játékban.
Történeti háttér és fontos személyek
A mesterséges intelligencia története a 20. század közepén kezdődött. Alan Turing brit matematikus és kódfeltörő az elsők között vetette fel az ötletet, hogy egy gép képes lehet az emberéhez hasonló gondolkodásra. 1950-ben megjelent híres tanulmányában azt a provokatív kérdést tette fel: “Gondolkodhatnak-e a gépek?”. Turing javasolta a később róla elnevezett Turing-tesztet is, amelyben egy emberi kérdező írásbeli párbeszéd alapján próbálja megkülönböztetni, hogy a válaszokat ember vagy gép adja-e. Ha a gép válaszai megtévesztően emberinek bizonyulnak, akkor mondhatjuk, hogy a gép “intelligensen” viselkedik. A Turing-teszt gondolata és Turing úttörő kérdésfelvetése megalapozta a mesterséges intelligencia kutatásának filozófiai kereteit.
Néhány évvel később, 1956 nyarán, tartották meg a híres dartmouth-i műhelytalálkozót (Dartmouth Summer Research Project on Artificial Intelligence) a New Hampshire állambeli Dartmouth College-ban. Ezt a konferenciát sokan a mesterséges intelligencia születési eseményének tekintik. Itt hangzott el először hivatalosan a “mesterséges intelligencia” (artificial intelligence) kifejezés, John McCarthy amerikai informatikus javaslatára. A rendezvényen több fiatal tudós vett részt, akik később a terület meghatározó alakjai lettek. Közöttük volt Marvin Minsky, Allen Newell, Herbert Simon és mások. Bemutattak néhány korai MI-programot is: például Newell és Simon Logic Theorist nevű programját, amely képes volt logikai tételeket bizonyítani. A konferencia optimista hangulata és az első eredmények hatására az amerikai kormányzat (például a DARPA ügynökség) is fantáziát látott az MI-ben, és támogatni kezdte a kutatásokat. Ezzel kezdetét vette az MI első “virágkora” az 1950-es évek végétől a 1960-as évek végéig.
A korai évtizedek több nagy hatású gondolkodót és mérnököt vonultattak fel. Neumann János (John von Neumann), a magyar származású zseniális matematikus és fizikus ugyan 1957-ben elhunyt, de addigra már hatalmas örökséget hagyott maga után a számítástechnika terén. Neumann dolgozta ki a mai napig használatos, róla elnevezett számítógép-architektúrát (a Neumann-elv), és ő alapozta meg a játékelméletet is, ami később az MI egyik mellékágán, a többügynökös rendszerek és döntéshozatal területén lett fontos. Neumann hitt abban, hogy a számítógépek nem pusztán számolásra használhatók, hanem akár az emberi agy folyamatait is modellezhetik – utolsó munkái között szerepel “The Computer and the Brain” (A számítógép és az agy) című írása, amely az emberi gondolkodás és a számítógépes működés párhuzamait vizsgálta.
A 60-as évek elején az MI területén nagy volt a lelkesedés: sokan azt hitték, néhány évtizeden belül a gépek szinte minden kognitív feladatban utolérik az embert. Marvin Minsky a MIT (Massachusetts Institute of Technology) professzoraként az MI egyik vezéralakja lett; ő alapította meg az MIT Mesterséges Intelligencia Laboratóriumát, és számos korai MI-projektben vett részt. John McCarthy a Stanford Egyetemen folytatta a kutatásokat: megalkotta a Lisp nevű programozási nyelvet, amelyet kifejezetten MI-fejlesztésekhez terveztek és hosszú ideig meghatározó eszköz volt az AI-kutatásban. Herbert Simon és Allen Newell a pszichológia és az MI határterületén is dolgoztak, megalkotva a gondolkodás szimbólumfeldolgozó modelljét és korai problémamegoldó programokat. Simon a mesterséges intelligencia kapcsán 1965-ben híres (utóbb túl optimistának bizonyult) kijelentést tett: miszerint húsz éven belül egy gép sakkban világbajnok lesz, és “nem is kell hozzá húsz év” – ezt az előrejelzést végül a valóság kb. 30 évvel később igazolta be.
Az 1970-es évekre azonban világossá vált, hogy az eredeti elvárások túlzóak voltak. A korabeli számítógépek nem voltak elég erősek vagy gyorsak a nagyszabású MI-álmok megvalósításához. A kezdeti sikerek után csalódás hulláma következett: a finanszírozás lecsökkent, az MI-kutatás lassabb ütemre váltott – ezt az időszakot nevezik az első “MI-télnek”. A neurális hálózatok iránti érdeklődés is megcsappant, különösen az után, hogy Minsky és Papert 1969-ben publikált “Perceptronok” című könyve rávilágított az akkori egyszerű neurális hálózatok korlátaira. Sok kutató más területek felé fordult.
A 1980-as években aztán az MI új erőre kapott, két irányból is. Egyrészt megjelentek az úgynevezett szakértői rendszerek, amelyek konkrét szakterületek emberi szakértőinek tudását próbálták meg formális szabályok formájában gépbe ültetni. Edward Feigenbaum és társai ilyen rendszereket hoztak létre például az orvosi diagnosztika vagy a kémiai elemzés terén, és az ipar is elkezdte hasznosítani ezeket a technológiákat. Másrészt újra feléledt a neurális hálózatok iránti érdeklődés: John Hopfield és David Rumelhart kutatásai nyomán a visszacsatolt neurális hálózatok és a több rétegű tanulási algoritmusok (például a visszaterjesztéses tanulás) kerültek előtérbe. Ekkoriban született meg a “mély tanulás” koncepciója is, habár az akkori hardver és adat korlátok miatt ezek a módszerek még nem tudtak igazán kiteljesedni.
A 1990-es évek újabb áttöréseket hoztak. A számítógépek számítási kapacitása jelentősen nőtt, és az MI néhány látványos eredményt produkált. 1997-ben az IBM fejlesztette Deep Blue szuperszámítógép legyőzte Garri Kaszparov sakkvilágbajnokot egy hatjátszmás mérkőzésen. Ezzel beteljesült az a jóslat, hogy egy gép is képes lehet a sakk magas szintű elsajátítására – bár ez a pillanat majdnem 40 évvel később jött el, mint ahogy azt Herbert Simon sejtette. A Deep Blue sikere mérföldkő volt: megmutatta, hogy egy szűk területre fókuszáló MI (gyenge MI) is felülmúlhatja az embert, ha elegendő számítási erőforrás és jól megírt algoritmus áll mögötte. A 90-es évek végén és a 2000-es évek elején ezen felbuzdulva az MI számos területen fejlődésnek indult, például a robotikában és a beszédfelismerésben is.
A 21. században az MI-kutatás robbanásszerű fejlődést mutat. Geoffrey Hinton, Yoshua Bengio és Yann LeCun neve ekkor vált széles körben ismertté: ők hárman voltak azok, akik a 2000-es években új életet leheltek a neurális hálózatokba, és megalapozták a modern mélytanulást. 2012-ben Hinton és tanítványai egy mély neurális hálózattal (becenevén AlexNet) megnyerték az ImageNet nevű képfelismerő versenyt, messze felülmúlva a korábbi legjobb eredményeket – ezt sokan a “mélytanulás forradalma” kezdetének tekintik. Bengio Montreálban, LeCun pedig New Yorkban párhuzamosan dolgozott hasonló technikákon. Erőfeszítéseik nyomán a 2010-es évekre a neurális hálózatok újra az érdeklődés középpontjába kerültek, és sorra döntötték meg a rekordokat különféle területeken, a beszédszintézistől a gépi látásig. E három kutatót – Hinton, Bengio, LeCun – a “mélytanulás atyjaiként” szokták emlegetni, és munkásságuk elismeréseként 2018-ban közösen megkapták a számítástechnika legrangosabb kitüntetését, az A. M. Turing-díjat.
Az elmúlt években az MI olyan szintre jutott, hogy már a nagyközönség érdeklődését is maximálisan felkeltette. 2011-ben az IBM Watson rendszer egy televíziós kvízjátékban (Jeopardy!) győzte le az emberi bajnokokat, bebizonyítva, hogy a természetes nyelv értelmezésében és a tudásbázisok kezelésében is lehet versenyképes egy gép. 2016-ban újabb szenzáció következett: a Google DeepMind által fejlesztett AlphaGo program 4–1 arányban legyőzte a világ egyik legjobb gojátékosát, Lee Sedolt. A go évtizedekig bevehetetlen végvárának tűnt az MI számára, mivel rendkívül komplex stratégiai játék, de az AlphaGo a mély neurális hálózatokat és a megerősítéses tanulást ötvöző technikával felülkerekedett az emberen. Ugyancsak a 2010-es években tűnt fel AlphaFold, egy mesterséges intelligencia, amely a fehérjebiológia terén ért el áttörést: 2020-ban ez a rendszer megoldotta a sok évtizedes “fehérjehajtogatási” problémát azzal, hogy a fehérjék aminosav-sorrendje alapján pár perc alatt képes lett megjósolni azok pontos térszerkezetét. 2022 végén pedig bemutatkozott a ChatGPT nevű nyelvi modell, amely gördülékeny, emberi stílusú párbeszédekre képes. A ChatGPT rövid idő alatt hatalmas népszerűségre tett szert – mindössze két hónap alatt elérte a 100 milliós felhasználói bázist, ezzel a történelem leggyorsabban terjedő internetes alkalmazásává vált. Ezek a példák mind azt mutatják, hogy a mesterséges intelligencia ma már nem csupán laboratóriumi kuriózum, hanem olyan technológia, amelynek fejleményeit az egész társadalom figyelemmel kíséri.
Kulcsfontosságú technológiák és fogalmak
A mesterséges intelligencia napjainkban számos területen jelen van, és különböző specializált technológiákat alkalmaz. Az alábbiakban áttekintjük a legfontosabb fogalmakat és alkalmazási területeket – a neurális hálózatok konkrét típusaitól kezdve a gyakorlati megoldásokon át néhány kiemelkedő MI-rendszerig.
Konvolúciós neurális hálózatok (CNN-ek): A konvolúciós hálózatok a neurális hálózatok egy speciális fajtáját jelentik, amelyeket kifejezetten képi adatok feldolgozására fejlesztettek ki. A “konvolúció” művelet lényege, hogy a hálózat kis szűrőket (más néven konvolúciós kernelt) csúsztat végig a bemeneti adatokon (például egy képen), és így ismer fel helyi mintázatokat. Ez hasonló ahhoz, ahogyan az emberi látórendszer is először vonásokat (éleket, sarkokat, textúrákat) detektál. A konvolúciós neurális hálózat több réteg egymásra épülő konvolúcióból áll: az első rétegek egyszerűbb alakzatokat ismernek fel a képen, a későbbi rétegek pedig egyre összetettebb vizuális elemeket (akár arcokat, tárgyakat). Ennek a megközelítésnek köszönhetően a CNN-ek rendkívül hatékonyak a képfelismerésben és a gépi látásban. A technológia áttörését a már említett 2012-es ImageNet verseny hozta meg, ahol egy mély CNN (AlexNet) messze a legjobb eredményt érte el a tárgyfelismerési feladatban, jelezve, hogy a konvolúciós hálózatok képesek “látni”. Ma a CNN-eket használják például az okostelefonok kamerái a fotók automatikus kategorizálására, az önvezető autók szenzorrendszereiben a közlekedési táblák és gyalogosok felismerésére, vagy az orvosi diagnosztikában, például röntgen- és MRI-felvételek elemzésére.
Rekurrens (visszacsatolt) neurális hálózatok (RNN-ek): Míg a CNN-ek elsősorban a képi adatokra specializálódtak, a rekurrens neurális hálózatok a sorrendiséget tudják kezelni az adatokban. A “rekurrens” szó ismétlődést jelent: ezek a hálózatok képesek emlékezni az előző lépésekre, mert belső állapotukat visszacsatolják a következő időlépés bemenetéhez. Így alkalmasak például idősorok, beszédhang vagy természetes nyelvű szöveg feldolgozására, ahol az információ sorrendje és kontextusa kulcsfontosságú. Az RNN-ek egyik különleges típusa a Long Short-Term Memory (LSTM) hálózat, amelyet kifejezetten arra találtak ki, hogy hosszabb távú összefüggéseket is meg tudjon tanulni (és ne “felejtsen túl gyorsan”). A rekurrens hálózatokat sokáig használták például beszédfelismerésre (amikor a beszédhangot szöveggé alakítják át, figyelembe kell venni a hangok és szavak sorrendjét), valamint fordítóprogramokban (ahol a mondatokban a szórend és kontextus számít). Az utóbbi években ugyanakkor a rekurrens hálózatokat nagyrészt felváltotta egy új architektúra, a Transformer típusú hálózat, amely párhuzamosan képes kezelni a szekvenciális adatokat hatékonyabban. Erről a Transformer-megközelítésről a nyelvfeldolgozás kapcsán még lesz szó.
Természetes nyelvfeldolgozás (NLP): Az emberi nyelv megértése és generálása az MI egyik legizgalmasabb és legnagyobb kihívást jelentő területe. A természetes nyelvfeldolgozás célja, hogy a számítógépek képesek legyenek emberi nyelveken írott vagy elhangzott szöveget értelmezni, és akár maguk is értelmes szöveget előállítani. Az NLP magában foglalja a beszédfelismerést (hangból szöveg), a szövegértést (például egy kérdés megválaszolását adott szöveg alapján), a gépi fordítást (szöveg automatikus lefordítása egyik nyelvről a másikra), a kérdés-válasz rendszereket, az összefoglaló készítést és sok más alkalmazást. A korai NLP-rendszerek nyelvtani szabályokra és szótárakra épültek, ám a nyelv komplexitása miatt ezek korlátozott sikerűek voltak. A gépi tanulás megjelenése forradalmasította az NLP-t: először statisztikai modellekkel (n-gram nyelvi modellek, rejtett Markov-modellek), majd neurális hálózatokkal oldották meg a feladatokat egyre jobb pontossággal. A 2010-es évek végén egy különösen hatékony újfajta neurális hálózatos megoldás, a már említett Transformer architektúra teljesítette ki a nyelvfeldolgozás fejlődését. A Transformer-hálózatok képesek úgy feldolgozni egy mondat vagy szöveg szavait, hogy közben figyelmet (“attention”) fordítanak a szöveg releváns részeire – ezáltal egyszerre veszik figyelembe a távoli összefüggéseket is, nem csak a közvetlen szomszédos szavakat. Ezzel a módszerrel a modellek sokkal gazdagabb nyelvi reprezentációt tanulnak. Az eredmény magáért beszél: ma már olyan nyelvi modellek léteznek, amelyek képesek emberi szinten válaszolni kérdésekre, sőt összefüggő esszéket vagy programkódot írni.
GPT-modellek és nagy nyelvi modellek: A nyelvfeldolgozás csúcsteljesítményét ma a hatalmas neurális hálózati modellek, az úgynevezett nagy nyelvi modellek (LLM-ek) képviselik. Ezek közé tartoznak az OpenAI által kifejlesztett GPT (Generative Pre-Trained Transformer) modellek is. A GPT-modellek lényege, hogy rendkívül nagy mennyiségű szövegen (előzetesen) betanítják őket, így megtanulják a nyelv statisztikai szerkezetét. A “Generative” arra utal, hogy ezek a modellek szöveg generálására képesek: megadott kezdés vagy kérdés alapján folytatják az írást. A GPT-3, amely 2020-ban vált ismertté, már 175 milliárd paramétert (súlyokat) tartalmazott – összehasonlításképp, elődje, a GPT-2 “csupán” 1,5 milliárd paraméteres volt. A hatalmas méretű modell rengeteg tudást képes magába szívni a trenírozási szövegek révén, és ennek köszönhetően hihetetlenül változatos feladatokban tud helytállni anélkül, hogy kifejezetten arra programozták volna (ezt hívják zero-shot vagy few-shot tanulásnak, amikor a modell kevés példából vagy példa nélkül is teljesít egy új feladatot). A ChatGPT alkalmazás valójában egy továbbfejlesztett GPT-modell (a GPT-3.5 illetve GPT-4 változatokkal a háttérben), amelyet a párbeszédes formára és a felhasználóval való interakcióra hangoltak. Ezek a modellek képesek például esszéket írni adott témáról, kódrészleteket generálni, verseket költeni vagy éppen emberi tanácsokat utánozni – mindezt úgy, hogy mondatról mondatra döntenek a válasz következő szaváról a korábbi tanulásuk alapján.
Generatív mesterséges intelligencia: A GPT csak egy példája a generatív MI-nak. A generatív modellek lényege, hogy nem csupán felismerni vagy osztályozni tudnak mintázatokat, hanem új adatokat tudnak létrehozni, amelyek hasonlóak a tanulási adataikhoz. A szöveggenerálás mellett a generatív MI másik látványos területe a képgenerálás. Itt említhetjük az OpenAI DALL-E és DALL-E 2 modelleket, vagy a hasonló célú Midjourney és Stable Diffusion programokat, amelyek képesek pusztán szöveges leírás alapján teljesen új, fotórealisztikus vagy művészi képeket alkotni. Például, ha beírjuk egy ilyen modellnek, hogy “egy festmény egy pandáról, aki olajat fest egy vászonra, Van Gogh stílusában”, a rendszer néhány másodperc alatt előállít egy teljesen egyedi képet, ami megfelel a leírásnak. A generatív képi modellek mély neurális hálózatokat (gyakran ún. diffúziós modelleket vagy generatív adverszeriális hálózatokat, GAN-okat) alkalmaznak a képalkotásra.
A generatív MI hatalmas kreatív lehetőségeket rejt magában – gondoljunk csak a filmek speciális effektjeire, a dizájnerek munkájára vagy akár a videojátékok dinamikus tartalomgenerálására. Ugyanakkor veszélyeket is hordoz, hiszen ugyanezekkel az eszközökkel megtévesztő tartalmakat (deepfake képeket, videókat, hamis híreket) is könnyű létrehozni, ami komoly etikai és társadalmi kérdéseket vet fel.
Önvezető autók és robotika: Az önvezető járművek az MI egy másik izgalmas alkalmazási területét jelentik. Egy önvezető autó valójában több különböző MI-rendszer kombinációja: egyrészt gépi látás algoritmusok (például CNN-ek) dolgozzák fel a kamerák képeit, hogy felismerjék az úton lévő sávokat, járműveket, gyalogosokat; másrészt a jármű fedélzeti rendszere szenzoradatokat (lidar, radar, GPS) integrál, és egy tervező algoritmus – gyakran szintén gépi tanulási komponensekkel – dönti el a következő manővert. Az önvezető autóknál kiemelten fontos a valós idejű döntéshozatal és a biztonságos működés. Bár ma még teljesen autonóm (a vezető beavatkozása nélküli) autók nincsenek kereskedelmi forgalomban, számos nagy autógyártó és tech cég (pl. Tesla, Waymo) teszteli az önvezető járműveket, és több modell már most is képes bizonyos körülmények között önállóan közlekedni (autópályán sávot tartani, parkolni, stb.). Hasonló elvek mentén fejlődik a robotika is: az ipari robotkarok önálló tanulással optimalizálják a mozdulataikat, a drónok MI-t használnak a navigációhoz, a humanoid robotok pedig a környezet érzékeléséhez és a kommunikációhoz alkalmaznak mesterséges intelligenciát.
AlphaGo és AlphaFold: Két különleges példát érdemes még megemlíteni a mesterséges intelligencia eredményei közül. Az AlphaGo egy olyan MI rendszer, amely a megerősítéses tanulás révén tanulta meg a rendkívül összetett kínai táblajáték, a go mesterfokú játékát, és ahogy már szó volt róla, legyőzte az egyik legjobb emberi játékost is. Az AlphaGo sikere megmutatta, hogy az MI nemcsak statikus feladatokban (mint a képfelismerés), hanem stratégiai döntéshozatalban is remekelhet, ha elegendő tanulási lehetőséget (számtalan lejátszott játékot) biztosítanak számára. A másik példa, az AlphaFold, azt demonstrálja, hogy az MI a tudományos kutatásban is forradalmi eszköz lehet: a DeepMind cég által fejlesztett AlphaFold a fehérjék térszerkezetének előrejelzését oldotta meg olyan pontossággal, ami korábban elképzelhetetlen volt. A biológusok évtizedeken át kísérleteztek, hogy megtudják, egy adott aminosav-sorrendű fehérje hogyan hajtódik össze – az AlphaFold ezt a feladatot percek alatt képes megoldani, ami hatalmas lökést adott a gyógyszerkutatásnak és a molekuláris biológiának.
Látható, hogy a mesterséges intelligencia sokoldalúsága révén szinte minden területen megjelent: a beszédfelismeréstől és fordítástól kezdve a képfelismerésen át a játékokban nyújtott emberfeletti teljesítményig, a művészi alkotások generálásáig vagy a tudományos problémák megoldásáig. A következőkben azt tekintjük át, hogyan működnek a motorháztető alatt ezek a rendszerek: milyen tanulási technikák és algoritmusok hajtják őket.
Gépi tanulási technikák: gradiensmódszerek, visszaterjesztés, túlillesztés, regulárizáció, hiperparaméterek
Egy modern mesterségesintelligencia-rendszer “tanítása” tipikusan úgy történik, hogy rengeteg példa alapján fokozatosan javítjuk a modell teljesítményét. Ehhez számos módszert dolgoztak ki az évtizedek során. Az alábbiakban ismertetünk néhány fontos alapfogalmat a gépi tanulás technikái közül.
Gradiensalapú tanulás: A legtöbb neurális hálózatot és sok más gépi tanulási modellt gradiensmódszerekkel tanítanak. Ennek lényege egy iteratív optimalizálási folyamat, amit gyakran grádiens-descent (gradienssüllyesztés) algoritmusnak nevezünk. Képzeljük el, hogy a modellünk (például egy neurális hálózat) teljesítményét egy mérőszám, az ún. veszteségfüggvény (loss) jellemzi, ami azt mutatja, mennyire téved a modell az aktuális paraméterbeállításokkal. A tanítás során a cél ennek a veszteségnek a minimalizálása. A gradiens ennek a veszteségfüggvénynek a meredekségét jelenti a modell paramétereinek függvényében – magyarán megmutatja, hogy milyen irányban kell változtatni a paramétereket ahhoz, hogy a hibát csökkentsük. A gradiens-descent algoritmus minden lépésben kiszámolja, merre és mennyit változtassunk a modell paraméterein (például a neurális hálózat súlyain) a hiba csökkentése érdekében, majd ennek megfelelően módosít rajtuk. Ha ezt sok-sok lépésen keresztül ismételjük, a modell egyre pontosabb lesz. Gyakran használják ennek egy véletlenszerű változatát, az Stochastic Gradient Descent (SGD) módszert, ahol minden lépésben csak az adatok egy kis részhalmazán számítják a gradienseket, hogy gyorsítsák a folyamatot.
Visszaterjesztés (backpropagation): A neurális hálózatok mély struktúrájában rengeteg paraméter (súly) van, és minden egyes kimeneti hiba sok paraméter kombinált hatásából adódik. Hogyan tudjuk hatékonyan kiszámítani, hogy egy adott súlyt milyen irányba kell módosítani? Erre szolgál a visszaterjesztés algoritmusa. A visszaterjesztés lényegében a gradiens gyors kiszámítását végzi a hálózatban: a hálózat kimenetén mért hibát visszafelé terjesztjük a hálózat rétegein, a láncszabály (differenciálszámítás) elvét alkalmazva. Így megkapjuk minden egyes súlyra, hogy mennyiben járult hozzá a hibához. Ezt az információt felhasználva aztán a gradiens-descent módszerrel módosítjuk a súlyokat. A visszaterjesztés algoritmusa tette lehetővé, hogy a több rétegű (mély) neurális hálózatokat is hatékonyan lehessen tanítani, ugyanis nélküle gyakorlatilag kezelhetetlenül sok számítást igényelne a rengeteg paraméter finomhangolása. A visszaterjesztés és a gradiens-alapú optimalizáció együttesen azt biztosítja, hogy a hálózat tanul a példákból: minden egyes bemutatott tanító adatpont után egy kicsit javul a teljesítménye a súlyok korrekciója révén.
Túlillesztés (overfitting): Az egyik klasszikus probléma a gépi tanulásban a túlillesztés. Akkor beszélünk túlillesztésről, amikor a modell túl jól megtanulja a tanítóadatok sajátosságait, és emiatt elveszíti a képességét, hogy általánosítson az új, soha nem látott adatokra. Más szavakkal, a modell “bemagolja” a tanító példákat ahelyett, hogy az általános, lényegi mintázatot tanulná meg belőlük. Ez ahhoz vezet, hogy a tanító adathalmazon nagyon alacsony hibát ér el, de amint új adatokkal találkozik (például egy valódi alkalmazás során), a teljesítménye jelentősen leromlik. A túlillesztés tipikus jele, hogy a modell egyre javul a tanulási fázis során a saját (train) adataival szemben, de a tesztadatokon (amelyeket nem látott tanulás közben) egy idő után romlani kezd a pontossága. Ennek oka, hogy a modell olyan zajos vagy egyedi jellemzőkre is ráhangolódott, amelyek nem általánosak. Például ha egy képfelismerő hálózatot csak erdei környezetben fotózott állatokon tanítunk, lehet, hogy megtanulja az erdő hátterét is “jelnek” használni – így egy sivatagi környezetben fotózott medvét talán fel sem ismer, mert hiányzik a megszokott zöld háttér. A túlillesztés elkerülése érdekében több technikát is bevetünk.
Regulárizáció (általánosítás javítása): A regulárizáció olyan módszerek gyűjtőneve, amelyek célja a modellek túlillesztésének csökkentése és a jobb általánosító képesség elősegítése. Számos regulárizációs technika létezik. Az egyik egyszerű ötlet, hogy büntetjük a túl bonyolult modelleket: matematikailag ez gyakran úgy néz ki, hogy a veszteségfüggvényhez hozzáadunk egy extra tagot, ami a modell paramétereinek (például a súlyoknak) a nagyságát méri, és ezzel bünteti a túl nagy súlyokat. Ezt nevezik L2 regulárizációnak vagy súlydecay-nek (súlycsökkenésnek) – eredménye, hogy a hálózat igyekszik kisebb súlyokat használni, ami simább, kevésbé túlilleszkedő megoldást eredményezhet. Egy másik népszerű módszer a dropout: ilyenkor a hálózat neuronjainak egy részét véletlenszerűen “kikapcsoljuk” a tanítás egyes lépéseiben, így a hálózat nem támaszkodhat túlzottan egy-egy részletre, kénytelen többféle “útvonalon” megtanulni a feladatot. A kereszt-validáció is egy módszer arra, hogy észleljük és elkerüljük a túlillesztést: ilyenkor a rendelkezésre álló adatokat több részre osztjuk, és felváltva használjuk tanításra és tesztelésre őket, hogy megbizonyosodjunk róla, a modell nem csak a konkrét tanítóadatokra teljesít jól. Összességében a regulárizációs technikák arra szolgálnak, hogy a modell a tanulás során az általános mintázatokat ragadja meg, és ne a véletlen zajt.
Hiperparaméterek: A gépi tanulás során sok apró beállítást a fejlesztőnek kell meghatároznia – ezeket nevezzük hiperparamétereknek. Míg a modell paraméterei azok az értékek, amelyeket a tanuló algoritmus automatikusan beállít (ilyen paraméter például egy neurális hálózat súlya), a hiperparaméterek a tanulási folyamat irányítására szolgáló értékek, amelyeket általában kézzel (vagy automatizált kereséssel) kell megadnunk. Tipikus hiperparaméter például a tanulási ráta (learning rate), ami azt határozza meg, mekkora lépésekben módosítjuk a súlyokat a gradiens-descent során. Ha a learning rate túl nagy, a tanulás instabillá válhat és a modell “össze-vissza ugrál” ahelyett, hogy konvergálna a jó megoldáshoz; ha túl kicsi, akkor viszont a tanulás túl lassú lesz vagy megreked egy nem optimális szinten. Más hiperparaméterek közé tartozik például a neurális hálózat rétegeinek száma és minden réteg neuronszáma, a batch-méret (hány példát használunk fel egy gradiens számításához), vagy a regulárizációs paraméterek erőssége. A hiperparaméterek megfelelő megválasztása kritikus a jó teljesítményhez – gyakori, hogy a kutatók és mérnökök sok kísérletet futtatnak különböző hiperparaméter-beállításokkal, mire megtalálják az optimális kombinációt. Manapság léteznek automatikus hiperparaméter-kereső módszerek (hyperparameter tuning), amelyek segítenek ebben a folyamatban.
Ezen technikák és fogalmak mind azt szolgálják, hogy a gépi tanulási modelleket minél hatékonyabban és megbízhatóbban készítsük fel feladatukra. A következő, záró részben áttekintjük, milyen hatással van mindez a társadalmunkra, és milyen filozófiai kérdéseket vet fel az egyre okosabb gépek megjelenése.
Társadalmi és filozófiai vonatkozások
Az elmúlt években a mesterséges intelligencia nemcsak a laboratóriumok vagy ipari alkalmazások témája, hanem széleskörű társadalmi párbeszédet váltott ki. Felmerül a kérdés: milyen hatással lesz az MI a mindennapi életünkre, a munkahelyekre, az emberi kapcsolatokra és egyáltalán a világ jövőjére? Ezen túlmenően filozófiai mélységű problémákat is felvet az egyre okosabb gépek létezése: vajon lehet-e egy gépnek tudata, és ha igen, hogyan viszonyulunk majd hozzá? Ebben a fejezetben ezeket a kérdéseket járjuk körül.
Etikai kérdések és kihívások: A mesterséges intelligencia alkalmazása számos etikai dilemmát szül. Az egyik fő aggály a diszkrimináció és az elfogultság kérdése. Az MI rendszerek az emberek által létrehozott adatokon tanulnak, és ha ezekben az adatokban előítéletek vagy igazságtalanságok vannak, a gép sajnos ezeket is “megtanulhatja”. Így fordulhat elő, hogy egyes algoritmusok hátrányosan különböztetnek meg bizonyos csoportokat – például egy automatizált hitelbírálati rendszer igazságtalanul elutasíthat hiteleket bizonyos demográfiai jellemzők alapján, vagy egy arcfelismerő rendszer pontatlanabbul ismeri fel a sötétebb bőrű embereket, mert a tanító adatai főként világos bőrű arcokat tartalmaztak. Ezt digitális diszkriminációnak nevezhetjük. Az ilyen esetek rámutatnak, hogy nagyon fontos az MI rendszerek átláthatósága és elszámoltathatósága: tudnunk kell, egy algoritmus milyen adatok és szempontok alapján hozza a döntéseit, és szükség esetén be kell tudnunk avatkozni. Az is alapvető követelmény, hogy az MI-k által használt adatok megfelelően reprezentálják a valós sokféleséget, és ne legyenek benne torzítások.
Egy másik etikai szempont az adatvédelem és a magánszféra. Az MI rendszerek gyakran hatalmas mennyiségű személyes adatot igényelnek a működésükhöz – gondoljunk a közösségi média algoritmusaira vagy az okostelefonok asszisztenseire, amelyek a felhasználó szokásait elemzik. Felmerül a kérdés: ki fér hozzá ezekhez az adatokhoz, és mire használja őket? Biztosítani kell, hogy a felhasználók beleegyezése nélkül ne gyűjtsenek és elemezzenek érzékeny információkat róluk, és hogy az adatok ne kerüljenek illetéktelen kezekbe. Emellett a tájékoztatás és a közbeszéd befolyásolása is kritikus kérdéssé vált: a közösségi média platformok MI-alapú ajánlóalgoritmusai döntően befolyásolják, milyen híreket és információkat látunk, ami “visszhangkamrákat” (filterbuborékokat) hozhat létre és elősegítheti a dezinformáció terjedését, ha nincsenek megfelelő ellensúlyok.
Szintén jelentős etikai kérdés az autonóm fegyverrendszerek és a biztonság. Ha a mesterséges intelligenciát fegyverek irányítására alkalmazzák (például önműködő drónok formájában), komoly morális dilemmákat vet fel, hogy egy gép hozhat-e halálos döntéseket ember helyett. Sok kutató és aktivista sürget nemzetközi egyezményeket az ilyen “gyilkos robotok” betiltására, mielőtt elterjednének. Érdekes módon a tudományos-fantasztikus irodalomban már a 20. század közepén megjelent az igény a biztonsági korlátokra: Isaac Asimov híres Három törvénye a robotikában (1942) éppen azt célozta, hogy a robotok ne árthassanak az embernek. A valóságban az efféle egyszerű szabályrendszerek nem elegendőek, de jól mutatják, hogy régóta foglalkoztat bennünket az önműködő intelligenciák biztonságos viselkedése. Azonban a mindennapi biztonság szempontjából is fontos: például egy önvezető autónál kódolni kell bizonyos etikai döntéseket (ha baleseti szituáció alakul ki, mit vagy kit részesítsen előnyben a jármű?).
Összességében az MI etikai vonatkozásai azt mutatják, hogy a technológia fejlesztését felelősséggel kell végezni. Az MI szakemberek ma már egyre többet foglalkoznak az MI etika területével: irányelveket fogalmaznak meg a tisztességes, átlátható, emberközpontú MI-rendszerek kialakítására. Sok nagy cég és kutatóintézet állított fel etikai bizottságokat, hogy felügyeljék az MI-fejlesztéseket. Vannak nemzetközi törekvések is a szabályozásra – például az EU készülő MI rendelete (EU AI Act) próbál keretet adni az MI alkalmazások engedélyezésének és felügyeletének.
Az MI és a tudat kérdése: Már Alan Turing 1950-es kérdésfelvetése (“Gondolkodhatnak-e a gépek?”) is rámutatott erre a filozófiai problémára. Azóta is vita tárgya, hogy az intelligencia vajon egyenlő-e a tudatossággal. A mai mesterséges intelligenciák – bármilyen okosnak is tűnjenek – nincsenek tudatában önmaguknak. Nem éreznek érzelmeket, nincsenek saját céljaik vagy szándékaik; csupán statisztikai mintázatokat követnek és reagálnak a bemenetekre a programozásuk és tanulásuk alapján. Egy híres filozófiai gondolatkísérlet, John Searle kínai szobája, azt illusztrálja, hogy egy rendszer akkor is adhat értelmesnek tűnő válaszokat egy nyelvi kérdésre, ha valójában nem érti a jelentést – csak szabályok szerint manipulálja a szimbólumokat. Searle érvelése szerint még ha egy számítógép át is menne a Turing-teszten, az sem bizonyítaná, hogy valódi tudata vagy megértése van, csupán azt, hogy ügyesen szimulálja a párbeszédet.
Felvetődik a kérdés: lehet-e, hogy egyszer létrehozunk egy olyan MI-t, amely ténylegesen önálló tudattal és öntudattal bír? Ha igen, azt miből ismernénk fel, és milyen jogok illetnék meg egy ilyen gépi értelmet? Ezek ma még inkább sci-fi-be illő felvetések, de néhány kutató foglalkozik az ún. általános mesterséges intelligencia (AGI) és a szuperintelligencia fogalmával – olyan elméleti MI-vel, amely minden kognitív területen felülmúlja az embert, és talán öntudatra is ébred. Egyes jövőkutatók (mint Ray Kurzweil) ezt a pontot “szingularitásnak” nevezik, amikor az emberi civilizáció gyökeresen átalakul az MI által. Mások, köztük híres tudósok is (például a néhai Stephen Hawking vagy az Elon Musk vezette Future of Life Institute) óvatosságra intenek: szerintük komoly veszélyei lehetnek, ha egy ilyen szuperintelligencia kikerül az emberi ellenőrzés alól. Jelenleg azonban az AGI még nem valósult meg, és az uralkodó vélemény az, hogy a ma ismert algoritmusokkal még nem közelítettük meg a valódi tudatosságot.
Az MI hatása a munkaerőpiacra: Az automatizáció nem új jelenség – a történelem során a technológiai fejlődés mindig is átalakította a munka jellegét. Az MI azonban a fehérgalléros, szellemi munkák automatizálásának ígéretével (vagy fenyegetésével) lép színre. Sokan attól tartanak, hogy a mesterséges intelligencia elterjedése munkanélküliséghez vezethet, mivel gépek veszik át emberek feladatait. Az igazság valószínűleg ennél árnyaltabb. Kétségtelen, hogy bizonyos állások – különösen azok, amelyek rutinszerűen ismétlődő feladatokat jelentenek – veszélyben vannak. Például az önvezető technológia előrehaladása miatt a jövőben kevesebb hivatásos sofőrre lehet szükség; a fejlett ügyfélszolgálati chatbotok csökkenthetik az ügyintézők számát; a fejlett diagnosztikai MI-rendszerek segíthetik vagy részben kiválthatják az orvosok egy részét bizonyos feladatokban. Egy 2017-es tanulmány becslése szerint 2030-ra világszerte akár 800 millió munkahelyet érinthet az automatizáció valamilyen formában, ami az akkori globális munkaerő mintegy egyötöde. Ez ijesztően hangzik, de fontos hozzátenni, hogy az automatizáció nem pusztán elvesz munkahelyeket, hanem át is alakítja azokat, sőt újakat is teremt. Ahogy régen az ipari forradalom idején is megjelentek új szakmák (gondoljunk a gépészekre, szerelőkre stb.), úgy az MI korában is születnek új foglalkozások – például adatkutatók, MI-specialisták, robotkarbantartók vagy épp “prompt-mérnökök”, akik azt tervezik meg, hogyan kommunikáljunk hatékonyan a nyelvi modellekkel. A legvalószínűbb forgatókönyv az, hogy számos munkakör átalakul: az emberek együtt dolgoznak majd az MI-eszközökkel. Az MI átveszi a monoton, adatintenzív feladatokat, míg az emberek a kreativitást, az empátiát és a komplex döntéshozatalt igénylő részekre fókuszálhatnak. Természetesen ez is kihívás: a munkaerőnek alkalmazkodnia kell, új készségeket kell elsajátítani (felértékelődnek például az informatikai és adatelemzői ismeretek), és a társadalomnak gondoskodnia kell arról, hogy senki ne maradjon le az átalakulásban.
Az MI és az ember viszonya: Végül érdemes szót ejteni arról a tágabb kérdésről, hogy milyen lesz együtt élni az egyre fejlettebb mesterséges intelligenciákkal. Egyrészt ott a haszon: az MI számtalan területen jobbá teheti az életünket – precízebb orvosi diagnózisok, személyre szabott oktatás, okosabb energiahálózatok, környezeti katasztrófák előrejelzése, és még sorolhatnánk. Ha jól használjuk, az MI az emberi képességek kiterjesztése lehet, egyfajta “intelligens segítőtárs” számos feladatban. Másrészt viszont fontos, hogy megőrizzük az emberi kontrollt ezen rendszerek felett. Az MI legyen eszköz, és ne váljon öncélúvá vagy az ember helyettesítőjévé ott, ahol az emberi ítélőképesség, kreativitás vagy felelősségvállalás nélkülözhetetlen. Az olyan területeken, mint az igazságszolgáltatás vagy az egészségügy, mindig meg kell maradjon a végső döntés az ember kezében, még ha MI segíti is a folyamatot.
A mindennapok szintjén is új kihívások jelennek meg. Ha beszélgetünk egy chatbot-tal, amely tökéletesen utánozza az emberi stílust, vajon tudatában leszünk-e mindig, hogy egy géppel van dolgunk? Szükséges-e, hogy az MI alkalmazások egyértelműen azonosítsák magukat gépként? Hogyan alakítja át a közösségi kapcsolatainkat, ha például baráti vagy akár romantikus viszonyt alakít ki valaki egy MI-chatbotral? Ezekre a kérdésekre még nincsenek kész válaszok – a társadalomnak együtt kell megtalálnia a megfelelő normákat.
A mesterséges intelligencia az emberiség egyik legnagyobb innovációs kalandja. Ahhoz, hogy ez a kaland sikeres legyen, nemcsak technológiai fronton kell haladnunk, hanem társadalmi és etikai téren is. Az MI jövője attól is függ, mennyire tudjuk a pozitív hatásait maximálni, miközben minimalizáljuk a kockázatokat.
Összegzés
Elmondhatjuk, hogy a mesterséges intelligencia mára a tudomány és a technológia egyik központi elemévé vált, amely alapjaiban formálja át a világunkat. Ebben az áttekintésben láthattuk, hogy az MI nem egyetlen találmány vagy elmélet, hanem számos egymással összefüggő fogalom és módszer gyűjtőhelye. Kezdetben megismerkedtünk az alapfogalmakkal – magával a mesterséges intelligencia definíciójával és típusaival, a gépi tanulással, a neurális hálózatokkal, a mélytanulással és a megerősítéses tanulással. Ezután felidéztük a terület történeti fejlődését és kiemelkedő alakjait: Alan Turing gondolatkísérleteitől és Neumann János számítógép-architektúrájától indulva, az 1956-os Dartmouth konferencián át Minsky és McCarthy munkásságáig, majd a modern korszak mélytanulási forradalmát elhozó Hinton, LeCun és Bengio tevékenységéig, egészen napjaink látványos eredményeiig, mint az AlphaGo győzelme vagy a ChatGPT megjelenése.
Áttekintettük az MI fontos technológiai területeit is: a képfelismerést forradalmasító konvolúciós neurális hálózatokat; a sorozatos adatokkal dolgozó rekurrens hálózatokat; a természetes nyelvfeldolgozás áttöréseit, különös tekintettel a Transformer-alapú nyelvi modellekre és a GPT-re; a generatív MI káprázatos vívmányait a szöveg- és képgenerálásban; valamint az olyan összetett alkalmazásokat, mint az önvezető autók, amelyek sokféle MI-technológia integrációjával működnek.
Szó esett a gépi tanulás technikai alapjairól is: megértettük, hogyan tanulnak a modellek a gradiensmódszerek és a visszaterjesztés segítségével; miért fontos vigyázni a túlillesztésre, és hogyan segítenek ebben a regulárizációs technikák; és hogyan kell okosan megválasztani a hiperparamétereket, hogy a tanulási folyamat sikeres legyen.
Végül, de talán legfontosabbként, kitértünk a mesterséges intelligencia társadalmi és filozófiai vetületeire. Láttuk, hogy az MI nem pusztán műszaki kérdés, hanem komoly etikai felelősséggel jár: oda kell figyelni a rendszeresen felmerülő igazságossági kérdésekre, a magánélet védelmére és az emberi kontroll fenntartására. Foglalkoztunk a jövő talán legérdekesebb filozófiai problémájával is, miszerint képes lehet-e egy gép valódi tudatosságra – és ha igen, mit jelentene ez az emberiség számára. És nem utolsó sorban szóltunk arról, hogyan hat az MI a munka világára és az emberi együttélésre: milyen kihívásokat és lehetőségeket teremt.
Összegzésképpen, a mesterséges intelligencia egyszerre jelent hatalmas lehetőséget és komoly felelősséget. Lehetővé teszi, hogy olyan problémákat oldjunk meg, amelyekről korábban álmodni sem mertünk – ugyanakkor ráirányítja a figyelmet arra, mit is jelent embernek lenni az intelligens gépek korában. Ez a folyamatosan fejlődő terület izgalmas utazásra hív minket: mindannyiunknak érdemes megismerni az MI alapjait, hogy felelős döntéseket hozhassunk róla és együtt alakíthassuk ki a jövőt, amelyben emberek és mesterséges intelligenciák harmóniában, az emberi értékeket szem előtt tartva léteznek.
A mesterséges intelligencia legfontosabb fogalmai rövid magyarázattal
Mesterséges intelligencia (AI) – Gyűjtőfogalom azokra a számítógépes rendszerekre, amelyek képesek emberi intelligenciát igénylő feladatok elvégzésére. Ezek a programok tanulnak a tapasztalataikból, következtetéseket vonnak le és döntéseket hoznak, hogy problémákat oldjanak meg emberi beavatkozás nélkül. Az AI célja, hogy a gépek „okosan” viselkedjenek – például felismerjenek tárgyakat egy képen, megértsék és előállítsák az emberi nyelvet, vagy akár stratégiákat dolgozzanak ki játékokban –, és ezzel számos területen (egészségügy, közlekedés, ügyfélszolgálat stb.) segítsék az embereket.
Általános mesterséges intelligencia (Artificial General Intelligence – AGI) – Olyan (egyelőre elméleti) jövőbeli AI-típus, amely az emberéhez hasonló általános értelemben vett intelligenciával rendelkezne. Ez azt jelenti, hogy egy AGI bármilyen intellektuális feladatot meg tudna oldani, amit egy ember is, nem csupán egy szűk szakterületen lenne jártas. Jelenleg az összes létező mesterséges intelligencia úgynevezett szűk (narrow) AI, ami csak speciális feladatokra képes. Az AGI ezzel szemben egyetemes „gépi intelligenciát” takar – a tudományos-fantasztikus irodalom és a kutatások egyik fontos fogalma –, de ma még nem létezik ilyen rendszer.
Szimbolikus mesterséges intelligencia (symbolic AI) – Az AI egy hagyományos megközelítése, amely az 1950-es évektől kezdve sokáig meghatározó volt. A szimbolikus AI az emberi tudást logikai szabályokkal és szimbólumokkal modellezi, vagyis a problémamegoldást előre megírt szabályokra és tényekre (tudásbázisra) alapozza. Ilyen rendszerekben a programozók explicit „ha… akkor…” szabályokat adnak meg, és a gép ezekből következtetéseket von le. A módszer jól működik jól definiált, strukturált feladatoknál – például matematikai tételbizonyítás vagy táblajátékok (sakk) esetén –, viszont nehézségekbe ütközik a hétköznapi, zajos vagy komplex problémák kezelésénél, mert az élet minden eshetőségére előre szabályt írni szinte lehetetlen.
Szakértői rendszer (expert system) – A szimbolikus AI gyakorlati alkalmazása, amely egy szűk szakterület emberi szakértőinek tudását utánozza előre rögzített szabályok formájában. A szakértői rendszer egy tudásbázisból (a szakértőktől gyűjtött szabályok és tények gyűjteményéből) és egy következtető motorból áll, mely ezeket a szabályokat alkalmazva hoz döntéseket vagy ad tanácsot. Például léteznek orvosi diagnosztikai szakértői rendszerek, amelyek az orvosok tudását szabályokba foglalva segítenek a tünetek alapján diagnózist javasolni. Az ilyen rendszerek nagyon jól teljesítenek az adott szűk területen, következetesen alkalmazva a beépített szabályokat, viszont nem tanulnak önállóan, új tudást csak emberi szakértők adhatnak hozzá (így rugalmatlanok az új helyzetekkel szemben).
Gépi tanulás (Machine Learning – ML) – A mesterséges intelligencia egyik alcsoportja, ahol a programok adatokból tanulnak anélkül, hogy minden eshetőségre előre be lennének programozva. Ahelyett, hogy az összes döntési szabályt kézzel írná le egy fejlesztő, a gépi tanulási algoritmust sok példa megmutatásával tanítjuk: a rendszer maga ismeri fel az adatokban rejlő mintázatokat és összefüggéseket. A megtanult modell így általánosítani tud új esetekre, és előrejelzéseket vagy döntéseket hoz a korábban tanultak alapján. Ennek a megközelítésnek köszönhetően a gépi tanulás rendkívül sikeres olyan feladatokban, mint például a képfelismerés, a hang- vagy beszédfelismerés, illetve a levélszemét szűrése – például egy spam-szűrő algoritmus rengeteg példa alapján megtanulja megkülönböztetni a kéretlen leveleket a normál e-mailektől.
Felügyelt tanulás (supervised learning) – A gépi tanulás azon típusa, ahol a modellt előre ismert helyes kimenetek segítségével tanítjuk. A tanító adatállomány címkézett példákból áll: minden bemenethez (pl. egy képhez) tartozik egy megfelelő kimenet vagy címke (pl. mi látható a képen). A tanulási folyamat során a modell megtanulja összekapcsolni a bemenetet a helyes kimenettel, így később, ha egy új (címke nélküli) bemenetet kap, meg tudja jósolni a hozzá tartozó eredményt. Tipikus felügyelt tanulási feladat a klasszifikáció (osztályozás) – például egy modell besorolja, hogy egy e-mail spam vagy nem spam, esetleg egy röntgenfelvétel betegséget mutat vagy negatív – illetve a regresszió, ahol a modell egy számértéket becsül meg (például lakásárat a jellemzők alapján).
Felügyelet nélküli tanulás (unsupervised learning) – Olyan gépi tanulási módszer, ahol a rendszer címke vagy felügyelet nélkül, nyers adatokból próbál mintázatokat felismerni. Itt nincsenek előre megadott helyes válaszok vagy kategóriacímkék; a modell feladata, hogy magától találjon összefüggéseket, csoportokat vagy szabályokat az adatokban. Gyakori felügyelet nélküli feladat a klaszterezés, amikor a rendszer például vásárlók adatai alapján csoportokat alakít ki (anélkül, hogy előre megmondanánk, milyenek ezek a csoportok), vagy a dimenziócsökkentés, amikor egy bonyolult adathalmazt egyszerűbb, áttekinthetőbb formára hozunk. Az ilyen algoritmusokat használják többek között adatfelfedezésre (rejtett minták keresésére nagy adatbázisokban) vagy anomália detekcióra (szokatlan események, pl. csalás észlelésére), amikor nem tudjuk előre, pontosan mit keresünk az adatokban.
Megerősítéses tanulás (reinforcement learning – RL) – A gépi tanulás egy olyan ága, ahol egy ügynök (agent) próba-szerencse alapon tanul a környezetével való interakcióból, mégpedig jutalmak és büntetések révén. Ebben a keretrendszerben nincs minden lépéshez előre helyes megoldás; helyette az ügynök cselekvéseket hajt végre, és a környezettől egy jutalomértéket kap visszajelzésként (pozitív vagy negatív) attól függően, hogy a cselekvés mennyire volt jó a hosszú távú cél szempontjából. Az algoritmus célja a kumulatív jutalom maximalizálása, azaz megtanulni azt a viselkedési stratégiát (policy), amellyel hosszútávon a legtöbb jutalmat zsebelheti be. A megerősítéses tanulást számos területen alkalmazzák, például játékokban (a híres AlphaGo így tanulta meg, hogyan győzze le az embert a Go játékban), robotikában (a robot kísérletezéssel tanul meg járni vagy tárgyakat manipulálni), illetve önvezető autók vezérlésében (ahol a rendszer folyamatos visszajelzéseket kap a vezetési döntések helyességéről).
Természetes nyelvfeldolgozás (Natural Language Processing – NLP) – A mesterséges intelligencia azon területe, amely a természetes (emberi) nyelvek számítógépes megértésével és generálásával foglalkozik. Ide tartozik minden olyan feladat, ahol a gépnek szöveggel vagy beszéddel kell dolgoznia. NLP alkalmazások például: a gépies fordítás (amikor a program egyik nyelvről a másikra fordít, pl. Google Fordító), a beszédfelismerés (amikor a gép felismeri és szöveggé alakítja az emberi beszédet – pl. telefonos hangalapú asszisztensek), a szövegértés és kérdés-megválaszolás (pl. egy AI elolvassa egy cikk tartalmát és kérdésekre válaszol belőle), vagy a hangulatelemzés (meghatározza egy szövegről, hogy pozitív vagy negatív érzelmi töltésű-e). Az NLP célja tehát, hogy a gépek “megértsék” az emberi nyelvet, illetve értelmes, emberhez hasonló nyelvi válaszokat tudjanak adni. A modern nyelvi modellek (pl. a ChatGPT-t működtető modell) már igen fejlett szinten űzik ezt: emberi módon képesek beszélgetni, szöveget írni és értelmezni, ami óriási előrelépés számos gyakorlati területen (okos asszisztensek, automata ügyfélszolgálat, tartalommoderáció stb.).
Számítógépes látás (Computer Vision) – A mesterséges intelligencia azon ága, amely a képek és videók automatikus elemzését és megértését célozza. A számítógépes látás rendszerei megtanítják a gépet látni: a beérkező vizuális adatok (fotók, kameraképek) alapján felismerni tárgyakat, személyeket, jeleneteket vagy eseményeket. Például egy számítógépes látás algoritmus meg tudja állapítani egy fényképről, hogy azon egy autó látható-e, felismeri az arcokat egy biztonsági kamera képén, vagy számlálja a gyárban a futószalagon érkező termékeket. Alkalmazásai széles körűek: arcfelismerő rendszerek (pl. mobiltelefonok feloldása arcképpel), önvezető autók környezetészlelése (a jármű “látja” és értelmezi az útjelzéseket, gyalogosokat, akadályokat), vagy orvosi képfeldolgozás (rákszűrés segítése röntgen- vagy MRI-képek elemzésével). A számítógépes látás hatalmas fejlődésen ment keresztül a mélytanulás megjelenésével, ami lehetővé tette, hogy a gépek a vizuális világban is megbízhatóan felismerjenek összetett mintázatokat.
Neurális hálózat (mesterséges neurális hálózat – neural network) – Egy számítógépes modell, amelyet az emberi agy idegsejthálózatának működése inspirált. A neurális hálózatban sok egyszerű, neuronnak nevezett számítási egység kapcsolódik össze rétegelt struktúrában. Minden mesterséges neuron egyszerű műveletet végez (súlyozott összegzést és egy aktivációs függvény alkalmazását), majd az eredményt továbbadja a következő réteg neuron-jainak – hasonlóan ahhoz, ahogy a biológiai neuronok továbbítják a jeleket. A hálózat tanulási folyamatában ezeknek a kapcsolódási súlyoknak az értékei módosulnak, így a hálózat egyre pontosabban ismeri fel az adatokban lévő mintázatokat. Például egy neurális hálózat megfelelően betanítva képes megtanulni, hogy a bemeneti képpontok mintázataiból felismerje, macska vagy kutya látható-e egy képen. Minél több réteget és neuront tartalmaz a hálózat, annál összetettebb képességekre tehet szert – a nagyon sok rétegű, komplex neurális hálózatokat nevezzük mély neurális hálóknak, ezek a mélytanulás alapjai.
Mélytanulás (deep learning) – A gépi tanulás azon részterülete, amely nagyon mély, többrétegű neurális hálózatokat alkalmaz a problémák megoldására. A mélytanulási modellek hatalmas mennyiségű adaton képesek komplex mintázatokat megtanulni, és emiatt számos feladatban ugrászerűen jobb teljesítményt nyújtottak, mint a korábbi módszerek. A jelentőségük abban rejlik, hogy segítségükkel a gépek olyan bonyolult feladatokat is el tudnak végezni, amelyek korábban túl nehéznek számítottak: például képfelismerésben és beszédfelismerésben a mélytanuló modellek érték el az első, emberközeli pontosságú eredményeket, de ilyen technológia dolgozik a hangvezérelt asszisztensekben (amik megértik az utasításainkat), vagy a játékokban győztes AI rendszerekben is. A mélytanulás látványos sikerei közé tartozik például az, hogy egy mély neurális háló (az AlphaGo) megtanulta legyőzni a világ legjobb Go játékosait, vagy hogy a telefonunk képes a diktált szöveget szinte hibátlanul lejegyezni. Összességében a mélytanulás forradalmasította az AI alkalmazásokat az elmúlt évtizedben azáltal, hogy automatikusan feltárja a nyers adatokban rejlő lényeges jellemzőket emberi beavatkozás nélkül.
Konvolúciós neurális hálózat (Convolutional Neural Network – CNN) – A neurális hálózatok egyik specializált típusa, amely különösen képi és vizuális adatok feldolgozására alkalmas. A CNN jellemzője, hogy konvolúciós rétegeket tartalmaz: ezekben a rétegekben apró, tanulható szűrők (filterek) “csúsznak végig” a bemeneti képen, és lokális mintázatokat keresnek (például éleket, textúrákat, formákat). Ennek a mechanizmusnak köszönhetően a konvolúciós hálózat automatikusan kinyeri a fontos vizuális jellemzőket a képekből anélkül, hogy azt előre megmondanánk neki. A CNN-ek kiemelkedően jól teljesítenek a kép- és arcfelismerési feladatokban, ezért számos gyakorlati alkalmazás alapját képezik. Ilyen hálózat dolgozik például a képosztályozó rendszerekben (amik megmondják egy fotóról, milyen tárgyak vannak rajta), az önvezető autók látórendszerében (ami valós időben észleli az útjelző táblákat, sávokat, gyalogosokat), de még az okostelefonok kamerájának képfeldolgozó szoftverében is (amikor a telefon felismeri a jelenetet és automatikusan javítja a képet). A konvolúciós neurális hálózatok bevezetése hatalmas lökést adott a számítógépes látás fejlődésének, mivel nagyságrendekkel pontosabbá és megbízhatóbbá tették a gépi képfelismerést.
Transformer (transzformer architektúra) – Egy modern neurális hálózati architektúra, amelyet eredetileg a nyelvfeldolgozás (NLP) területén fejlesztettek ki, de azóta számos más területen is sikerrel alkalmazzák. A transformer fő újítása az úgynevezett figyelmi mechanizmus (attention): ez lehetővé teszi, hogy a modell párhuzamosan vizsgálja meg a bemenet különböző elemei közötti kapcsolatokat, és dinamikusan fókuszáljon a fontosabb összefüggésekre. Míg a korábbi modellek (pl. a hagyományos rekurrens neurális hálók) nehezen kezelték a nagyon hosszú szövegeket vagy sorozatokat, a transformer architektúra az attention révén hatékonyan tud hosszú távú függőségeket is tanulni anélkül, hogy sorban haladna végig az adaton – ez jóval gyorsabb tanulást és jobb teljesítményt eredményez. A transformer-alapú modellek, mint például a BERT vagy a GPT (Generative Pre-Trained Transformer) család, kiemelkedő eredményeket értek el a természetes nyelvfeldolgozásban: tudnak mondatokat lefordítani, kérdésekre válaszolni, összefüggő szöveget generálni, sőt programkódot is írni. Ma a legnagyobb és legfejlettebb nyelvi modellek szinte mind a transformer architektúrán alapulnak – ez a megközelítés forradalmasította az NLP-t, mivel lehetővé tette olyan hatalmas kapacitású modellek létrehozását, amelyek korábban elképzelhetetlenek voltak.
Nagy nyelvi modell (Large Language Model – LLM) – Olyan rendkívül nagy neurális hálózati modell, amelyet óriási mennyiségű szöveges adaton treníroztak, hogy magas szinten értsen és generáljon nyelvet. A “nagy” jelző utal a modellek méretére (paramétereinek számára) és a tanító adatok mennyiségére is – tipikusan több milliárd szónyi szöveg és százmillió vagy milliárd paraméter jellemzi ezeket. Egy LLM általános nyelvi tudással rendelkezik: egyszerre többféle feladatban is jól teljesíthet, mint például szövegfordítás, összefoglalás, kérdés-meg-válasz, történetírás vagy épp programkód generálás. Különlegessége, hogy emberhez hasonlóan folyékony és koherens szöveget tud létrehozni vagy a kérdésekre válaszolni, mivel a hatalmas tanítókorpuszból rengeteg nyelvi mintázatot sajátított el. A ChatGPT is egy ilyen nagy nyelvi modellre épülő alkalmazás – jól példázza, hogy az LLM-ek milyen meggyőző, emberi stílusú kommunikációra képesek, ami forradalmasítja az olyan területeket, mint az ügyfélszolgálati chatbotok, a kreatív írás segítése vagy az oktatás.
Chatbot (csevegőbot) – Olyan szoftveres alkalmazás vagy AI-rendszer, amely emberi beszélgetést szimulál, és képes automatikusan válaszolni a felhasználók kérdéseire vagy reagálni az üzeneteikre. A chatbotok jellemzően természetes nyelvfeldolgozó technikákat és gyakran előre betanított nyelvi modelleket használnak, hogy megértsék a bejövő üzenetet és ahhoz releváns választ generáljanak. Széles körben alkalmazzák őket például online ügyfélszolgálatokon (ahol egy weboldal chatablakában segítenek az érdeklődőknek eligazodni vagy problémát megoldani), virtuális asszisztensekben (mint amilyen Siri, Alexa vagy a Google Asszisztens, amelyek szóban kommunikálnak velünk) és közösségi média automatizált chatjeiben. A modern chatbotok a fejlett nyelvi modellek révén nagyon életszerű válaszokra képesek – például a ChatGPT nevű chatbot sokszor megtévesztően emberi stílusban tud beszélgetni. Ennek köszönhetően a chatbotokat ma már nemcsak egyszerű kérdések megválaszolására használják, hanem összetettebb feladatokban is, és nagyban tehermentesítik az emberi munkaerőt (például 24/7 válaszolnak gyakori kérdésekre, vagy segítenek az ügyfeleknek a probléma megoldásának első lépéseiben).
Generatív adverzális hálózat (Generative Adversarial Network – GAN) – Egy különleges mélytanulási modellpár, amelyben két neurális hálózat verseng egymással annak érdekében, hogy a rendszer egyre jobb eredményeket érjen el. Az egyik hálózat a generátor, amely új, mesterséges adatokat állít elő (például véletlenszerű zajból képeket próbál generálni), a másik pedig a diszkriminátor, amelynek feladata megkülönböztetni a generátor által gyártott hamis adatokat a valódi adatoktól. A két hálózat egymást ellenségesen tréningezi: a generátor akkor jár sikerrel, ha olyan megtévesztő adatot hoz létre, amit a diszkriminátor már nem tud megkülönböztetni a valóstól, míg a diszkriminátor akkor sikeres, ha rájön a generált adat csaló mivoltára. Ez a versengés addig folytatódik, amíg a generátor egyre élethűbb, valósághoz közeli adatokat nem kezd produkálni. A GAN-ok egyik látványos alkalmazása a képalkotás: képesek például nem létező, de valósnak tűnő arcokat generálni, vagy alacsony felbontású képeket nagy felbontásúvá élesíteni, esetleg egyik kép stílusát átültetni egy másikra. Gyakorlati példák közé tartozik a deepfake videók készítése is, ahol egy személy arcát és mimikáját kicserélik egy másikéra – ezt is GAN-okkal valósítják meg. A generatív adverzális hálózatok a kreatív MI fontos eszközei, hiszen új tartalmakat tudnak létrehozni, de felhívják a figyelmet az adatbiztonsági és etikai kérdésekre is, mivel a túl jó hamisítványok megtévesztőek lehetnek.
Túlilleszkedés (overfitting) – A gépi tanulás egyik alapvető problémája, amikor egy modell túlságosan alkalmazkodik a tanító adatokhoz, és emiatt elveszíti az általánosító képességét. Ilyenkor a modell gyakorlatilag megtanulja a bemagolt mintákat – beleértve a véletlenszerű zajt vagy kivételeket is – ahelyett, hogy a lényegi, általános szabályszerűségeket sajátítaná el. A túlilleszkedés tipikus jele, hogy a modell a tanulási adathalmazon nagyon pontos eredményt ér el, de amikor új, ismeretlen adatokkal találkozik, a teljesítménye drasztikusan romlik (sok hibát vét). Például gondoljunk egy olyan gyümölcsfelismerő modellre, amit úgy tanítottak, hogy az összes banánról készült tréningképen véletlenül szerepelt egy kis matrica a gyümölcsön. Egy túlilleszkedett modell megtanulhatja, hogy a matrica jelenléte a “banán” biztos jele – így ha kap egy új képet matrica nélküli banánról, lehet, hogy fel sem ismeri, mert rossz mintát tanult meg. A túlilleszkedett modellek tehát nem megbízhatóak új helyzetekben, ezért az ilyen jelenséget el kell kerülni a gépi tanulási folyamat során.
Regularizáció – Olyan módszerek gyűjtőneve a gépi tanulásban, amelyek célja a modellek túlilleszkedésének megelőzése és a teljesítményük általánosításának javítása. A regularizáció lényege, hogy korlátozzuk a modell komplexitását vagy szabadságfokát, ezzel büntetve a túlzottan rugalmas vagy bonyolult modelleket – így arra ösztönözzük a tanuló algoritmust, hogy inkább a valóban fontos mintákat tanulja meg, és ne a véletlen zajt. Számos regularizációs technika létezik. Gyakori példa a súlyok korlátozása a neurális hálóban – pl. az L2 regularizáció, ahol a tanulási folyamatnál a modell hibájához hozzáadunk egy extra tagot, ami a súlyok nagyságát bünteti, ezáltal a hálózat nem engedi elszabadulni az egyes paraméterek értékét. Egy másik elterjedt módszer a dropout, amely során a hálózat bizonyos neuronjait véletlenszerűen kihagyjuk a tanítás során minden egyes lépésben – mintha mindig más “útvonalakon” kellene boldogulnia a hálónak. Ezzel megakadályozzuk, hogy a modellel egy-egy neuron vagy részstruktúra túlságosan dominánssá váljon. A regularizációs technikák végeredménye egy egyszerűbb, stabilabb modell, ami jobban teljesít új adatokon (kevésbé érzékeny a túlilleszkedésre).
Hiperparaméter – Olyan beállítás vagy paraméter egy gépi tanulási modell vagy tanuló algoritmus esetén, amelynek értékét nem maga a tanuló eljárás tanulja meg, hanem a fejlesztőnek kell meghatároznia. A hiperparamétereket tekinthetjük a tanulási folyamat “kapcsolóinak”, amelyekkel a modell tanítását szabályozzuk. Például hiperparaméter egy neurális hálózat esetén a rétegek száma vagy egy-egy rétegben a neurális egységek száma, a tanításnál használt tanulási ráta (learning rate), egy döntési fa esetén a fa maximális mélysége, vagy épp a kötegméret (batch size) a gradient alapú tanításnál. Ezeket az értékeket nekünk kell előre megadnunk, és nagyon is számítanak: a különböző hiperparaméter-beállítások jelentősen befolyásolják a modell pontosságát és tanulási sebességét. A gyakorlatban a megfelelő hiperparamétereket gyakran kísérletezéssel vagy automatizált kereséssel (hiperparaméter-optimalizálással) találjuk meg. Összefoglalva, a hiperparaméterek azok a külső vezérlő gombok a tanuló rendszeren, amelyek helyes beállítása kritikus a jó eredmény eléréséhez.
Visszaterjesztés (backpropagation) – A neurális hálózatok tanításának alapvető algoritmusa, amely lehetővé teszi a hálózat számára, hogy kijavítsa a saját hibáit és megtanulja a megfelelő súlyokat a példák alapján. A visszaterjesztés során a tanítási folyamat két lépésben zajlik: először a hálózat előrehalad (forward pass), és az aktuális súlyokkal kiszámít egy kimenetet a bemeneti adatokra; majd ezt összehasonlítjuk a várt helyes kimenettel, és kiszámoljuk a hibát (mennyi az eltérés). A második lépésben a hiba értékét visszafelé terjesztjük a hálózat rétegein, innen a név: a kimeneti rétegtől az input réteg felé haladva minden súlyra kiszámítjuk, mennyiben felelős a hibáért, és ennek megfelelően picit módosítjuk az értékét (ez lényegében a gradiens-leszállás algoritmus láncszabályon alapuló alkalmazása). Ezt az előrehaladás–visszaterjesztés ciklust rengetegszer megismételve a hálózat egyre pontosabb lesz, hiszen fokozatosan tanul a hibáiból. A visszaterjesztés volt az a kulcstechnika, amelynek révén a több rétegű mély neurális hálózatok gyakorlati betanítása lehetővé vált: e nélkül nem tudnánk ilyen hatékonyan megtanítani a mai bonyolult hálózati modelleket a nagy adathalmazokon.
Döntési fa (decision tree) – Egy közérthető és gyakran használt gépi tanulási modell, amely a nevét onnan kapta, hogy a működése egy elágazó fa struktúrához hasonlít. A döntési fa belső csomópontjaiban kérdések vagy feltételek találhatók, amelyek egy bemeneti adat bizonyos tulajdonságát vizsgálják meg. Minden kérdésnek több lehetséges kimenetele (ágazása) van, attól függően, hogyan alakul a feltétel (igaz/hamis, vagy kategória szerinti elágazás). Az adott csomópontból a feltétel eredményének megfelelő ágon haladunk lejjebb a fában, ahol újabb kérdés vár, és ez így folytatódik, míg végül elérünk egy levélcsomóponthoz. A levelek adják meg a döntési fa végső kimeneteit vagy döntéseit – például osztályozási feladatnál a kategóriákat, regressziónál egy számértéket. Egy döntési fa valójában olyan, mint egy sorozatos “ha… akkor…” szabályrendszer, amit a gép automatikusan tanul meg a tanító adatok alapján. Előnye, hogy az így kapott modell könnyen értelmezhető: a fa útvonalai megmutatják, milyen döntési szabályok vezetnek egy-egy eredményre. Például egy döntési fa modell dönthet arról, hogy egy ügyfél jogosult-e egy hitelre, olyan kérdések sorozata alapján, mint “Az ügyfél jövedelme magasabb mint X?” vagy “Van saját ingatlan fedezet?”, és az ágak végén a válasz lehet pl. “hitel megadható” vagy “hitel elutasítandó”. A döntési fák nemcsak önmagukban hasznosak, hanem alapját képezik összetettebb modern algoritmusoknak is: például sok döntési fa együttesét használja a random forest (véletlen erdő) módszer, vagy épp a boosting eljárások (mint az XGBoost) is gyengébb fák sorozatát kombinálják egy erősebb modellé.
Támogató vektor gép (Support Vector Machine – SVM) – Egy klasszikus gépi tanulási algoritmus, amely különösen osztályozási feladatoknál volt népszerű a mélytanulás előtti években. Az SVM lényege, hogy a bemeneti adatpontokat (pl. tárgyakat jellemzőik szerint) egy magasabb dimenziós térbe képezi át annak érdekében, hogy könnyebben elválaszthatók legyenek. Ezután megkeresi azt az optimális elválasztó hiper-síkot ebben a térben, amely a lehető legnagyobb „részt” (margót) hagy a különböző osztályok pontjai között. Intuitívan ez azt jelenti, hogy az SVM igyekszik úgy elválasztani például a “pozitív” és “negatív” példákat, hogy minél távolabb legyenek a határvonaltól mindkét oldalon – ezzel csökkenti annak az esélyét, hogy egy új pont rossz oldalra kerüljön. A tanítás során néhány támogató vektornak nevezett adatpont – azok, amelyek a határhoz legközelebb vannak – fogja meghatározni a végső elválasztást. Például egy SVM-et lehet tanítani arra, hogy e-maileket spamnek vagy nem spamnek osztályozzon: a modell megtanul egy olyan döntési határt, ami a tanító e-mailek jellemzői alapján elválasztja a spam-eket a rendes levelektől. Az SVM előnye, hogy sok esetben jól általánosít és kevés adattal is hatékonyan tanul, hátránya viszont, hogy nagy adathalmazok vagy nagyon komplex minták esetén a teljesítménye elmaradhat a neurális hálózatokétól. Mégis, mai napig használatos ott, ahol a probléma jól lineárisan (vagy egyszerűbben) elválasztható, illetve kis- vagy közepes méretű adatoknál, mert gyorsan betanítható és robusztus algoritmus.
Genetikus algoritmus (Genetic Algorithm – GA) – Egy evolúciós optimalizációs módszer, amelyet a biológiai evolúció ihletett, és gyakran alkalmaznak olyan problémák megoldására, ahol a hagyományos algoritmusok nem hatékonyak. A genetikus algoritmus egy populációnyi lehetséges megoldást tart karban egy adott problémára, majd ezeket a megoldásokat több generáción keresztül “nemzi” újra, remélve, hogy egyre jobb eredményeket kap. Minden megoldást egy “egyed” képvisel, amit egy genetikai kód (általában egy karakter- vagy bitlánc) ír le. A folyamat három fő lépése a biológiából kölcsönzött szelekció, keresztezés és mutáció:
- A szelekció során kiválasztjuk a jelenlegi populáció legjobb megoldásait (hasonlóan ahhoz, ahogy a természetben a jobban alkalmazkodó egyedek maradnak életben).
- Ezután a keresztezés (rekombináció) lépésben ezekből a megoldásokból új egyedeket hozunk létre, kombinálva a “szülők” tulajdonságait (megoldásának elemeit).
- Végül a mutáció során az így kapott utód megoldásokat véletlenszerű kis változtatásoknak vetjük alá, hogy új tulajdonságok is megjelenhessenek.
Az így létrejött új generációtól szintén kiértékeljük, mely egyedek a legjobbak, és a folyamat iteratívan folytatódik. Idővel a populáció egyre jobb megoldások felé konvergál, ahogy a jó tulajdonságok terjednek. A genetikus algoritmust tipikusan optimálási feladatoknál vetik be – például útvonaltervezésre (minél rövidebb út megtalálása sok várospont között, lásd utazó ügynök probléma), munkabeosztási ütemezésre, vagy akár mérnöki tervezésre (pl. autóalkatrészek formájának optimalizálására). Az ilyen algoritmusok ereje abban rejlik, hogy nagy és komplex keresési tereket is hatékonyan tudnak feltérképezni, és alternatív, kreatív megoldásokat találhatnak, amelyekre egy emberi tervező nem is gondolna. Ugyanakkor hátránya, hogy számításigényes lehet, mivel sok egyedet és generációt kell kiértékelni – ezért általában ott alkalmazzák, ahol bőven rendelkezésre áll számítási kapacitás, vagy más algoritmusok csődöt mondanak.
Transzfer tanulás (transfer learning) – Egy gépi tanulási módszer, amely azt használja ki, hogy ami egy bizonyos feladaton megtanult egy modell, azt a tudást átvihetjük egy másik, hasonló feladatra. Hagyományos tanulásnál minden új problémára nulláról indulva kell betanítani a modellt, transzfer tanulásnál viszont fogunk egy már meglévő, jól megtanított modellt (vagy annak egy részét), és újrahangoljuk (finomhangoljuk) az új feladatra. Ennek nagy előnye, hogy jelentősen kevesebb adat és idő is elég lehet az új feladat betanításához, hiszen a modell már egy általános tudással felvértezve indul. Tipikus példa, hogy egy neurális hálót, amit óriási adatbázison képeztünk ki általános képfelismerésre (mondjuk az ImageNet adathalmazon, ahol több millió kép van kategóriákkal), azt használjuk alapnak egy speciálisabb képfelismerési feladatra – például orvosi röntgenképek elemzésére. Mivel az alapmodell már megtanulta a “látás” alapjait (éleket, textúrákat, formákat felismerni), nekünk már csak az új, speciális mintákat kell rá megtanítani egy viszonylag kis orvosi adatkészleten. A transzfer tanulás tehát felgyorsítja a fejlesztést és jobb eredményeket adhat akkor is, ha kevés az adatunk az új problémához – manapság ez az elv az alapja annak, hogy a nagy nyelvi modelleket vagy képi modelleket sokféle konkrét feladatra adaptálják (fine-tuninggal) ahelyett, hogy mindent a nulláról kezdenének.
Turing-teszt – Egy híres gondolatkísérlet és mérce a mesterséges intelligencia képességeinek megítélésére, amelyet Alan Turing matematikus javasolt 1950-ben. A Turing-teszt célja annak eldöntése, hogy egy gép képes-e emberi szintű intelligenciát mutatni a kommunikációban. A klasszikus felállásban van egy kérdező (ember), és két válaszadó: az egyik ember, a másik gép (AI). A kommunikáció írásban zajlik (például számítógépes terminálokon), így a kérdező nem hallja vagy látja a válaszadókat, csak a válaszaikat olvassa. A teszt során a kérdező tetszőleges kérdéseket tesz fel, és a két válaszadó válaszai alapján megpróbálja kitalálni, melyik a gép. Ha a gép elég ügyesen válaszol ahhoz, hogy a kérdező ne tudja megbízhatóan megkülönböztetni az emberitől, akkor azt mondjuk, hogy a gép átment a Turing-teszten. Ez azt jelzi, hogy a gép megtévesztően emberi módon tud csevegni, legalábbis azon a szűk területen, amit a teszt érintett. A Turing-teszt azóta a mesterséges intelligencia egyik ikonikus fogalmává vált: egyfajta korai elképzelés arról, hogyan mérhetnénk egy AI “emberiességét”. Bár napjainkban már léteznek olyan chatbotok vagy nyelvi modellek (például egyes speciális párbeszédrobotok), amelyek rövid interakciók során képesek megtéveszteni az embert, a Turing-teszt inkább elvi jelentőségű. Az intelligencia ennél összetettebb és sokrétűbb – például fizikai tapasztalat, érzelmi intelligencia, kreativitás stb. –, így ma már nem egyetlen ilyen beszélgetés alapján ítéljük meg egy AI “emberszerűségét”. Mindazonáltal a Turing-teszt fontos mérföldkő volt: ráirányította a figyelmet arra a kérdésre, hogy mit tekintünk intelligens viselkedésnek, és milyen mértékben tudja ezt egy gép produkálni.
- artificial intelligence - Szótár.net (en-hu)
- artificial intelligence - Sztaki (en-hu)
- artificial intelligence - Merriam–Webster
- artificial intelligence - Cambridge
- artificial intelligence - WordNet
- artificial intelligence - Яндекс (en-ru)
- artificial intelligence - Google (en-hu)
- artificial intelligence - Wikidata
- artificial intelligence - Wikipédia (angol)
AI-complete AI accelerator abductive logic programming abductive reasoning ablation abstract data type abstraction abstraction accelerating change accuracy action language action model learning action selection activation function adaptive algorithm adaptive neuro fuzzy inference system admissible heuristic affect affective computing agent agent architecture algorithm algorithm design algorithmic efficiency algorithmic information theory algorithmic probability alphabet ambient intelligence amplitude analysis of algorithms analytics android answer set programming ant colony optimization antecedent anthropomorphic antibiotic anytime algorithm application programming interface application security application software applied mathematics approximate string matching approximation error argumentation framework artificial general intelligence artificial immune system artificial intelligence artificial intelligence arms race artificial intelligence in government artificial intelligence systems integration artificial neural network asexual reproduction aspect-oriented programming assembly language asymptotic analysis asymptotic computational complexity attention attention mechanism attribute attributional calculus augmented reality autoencoder automata automata theory automated machine learning automated planning and scheduling automated reasoning automatic differentiation automation automaton autonomic computing autonomous autonomous car autonomous robot autonomy axiom backpropagation backpropagation through time backward chaining backward compatibility bag-of-words model bag-of-words model in computer vision batch normalization bayes' theorem bees algorithm behavior informatics behavior tree belief–desire–intention software model bias–variance tradeoff big data binary relation binary tree bioethics bioinformatics blackboard system blueprint board game boosting bootstrap aggregating bootstrapping brain brain technology branching factor brute-force search bug canada capsule neural network case-based reasoning central nervous system centroid cerebellum chatbot chemistry chess chromosome civil engineering climber cloning cloud computing cloud robotics cloud storage cluster analysis cobweb cognitive architecture cognitive computing cognitive psychology cognitive science column combinatorial optimization committee machine commonsense knowledge commonsense reasoning compile time completeness complexity computability theory computation computational biology computational chemistry computational complexity computational complexity theory computational creativity computational cybernetics computational engineering computational humor computational intelligence computational learning theory computational linguistics computational mathematics computational neuroscience computational number theory computational physics computational problem computational statistics computer computer-automated design computer architecture computer audition computer engineering computer graphics computer hardware computer keyboard computer language computer network computer program computer programming computer science computer scientist computer security computer simulation computer system computer vision computing concept concept drift conceptualization concurrency concurrent computing conditional connectionism consequent consistent heuristic constrained conditional model constraint constraint logic programming constraint programming constructed language continuous function continuous optimization contradiction contrapositive control flow control theory conversation convolutional neural network copyright correlation crash crossover crossover cryptography curiosity cybernetics cyborg data data analysis data augmentation data center data fusion data integration data mining data model data modeling data processing data science data set data structure data type data warehouse database database system dataflow programming deadlock decentralized decision-making decision boundary decision making decision problem decision support system decision theory decision tree decision tree learning declarative programming deductive classifier deep learning deepfake default logic description logic deterministic algorithm developmental robotics diagnosis diagnosis dialogue system diffusion model digital marketing dilution dimensionality reduction directed graph discrete mathematics discrete system distributed artificial intelligence distributed computing divide and conquer doi domain domain of discourse dynamic epistemic logic dynamic memory allocation dynamic programming dynamical system e-commerce eager learning echo state network economics edge electrical engineering electronic design automation electronics embedded system embodied agent embodied cognitive science empty set encapsulation engineering ensemble learning environment error-driven learning ethics of artificial intelligence euclidean space event evolution evolutionary algorithm evolutionary computation evolving classification function existential risk from artificial general intelligence expert system exploration expression facebook fact fast-and-frugal trees feature feature engineering feature extraction feature learning feature selection federated learning feedforward neural network financial finite-state machine finite set first-order logic fluent fluent flux for all formal language formal logic formalism formula forward chaining frame frame frame language frame problem france franciscan free software friendly artificial intelligence function future futures studies fuzzy control system fuzzy logic fuzzy rule fuzzy set game theory general game playing generalization generative adversarial network generative artificial intelligence generative model generative pretrained transformer genetic algorithm genetic operator genius genome gifted github global optimization glowworm glowworm swarm optimization go goal google gradient descent grammar graph graph graph graph database graph theory graph traversal graphics processing unit hallucination hearing heuristic heuristic hexapod histogram holographic data storage human being human–computer interaction humor hybrid intelligent system hyper-heuristic hyperparameter hyperparameter optimization hyperplane hypotheses hypothetical identifier image image processing immune system imperative programming incremental learning indicator function inference inference engine informatika information information and communications technology information hiding information integration information retrieval information science information security information system information technology information theory input/output instruction set integrated circuit integrated development environment intelligence intelligence amplification intelligence explosion intelligent agent intelligent control intelligent personal assistant interdisciplinarity interdisciplinary interface internet of things interpretation interpretation interpreter intrinsic motivation intrinsic motivation intrusion detection system issue tree iterative method junction tree algorithm k-means clustering k-nearest neighbors algorithm kernel method knowledge knowledge-based system knowledge acquisition knowledge engineering knowledge extraction knowledge representation knowledge representation and reasoning kuka közlekedés language model large language model laugh lazy learning learning library linear combination linguistics linked list lisp literal logic logic programming logical consequence logically long short-term memory loom loss function machine machine learning machine listening machine perception machine translation machine vision marginal distribution mathematical mathematical analysis mathematical logic mathematical model mathematical optimization mathematical proof mathematics maze mean mechanical engineering mechanism design mechatronics memory meningitis mesterséges intelligencia metabolic network reconstruction and simulation metadata metaheuristic microprocessor middleware mind mode model checking modus ponens modus tollens multi-agent system multi-swarm optimization multidisciplinary multilayer perceptron multiplicity multiprocessing multiset multithreading mutation mutation naive semantics name binding named-entity recognition named graph natural language natural language generation natural language processing natural language programming natural selection nerve cell nervous system network network motif network security neural machine translation neural network neuro-fuzzy neuroanatomy neurocybernetics neuromorphic engineering neuron neuroscience node node nondeterministic algorithm norm nouvelle AI numerical analysis object-oriented object-oriented programming objective function offline learning olfactory online machine learning ontologies ontology ontology learning open-source software operating system operations research operator optical disc optimal decision optimisation optimization optimization problem orthogonal outdegree overfitting parallel computing parameter parameters parent company partial order reduction particle swarm optimization partition of a set pathfinding pattern pattern matching pattern recognition perception perceptron peripheral phenomena philosophy phonology pointer postscript precondition predicate predicate logic predictive analytics principal component analysis principle of rationality printed circuit board probabilistic programming probability probability distribution procedure process control processor production system productivity programmer programming language programming language theory programming paradigm project management prolog prompt engineering proposition propositional calculus propositional logic proximal policy optimization psychology python q-learning qualification problem quantification quantifier quantifier quantum computing query language radial basis function network radio-frequency identification random forest random variable randomized algorithm randomness ranking real number reason reasoning reasoning system recurrent neural network recursion reference regression analysis reinforcement learning reinforcement learning from human feedback relation relational database rendering reproduction reservoir computing resolution robot robotics row rule-based machine learning rule-based system sample satisfiability school of thought science scientific method scikit-learn scope scrum search algorithm security selection selection self-management semantic semantic network semantic query semantic reasoner semantics semantics sensor sensor fusion separation logic sequence set set theory sexual reproduction shogi shortest path problem signal processing similarity learning simulated annealing singleton singleton set situation calculus slate soft computing software software development software engineering software framework software maintenance solution space somatosensory soundness source code space-time space probe sparse dictionary learning sparse matrix spatial-temporal reasoning specification speech recognition spiking neural network state state state–action–reward–state–action statistical statistical classification statistical learning theory statistical relational learning statistician statistics stereotype stochastic stochastic optimization stochastic process stochastic semantic analysis strategies strategy string subject-matter expert subroutine subset subset sum problem superintelligence supervised learning support vector machine swarm intelligence symbol symbolic artificial intelligence syntactic synthetic intelligence system systems analysis systems neuroscience technological singularity telecommunication teleprinter temporal difference learning tensor tensor network theory text theoretical computer science theory of computation time complexity torch transfer learning transformer transhumanism transistor transition transition system translation tree tree traversal trial and error truth value tuple turing machine type type system uncanny valley uncertainty undirected graph unmanned aerial vehicle unsupervised learning uri user interface validity value variable variance vertex vertice very-large-scale integration video video game virtual machine virtual reality vision processing unit vision transformer visual visual display unit visualization vocabulary weak AI word processor zero-sum game