Ugrás a tartalomhoz

EleutherAI

A Wikiszótárból, a nyitott szótárból


Főnév

EleutherAI (tsz. EleutherAIs)

  1. (informatika) Az EleutherAI egy nyílt forráskódú mesterséges intelligencia kutatóközösség, amelyet 2020-ban alapítottak. Nevét a görög eleutheria (ἐλευθερία) szóból kapta, amely „szabadságot” jelent. A közösség célja, hogy nyílt és átlátható alternatívákat fejlesszen a zárt MI-megoldásokkal szemben, különös tekintettel a nagy nyelvi modellekre (LLM – Large Language Models).



🎯 Küldetés és célkitűzés

Az EleutherAI:

  • támogatja a nyílt MI-kutatást,
  • fejleszt nyílt forráskódú nyelvi modelleket,
  • biztosít szabadon elérhető tanító adathalmazokat,
  • előmozdítja a tudományos együttműködést.

A közösség olyan MI-eszközöket szeretne létrehozni, amelyeket a világ bármely kutatója, fejlesztője vagy tanára szabadon felhasználhat.



📦 Fő projektek és eredmények

1. The Pile – Nyílt adathalmaz LLM-ekhez

A The Pile egy közel 900 GB méretű adathalmaz, amelyet kifejezetten nyelvi modellek tanításához gyűjtöttek össze. Több mint 20 különböző szöveges forrásból áll, beleértve:

  • tudományos cikkeket,
  • könyveket,
  • Wikipédia cikkeket,
  • programkódokat,
  • és egyéb webes tartalmakat.

Ez lett az alapja számos nyílt nyelvi modellnek az EleutherAI-tól és más kutatócsoportoktól is.

2. GPT-Neo, GPT-J, GPT-NeoX – Nyelvi modellek

Az EleutherAI fejlesztette ki az alábbi GPT-szerű modelleket:

Modell Paraméterszám Megjegyzés
GPT-Neo 125M – 2.7B Az első nyílt GPT-3 alternatíva
GPT-J-6B 6 milliárd Nagy pontosság, széles körben használt
GPT-NeoX-20B 20 milliárd A legnagyobb nyílt nyelvi modell volt 2022-ben

Ezek a modellek teljesen nyíltak, futtathatók és adaptálhatók kutatásban, oktatásban és fejlesztésben.

3. Pythia – Tudományos benchmark modellek

A Pythia modellcsalád célja, hogy lehetővé tegye a kutatóknak a nyelvi modellek tanulási viselkedésének elemzését. Az egyes modellek különböző méretűek és fázisokban lettek kiadva, hogy összehasonlítható legyen, hogyan fejlődnek a hálózatok a tréning során.



🧪 Kutatási tevékenységek

Az EleutherAI aktívan részt vesz a nyílt MI-kutatás globális közösségében:

  • közreműködött a BLOOM többnyelvű nyelvi modell fejlesztésében,
  • részt vett az OpenFold projektben, amely az AlphaFold2 nyílt újraimplementálása,
  • publikált kutatásokat a nyelvi modellek értelmezhetőségéről, finomhangolásáról és etikai aspektusairól.



🧭 Szervezeti változások

2023-ban az EleutherAI hivatalosan nonprofit kutatóintézetté alakult. A közösség vezetését tapasztalt kutatók és mérnökök vették át, és a hangsúly eltolódott:

  • a még nagyobb modellek képzése helyett
  • a modellértésre, torzítások vizsgálatára, összehangolásra (alignment),
  • és a tudományos vizsgálatra.



⚖️ Etikai kihívások

Az EleutherAI projektjei több esetben felhívták a figyelmet az adatgyűjtés etikájára, például:

  • a The Pile adathalmazban számos weboldalról, fórumról, vagy videófeliratból származó adatot használtak fel,
  • ez kérdéseket vetett fel a hozzájárulás, tulajdonjog és adatvédelem területén.

A szervezet fontosnak tartja ezek nyílt vitáját, és számos anyagot publikált a témában.



📊 Hatása a MI-közösségre

Hozzájárulás Jelentősége
The Pile Az egyik leggyakrabban használt nyílt tréningkészlet
GPT-NeoX Megalapozta más nyílt modellek fejlesztését
Pythia Mélyebb tudományos betekintés a modellek működésébe
Etikai párbeszéd Nyílt vitákat indított adatgyűjtésről és MI-használatról



🧾 Összefoglalás

Tulajdonság Részletek
Név EleutherAI
Alapítás éve 2020
Típus Nyílt MI kutatóközösség, nonprofit
Fő projektjei The Pile, GPT-Neo/J/NeoX, Pythia
Licenc Nyílt, kutatásra és alkalmazásra használható
Kiemelt cél MI demokratizálása, nyílt alternatívák fejlesztése