Ugrás a tartalomhoz

scikit-learn

A Wikiszótárból, a nyitott szótárból

Főnév

scikit-learn (tsz. scikit-learns)

  1. (informatika, gépi tanulás, mesterséges intelligencia) A Scikit-learn egy népszerű gépi tanulási könyvtár a Pythonban, amely számos hatékony eszközt biztosít az adatbányászathoz és a gépi tanuláshoz. Különösen hasznos felügyelt és felügyelet nélküli tanulási algoritmusok használatában, valamint adat-előkészítéshez, modellezéshez és értékeléshez.

Főbb jellemzői:

  1. Egyszerű és konzisztens interfész: Minden gépi tanulási algoritmus hasonló interfészt követ, így könnyen lehet váltani az algoritmusok között.
  2. Széles algoritmusválaszték: Tartalmaz algoritmusokat regresszióhoz, osztályozáshoz, klaszterezéshez és dimenziócsökkentéshez. Néhány népszerű példa:
    • Lineáris regresszió (Linear Regression)
    • Logisztikus regresszió (Logistic Regression)
    • Döntési fa (Decision Tree)
    • K-legközelebbi szomszéd (K-Nearest Neighbors - KNN)
    • Klaszterezés (K-Means)
  3. Adat-előkészítési eszközök: Funkciói közé tartoznak az adatok normálása, kategorizálása, különféle adathalmazokra történő bontása (train/test split), és többféle keresztvalidációs technika is.
  4. Beépített benchmarkok: Számos eszköz elérhető a modellek teljesítményének értékelésére, például az R^2 mutató, f1-score, pontosság (accuracy) stb.

Példa egy egyszerű gépi tanulási modellre Scikit-learn-nel:

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn import datasets
from sklearn.metrics import accuracy_score

# Iris adatkészlet betöltése
iris = datasets.load_iris()
X = iris.data
y = iris.target

# Adatok felosztása tanulási és tesztelési halmazokra
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Logisztikus regresszió modellezés
model = LogisticRegression(max_iter=200)
model.fit(X_train, y_train)

# Előrejelzések
y_pred = model.predict(X_test)

# Pontosság kiértékelése
accuracy = accuracy_score(y_test, y_pred)
print(f"Model pontossága: {accuracy:.2f}")

Ez a kód betölti az Iris adatkészletet, majd létrehoz egy logisztikus regressziós modellt, amit a tanulási adatokon illesztünk, és a tesztadatokon kiértékelünk.

A Scikit-learn remek választás, ha különböző gépi tanulási technikákat szeretnél alkalmazni adataidon, mivel gyorsan lehet modelleket építeni és kiértékelni.