ML Pipeline · Konfigurator & Lernwerkzeug

Scikit-learn Schritt-für-Schritt Kreuzvalidierung
Keine Datei geladen · CSV, Excel, TXT, TSV, JSON Bereit
1. Data Analysis Canvas
Datei laden oder Demo-Daten verwenden um die Analyse zu starten.
2. Feature Explorer & Konfiguration
Projekt-Konfiguration
3. Algorithmus
4. Pipeline Stages
5. Kreuzvalidierung & Optimierung
6. Visualisierungen
📊 Confusion Matrix 📈 ROC Kurve 🎯 Precision-Recall 📉 Learning Curve 🌟 Feature Importance 🌳 Decision Tree 🗺️ Decision Boundary 🔥 Korrelations-Heatmap 📐 Residual Plot 🌡️ Calibration Curve 📦 Class Distribution 🧭 PCA-Scatter (2D) 🎛️ Validation Curve 🎯 Prediction Error
7. Generiertes Python Script Export
# Datei laden um Code zu generieren...
⚡ fit() vs transform() vs fit_transform()
# ✅ KORREKTE Reihenfolge in einer Pipeline scaler = StandardScaler() # Schritt 1: Fit NUR auf Trainingsdaten scaler.fit(X_train) # lernt μ=5.2, σ=2.1 # Schritt 2: Transform Trainings- UND Testdaten X_train_s = scaler.transform(X_train) X_test_s = scaler.transform(X_test) # ✅ gleiche Parameter! # ❌ FALSCH: Data Leakage! # X_test_s = scaler.fit_transform(X_test) # ↳ würde μ/σ aus TESTDATEN lernen # ✅ Pipeline verhindert Leakage automatisch: pipe = Pipeline([('scaler', StandardScaler()), ('model', RandomForestClassifier())]) pipe.fit(X_train, y_train) # fit nur auf Train pipe.predict(X_test) # transform+predict auf Test
MetrikFormelWann?
Accuracy(TP+TN)/NBalanced Classes
F1-Score2·P·R/(P+R)Imbalanced Classes
ROC-AUC∫TPR d(FPR)Ranking-Qualität
PrecisionTP/(TP+FP)FP-Kosten hoch
RecallTP/(TP+FN)FN-Kosten hoch
1-SS_res/SS_totRegression
RMSE√(Σ(y-ŷ)²/n)Regression
📌 Confusion Matrix:
TP = True Positive · TN = True Negative
FP = False Positive (Typ-I) · FN = False Negative (Typ-II)
Wähle einen Algorithmus aus Spalte 2, um das Ergebnis zu sehen.