Séance 3 · Travaux Pratiques · Dataset Titanic
2026-02-20
Séance 3 Travaux Pratiques 2h
À la fin de ce TP, vous serez capable de :
Import des bibliothèques — toutes les cellules partagent le même environnement Python.
Chargement du dataset Titanic, exploration initiale et visualisations.
Sélection des features, traitement des valeurs manquantes, encodage catégoriel.
Warning
Pandas 2.0+ — Copy-on-Write : utiliser df['col'] = df['col'].fillna(...) — le inplace=True ne fonctionne plus sur une copie.
Division stratifiée pour garantir une évaluation fiable.
Construction du pipeline : StandardScaler → LogisticRegression.
Accuracy, matrice de confusion, rapport de classification.
LogisticRegression vs DecisionTree vs RandomForest.
Exemples de prédictions avec probabilités et analyse des erreurs.
family_size = sibsp + parch + 1 et ré-entraîner. La performance s’améliore-t-elle ?
→ Réassignation pandas 2.0+
max_depth ∈ {3, 5, 7, 10, None} pour le Decision Tree. Analyser l’overfitting pour chaque valeur.
→ Validation croisée 5-fold
→ rf.feature_importances_
TP1 — Terminé
Questions ? · Prochaine séance : TP2 — Validation Croisée
TP1 · Pipeline Classification Binaire · Scikit-learn