XGBoost/LightGBM sur Breast Cancer Dataset
Dataset : Breast Cancer Wisconsin
Fonction de perte en classification binaire
\[l(y, \hat{p}) = -\left[y \log(\hat{p}) + (1 - y)\log(1 - \hat{p})\right]\]
Prédiction finale
\[\hat{p}(x) = \sigma\!\left(\sum_{i=1}^{N} \eta \cdot f_i(x)\right) = \frac{1}{1 + e^{-\sum \eta f_i(x)}}\]
\[\hat{p}(x) = \frac{1}{N}\sum_{i=1}^{N} p_i(x)\]
\[\hat{p}(x) = \sigma\!\left(\sum_{i=1}^{N} \eta \cdot f_i(x)\right)\]
1️⃣ Résidus = Gradients de la Log-Loss
\[r_i^{(m)} = -\frac{\partial l(y_i, \hat{p}_i)}{\partial \hat{p}_i} = y_i - \hat{p}_i^{(m-1)}\]
Chaque arbre apprend ces résidus — si les données sont bruitées, il mémorise le bruit.
2️⃣ Accumulation séquentielle
\[F_m(x) = F_{m-1}(x) + \eta \cdot f_m(x)\]
Une erreur à l’étape \(m\) se propage à toutes les étapes suivantes.
3️⃣ Pas de lissage
1. Learning Rate faible : \(\eta \in [0.01, 0.1]\)
\[F_m = F_{m-1} + \eta \cdot f_m \quad \text{avec } \eta \text{ petit}\]
2. Early Stopping : Surveiller la log-loss sur le validation set
3. Subsampling : Utiliser une fraction des données par arbre (subsample=0.8)
4. Max Depth : Limiter à 3–5 pour la classification binaire
5. Régularisation L1/L2 : Pénaliser les poids des feuilles
\[F_m = F_{m-1} + \boxed{\eta} \cdot f_m\]
η petit (0.01–0.1) ✅
η grand (0.3–1.0) ❌
Fonction Objectif XGBoost (Classification)
\[\mathcal{L}^{(t)} = \sum_{i=1}^{n} \left[-y_i \log \hat{p}_i^{(t)} - (1-y_i)\log(1-\hat{p}_i^{(t)})\right] + \Omega(f_t)\]
Résidu (pseudo-gradient) : \[r_i^{(m)} = y_i - \hat{p}_i^{(m-1)}\]
Régularisation : \[\Omega(f_t) = \gamma T + \frac{1}{2}\lambda \sum_{j=1}^{T} w_j^2\]
Métriques d’évaluation adaptées à la classification
Merci pour votre attention !
📧 Contact : abdallah.khemais@example.com
📚 Ressources : GitHub/TP-Classification