#### Université de Bordeaux,  Master Mention Informatique

# Analyse, classification et indexation des données: feuille 2
### Introduction : métriques d'évaluation

### Présentation

L'objectif de ce TD est de comprendre les métriques d'évaluation des modèles de machine learning. 

### Exercice 1.
On dispose d'un corpus de données $D = (x_i, y_i)_{1\leq i \leq n}$. On partitionne alors $D$ en deux ensembles :
$$
D = Train \cup Test
$$
Le sous ensemble $Train$ est alors utilisé pour entrainer un modèle $M$ alors que $Test$ est lui utilisé pour tester $M$

1. Rappeler la définition de la matrice de confusion 
2. On se limite au cas d'une classification binaire. Donner, en fonction du contenu de la matrice de confusion les expressions de l'$accuracy$, la $precision$, le $recall$ et le $F_1 score$.


### Exercice 2.

On dispose de données (images IRM) relatives à des personnes atteintes (ou pas) de cancer. On entraîne alors un modèle pour détecter d'éventuelles cellules cancereuses sur les images. Celles-ci sont alors classifiées $1$ pour les images positives (patient atteint de cancer) et $0$ pour les images négatives.

On a ensuite testé le modèle sur des données d'autres patients pour lesquels le diagnostic est connu. Le résultat peut être récupéré à l'adresse 

<code>https://www.labri.fr/perso/zemmari/datasets/y_test_pred.csv</code>

#### Question 1.

Ecrire le code nécessaire pour charger le contenu du fichier dans un <code>DataFrame y</code>. On peut récupérer les premières lignes de <code> y </code> avec <code>y.head()</code>

In [None]:
### CORRECTION
import pandas as pa

y = pa.read_csv('https://www.labri.fr/perso/zemmari/datasets/y_test_pred.csv')

y.head()

Tester le code suivant pour apprendre comment accéder à une colonne d'un DataFrame et la transformer en numpy array.

In [None]:
y_vt = y["vt"]
y_vt

In [None]:
import numpy as np
np.array(y_vt)

#### Question 2.
Ecrire une fonction <code>compute_confusion_matrix(y_vt, y_vp)</code> permettant de calculer la matrice de confusion entre la vérité terrain <code>y_vt</code> et les prédictions <code>y_vp</code> (données dans le format pandas). La matrice de confusion calculée sera un numpy array 2x2.

*Indication :*  la fonction <code>logical_and(exp1, exp2)</code> du package <code>numpy</code> retourne <code>1</code> si les deux expressions sont vraies.


In [None]:
### CORRECTION

def compute_confusion_matrix(y_vt, y_vp):
    y_true = np.array(y_vt)
    y_pred = np.array(y_vp)

    tp = np.sum(np.logical_and(y_true == 1, y_pred == 1)) # positif => classe 1
    tn = np.sum(np.logical_and(y_true == 0, y_pred == 0))
    fp = np.sum(np.logical_and(y_true == 0, y_pred == 1))
    fn = np.sum(np.logical_and(y_true == 1, y_pred == 0))

    return np.array([[tp, fn], [fp, tn]])

Calculer la matrice de confusions des données ci-dessus

In [None]:
### CORRECTION

cm = compute_confusion_matrix(y['vt'], y['vp'])
cm

#### Question 3.
Ecrire une fonction <code>compute_metrics(confusion_matrix)</code> permettant de calculer $accuracy$, la $precision$, le $recall$ et le $F_1 score$ à partir de la matrice de confusion donnée sous la forme d'un numpy array 2x2.

In [None]:
### CORRECTION
def compute_metrics(confusion_matrix):
    tp, fn, fp, tn = confusion_matrix.flatten()

    accuracy = (tp + tn) / (tp + fp + fn + tn)
    precision = tp / (tp + fp)
    recall = tp / (tp + fn)
    f1_score = 2 * precision * recall / (precision + recall)

    return accuracy, precision, recall, f1_score

Utiliser la fonction pour évaluer le modèle. Qu'en pensez-vous ? Donner une interprétation de chacune des métriques.

In [None]:
### CORRECTION
acc, prec, rec, f1 = compute_metrics(cm)
print(acc, prec, rec, f1)
print('Accuracy: {:.2%}'.format(acc))
print('Precision: {:.2%}'.format(prec))
print('Recall: {:.2%}'.format(rec))
print('F1 score: {:.2%}'.format(f1))

# - accuracy 62% : la classification n'est pas très bonne
# - precision 62% :  beaucoup de faux positifs, si on utilise le résultat de la classification comme diagnostic, 
#                   il y a 38% des gens à qui on dit qu'ils sont malades et qui ne le sont pas...
# - recall 99% : il y a peu de faux négatifs, on va rarement dire à quelqu'un qu'il n'est pas malade alors qu'il l'est
