#### Université de Bordeaux,  Master Mention Informatique

# Analyse, classification et indexation des données: feuille 5

# Machine Learning

#### k-Nearest Neighbors 



## Exercice 1.  k-Nearest Neighbors (from scratch)

Dans ce premier exercice, nous allons coder un algorithme de classification : le $k$-nn.

On commence par importer les modules python :

- numpy : pour des calculs (algèbre linéaire, etc)
- pandas : pour la lecture des fichiers csv, etc 

In [None]:
import numpy as np
import pandas as pa

import warnings
warnings.filterwarnings("ignore")

#### Etape 1 : Distance euclidienne

1. Ecrire une fonction pour calculer la distance euclidienne entre deux points (représentés par des np.array). Attention, le tableau donné comme deuxième paramètre de la fonction contient, en dernière position, la classe de l'élément qu'il représente. Cette information n'est pas utilisée pour le calcul de distance.

In [None]:
### CORRECTION
def euclidean(u, v):
    return np.sqrt(np.sum((u - v[:-1])**2))

Tester votre fonction. Les instructions suivantes devront produire le résultat ci-dessous.

In [None]:
u = np.array([1, 2, 3])
v = np.array([1, 2, 3, 1])
w = np.array([2, 3, 4, 0])
print(euclidean(u, v)) # 0.0
print(euclidean(u, w)) # 1.7320508075688772

2. Ecrire une fonction pour calculer les distances d'un point à tous les autres points d'un dataset (matrice numpy - voir exemple)

In [None]:
### CORRECTION
def distances(u, dataset):
    dist = []
    for d in dataset:
        dist.append(euclidean(u, d))
    return dist

Tester votre fonction. Les instructions suivantes devront produire le résultat ci-dessous.

In [None]:
u = np.array([1, 2, 3])
dataset = np.array([[1, 2, 3, 0],
                    [4, 5, 6, 0],
                    [2, 3, 4, 1],
                    [3, 4, 5, 1]])
dist = distances(u, dataset)
print(dist) # [0.0, 5.196152422706632, 1.7320508075688772, 3.4641016151377544]

#### Etape 2 : Récupérer la liste des $k$ voisins les plus proches

1. Ecrire une fonction <code>voisins</code> permettant de récupérer dans un dataset la liste des $k$-voisins les plus proches d'un point donné.

In [None]:
### CORRECTION

# def voisins(u, dataset, k):
#     distances = []
#     for d in dataset:
#         distances.append((d, euclidean(u, d)))
#     distances.sort(key=lambda tup: tup[1])
#     neighs = [distances[i][0] for i in range(k)]
#     return neighs

def voisins(u, dataset, k):
    sorted_indices = np.argsort(distances(u, dataset))
    return dataset[sorted_indices < k]


Tester votre fonction. Les instructions suivantes devront produire le résultat ci-dessous. 

In [None]:
u = np.array([1, 2, 3])
dataset = np.array([[1, 2, 3, 0],
                    [4, 5, 6, 0],
                    [2, 3, 4, 1],
                    [3, 4, 5, 1]])

print(voisins(u, dataset, 2)) # [array([1, 2, 3, 0]), array([2, 3, 4, 1])]

#### Etape 3 : Faire des prédictions

1. Ecrire une fonction <code>classifier()</code> retournant la classe d'un élément $u$.

In [None]:
### CORRECTION
def classifier(u, dataset, k):
    v = voisins(u, dataset, k)
    classes = {0:0, 1:0}
    for e in v:
        classes[e[-1]] += 1
    if classes[0] > classes[1]:
        return 0
    return 1

Tester votre fonction. Les instructions suivantes devront produire le résultat ci-dessous. 

In [None]:
u = np.array([4, 5, 6])
dataset = np.array([[1, 2, 3, 0],
                   [2, 3, 4, 1],
                   [3, 4, 5, 0],
                   [4, 5, 6, 1],
                   [1, 2, 3, 0]])

print(classifier(u, dataset, 3)) # 1

### Exercice 2. Application

Dans cet exercice, nous allons appliquer l'algorithme écrit ci-dessus pour classifier des iris.
Pour cela, nous commençons par charger le dataset : 

In [None]:
from sklearn.datasets import load_iris
iris = load_iris()
print(iris.DESCR)

Comme indiqué dans sa description, le dataset contient, pour chaque iris, la longueur et la largeur de sa sépale et la longueur et la largeur de sa pétale. Les iris sont ensuite classifiés soit en Iris-Setosa (0), soit en Iris-Versicolour (1) ou encore en Iris-Virginica (2) :
                

<b>Indication :</b> le dataset <code>iris</code> est composé de deux parties : 
 - <code>iris.data</code> décrit les caractéristiques (features)
 - <code>iris.target</code> contient les classes

In [None]:
print(iris.target)

In [None]:
print(iris.data.shape)

In [None]:
print(iris.target.shape)

Pour des raisons pédagogiques, et pour se focaliser sur l'algorithme, nous avons choisi de l'implémenter pour faire de la classification binaire (c'est ce que réalisent les étapes de l'exercice 1). 

1. Ecrire l'instruction permettant de transformer le problème en un problème de classification binaire :  tous les Iris-Virginica (2) seront classés en Iris-Versicolour (1).

In [None]:
### CORRECTION
iris.target[iris.target == 2] = 1

In [None]:
### CORRECTION
print(iris.target)

2. Afin d'utiliser l'algorithme que vous avez implémenté dans l'exercice 1, créer un tableau <code>dataset</code> dont le contenu sera des iris avec leur classes. Pour pouvoir visualiser le dataset, nous n'allons garder que les deux premières colonnes.

In [None]:
### CORRECTION
dataset = np.concatenate((iris.data[:, 0:2], iris.target[:, None]), axis=1)
print(np.shape(dataset))

3. Visualiser le dataset

In [None]:
### CORRECTION
import matplotlib.pyplot as plt
%matplotlib inline
colors = {0: 'blue', 1: 'red'}
for i in range(len(iris.data)):
    plt.scatter(iris.data[i][0:1], iris.data[i][1:2], color=colors[iris.target[i]])

4. Soit le vecteur $u(6.5, 2.5)$, utilisez votre algorithme avec $k=3$ pour classer $u$.

In [None]:
### CORRECTION
u = np.array([6.5, 2.5])
classifier(u, dataset, k=3)

5. Afficher le nouveau point sur le graphique et vérifier visuellement votre résultat.

In [None]:
### CORRECTION
u = np.array([6.5, 2.5])

colors = {0: 'blue', 1: 'red'}
for i in range(len(iris.data)):
    plt.scatter(iris.data[i][0:1], iris.data[i][1:2], color=colors[iris.target[i]])

plt.scatter(u[0],u[1], color=colors[classifier(u, dataset, k=3)], marker='x')

### Exercice 3 : $k$-nn avec <code>sklearn</code>

Dans cet exercice, nous allons utiliser le classifieur $k$−nn pour apprendre à reconnaître des fruits. Pour cela, nous allons utiliser le dataset fruits disponible au format csv à l’adresse :
               
               https://www.labri.fr/~zemmari/datasets/fruits.csv

1. Charger les données, puis afficher les informations pour vérifier si le dataset ne contient pas de données manquantes.

In [None]:
### CORRECTION
import pandas as pa
fruits = pa.read_csv('https://www.labri.fr/perso/zemmari/datasets/fruits.csv', delimiter='\t')
fruits.head()

In [None]:
### CORRECTION
fruits.info()

2. Afficher un graphique pour visualiser les tailles (height) en fonction des largeurs (width), sans tenir compte des classes des points dans un premier temps.

In [None]:
### CORRECTION
plt.scatter(fruits['width'], fruits['height'])

3. Modifier votre graphique pour qu’il affiche les points avec des couleurs différentes en fonction du
nom (<code>fruit_name</code>) du fruit. Vérifier que les classes sont assez équilibrées.

In [None]:
### CORRECTION
print(fruits.fruit_name.unique())

In [None]:
### CORRECTION
colors = {'apple': 'red',
          'mandarin':'purple',
          'orange': 'orange', 
          'lemon': 'yellow'}
for i in range(len(fruits['width'])):
    plt.scatter(fruits['width'][i], fruits['height'][i], c=colors[fruits['fruit_name'][i]])

In [None]:
### CORRECTION
print(fruits.fruit_name.value_counts())

4. Définir X les données composées de la taille, la longueur et la masse des fruits, et Y les noms des
fruits.

In [None]:
### CORRECTION
X = fruits[['mass', 'width', 'height']]
Y = fruits['fruit_name']

5. Découper les données en deux parties : une pour l’entraînement et une pour le test.

In [None]:
### CORRECTION
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, Y, random_state=0)
print(X_train.describe())

6. Entraîner un classifieur $k$−nn à reconnaître les fruits. 

In [None]:
### CORRECTION
from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier()
knn.fit(X_train, y_train)

7. Quelle est la valeur par défaut de $k$ ?

In [None]:
### CORRECTION
print(f"Number of neighbors taken into account : {KNeighborsClassifier().n_neighbors}")

8. Utiliser votre jeu de test pour mesurer les performances de votre classifieur (matrice de confusion, accuracy, ...). 

In [None]:
### CORRECTION
y_pred = knn.predict(X_test)
#print(y_pred)

In [None]:
### CORRECTION
from sklearn.metrics import confusion_matrix, accuracy_score
cm = confusion_matrix(y_test, y_pred)
print(cm)

In [None]:
### CORRECTION
acc = accuracy_score(y_test, y_pred)
print('Accuracy: {:2.2%}'.format(acc))

7. Quelle est la nature du fruit dont la masse, la largeur et la taille sont données respectivement par 100, 6.3 et 8? 

In [None]:
### CORRECTION
print(knn.predict([[100, 6.3, 8]]))

8. Trouver une "bonne" valeur pour k.

In [None]:
### CORRECTION
def best_model_search(X_train, X_test, y_train, y_test, n=10, patience=3):
    k = 1
    best_acc = 0
    best_model = None
    p = patience
    while k <n and p >0 :
        knn = KNeighborsClassifier(n_neighbors=k, metric='euclidean')
        knn.fit(X_train, y_train)
        y_pred = knn.predict(X_test)
        cm = confusion_matrix(y_test, y_pred)
        acc = np.sum(np.diag(cm))/np.sum(cm)
        print('k: ',k, '{:.2%}'.format(acc))
        if acc > best_acc:
            best_acc = acc
            best_model = knn
            p = patience + 1
        p = p -1
        k = k+1
    return best_model,k, best_acc

In [None]:
### CORRECTION
knn, k, acc = best_model_search(X_train, X_test, y_train, y_test, patience=3, n = 100)

In [None]:
### CORRECTION
print(k, '{:.2%}'.format(acc))

In [None]:
### CORRECTION
knn, k, acc = best_model_search(X_train, X_test, y_train, y_test, patience=10, n = 100)

In [None]:
### CORRECTION
print(k, '{:.2%}'.format(acc))