#### Université de Bordeaux,  Master Mention Informatique

# Analyse, classification et indexation des données: feuille 4
### Régression linéaire simple et multiple

##### Avant de commencer :

Le régression linéaire est l'une des méthodes statistiques les plus utilisées en sciences de données. Elle est utilisée pour <em>prédire</em> les valeurs d'une variable <em>dépendante</em> continue en fonction d'une ou plusieurs variables <em>indépendantes</em>.


In [None]:
import pandas as pa

### Exercice 1. Régression linéaire simple.

La gérante d’un commerce veut évaluer l’impact des frais déboursés en publicité par mois (représentés par une variable $X$ exprimée en milliers d’euros) sur le chiffre d’affaires mensuel (représenté par une variable $Y$ exprimée en milliers d’euros). On aimerait évaluer dans quelle mesure une modification du budget publicitaire mensuel affecterait le chiffre d’affaires mensuel. On a donc recueilli sur une période de 10 mois les données du tableau ci-dessous.

<table>
<tr><td>Chiffre d'affaires</td> <td>220</td> <td>280</td> <td>250</td> <td>170</td> <td>150</td> <td>340</td> <td>310</td> <td>210</td> <td>180</td> <td>190</td></tr>
<tr><td>Frais publicitaires</td> <td>2.6</td> <td>2.6</td> <td>2.4</td> <td>1.5</td> <td>0.9</td> <td>3.0</td> <td>2.7</td> <td>2.3</td> <td>1.7</td> <td>1.9</td></tr>

</table>    

1. Créer un <code>DataFrame</code> contenant les données du tableau ci-dessus.

In [None]:
### CORRECTION
dic ={ 'CA' : [220, 280, 250, 170, 150, 340, 310, 210, 180, 190],
      'Frais' : [2.6, 2.6, 2.4, 1.5, 0.9, 3.0, 2.7, 2.3, 1.7, 1.9]}
df = pa.DataFrame(data=dic)
df.head()

2. Tracer le nuage de points et estimer le coefficient de corrélation linéaire.

In [None]:
### CORRECTION
import matplotlib.pyplot as plt
%matplotlib inline

plt.scatter(df['Frais'],df['CA'], color='r', marker='x')
plt.xlabel('Frais')
plt.ylabel('CA')

In [None]:
### CORRECTION
df.corr()
# Les deux variables sont fortement corrélées

3. Etablir la droite de régression correspondant à ce problème et tracer cette droite. Vous pouvez utiliser l'instruction <code>linregress</code> du module <code>stats</code>

In [None]:
### CORRECTION
X = df['Frais']
Y = df['CA']

In [None]:
### CORRECTION
from scipy import stats
slope, intercept, r_value, p_value, _ = stats.linregress(X,Y)

Yhat = slope * X + intercept
print('(D) : Yhat = ',slope,' * X + ', intercept )


plt.scatter(X,Y, color='r', marker='x')
plt.scatter(X,Yhat, color='b', marker='o')
plt.plot(X,Yhat,c='m')
plt.xlabel('Frais')
plt.ylabel('CA')

4. Tester la significativité de la régression au risque 5%.

### CORRECTION
Le modèle que l'on cherche s'écrit : 
$$
CA = \beta_0 + \beta_1 Frais
$$
On pose l'hypothèse :

$$
H_0 : \beta_1 = 0
$$

In [None]:
### CORRECTION
print('p_value = ', p_value)

### CORRECTION
On observe que p_value << 5%. 

$\Rightarrow$ On rejette donc $H_0$ au risque $5\%$.

La régression est bien pertinente.

5. Calculer le coefficient de détermination.

In [None]:
### CORRECTION
print('R^2 = ', r_value*r_value)

### CORRECTION
Le facteur de détermination est de 0.8
$\Rightarrow$ 80% de la variation du CA est expliquée par le modèle

6. Quel serait le chiffre d’affaires mensuel prédit par le modèle pour un budget publicitaire mensuel de 400 euros ? de 4000 euros ?

In [None]:
### CORRECTION
def predict(x):
    return slope * x + intercept

print('Le CA mensuel pour un budget publicitaire mensuel de 4OO € serait de : ', predict(0.4), "(milliers d'euros)")
print('Le CA mensuel pour un budget publicitaire mensuel de 4OO0 € serait de : ', predict(4), "(milliers d'euros)")

### Exercice 2. Régression linéaire multiple

Nous voulons savoir quels sont les facteurs importants qui influencent la valeur d’une propriété. L'objectif est de construire un modèle qui nous aidera à évaluer cette valeur selon ces facteurs. Pour ce faire, nous utilisons la valeur totale pour un échantillon de 79 propriétés dans une région donnée. Voir le fichier <code>proprietes.csv</code> disponible à l’adresse :

http://www.labri.fr/~zemmari/datasets/proprietes.csv

Le fichier contient les variables suivantes correspondant chacune à un facteur : 
- Valeur Totale : valeur globale de la propriété
- Valeur Terrain : valeur du terrain sur lequel est bâtie la maison
- Acre : Superficie en acres
- Pieds2 : Superficie en pieds2
- Extérieur : Etat extérieur
- Chauffage : Type du chauffage utilisé
- Pièces : Nombre de pièces dans la maison
- Chambres : Nombre de chambres dans la maison
- SbainsC : Nombre de salles de bain complètes
- Sbains : Nombre de salles de bain non complètes
- Foyers : Nombre de foyers
- Garage : Indique si la propriété contient un garage ou non.

Après avoir chargé les données dans un DataFrame vous pouvez visualiser les premières entrées avec la fonction head et inspecter globalement les données avec la fonction info. Y a-t-il des données manquantes?

In [None]:
### CORRECTION
data = pa.read_csv('https://www.labri.fr/~zemmari/datasets/proprietes.csv',delimiter=';')
data.head()

In [None]:
### CORRECTION
data.info()
# pas de données manquantes

1. Y a-t-il un lien entre la valeur totale et les différents facteurs ?

In [None]:
### CORRECTION
data = data.drop(columns=['Acre', 'Extérieur', 'Chauffage', 'Garage'])
data.corr()

### CORRECTION
Seule la première ligne de la matrice ci-dessus est intéressante pour nous. 

On y voit que la valeur totale est corrélée avec toutes les autres variables. En effet, tous les facteurs se corrélation sont > 0.5 (sauf Sbains)

2. Afficher les valeurs des différentes statistiques desciptives.

In [None]:
### CORRECTION
data.describe()

3. Faites les différentes régressions linéaires simples possibles, et choisissez la (ou les) plus pertinente(s).

In [None]:
### CORRECTION
Y = data['Valeur Totale']
columns = ['Valeur Terrain','Pied2','Pièces','Chambre','SbainsC','Sbains','Foyers']

In [None]:
### CORRECTION
from scipy import stats
for j in range(len(columns)):
    slope, intercept, r_value, p_value, _ = stats.linregress(data[columns[j]],Y)
    r_value *= r_value
    print('Modèle ', j+1)
    print('------- Valeur Totale = ', intercept, ' + ', slope, ' * ', columns[j])
    print('------- R^2 = ', r_value)
    print('        Donc {:2.2f}% de la variabilité de la valeur totale est expliquée par {:s}'.format(
        r_value *100,columns[j]))
    print('------- p_value = ', p_value)   
    print('        H0: beta_1 = 0')
    if p_value < 0.05 :
        print('        ', p_value, '<= 5%', '==> on rejette H0, au risque alpha = 5%')
        print('         le modèle ', j+1, ' est bien pertinent.')
    else:
        print('        ', p_value, '> 5%', '==> on ne rejette pas H0, au risque alpha = 5%')
        print('         on ne peut pas conclure sur le modèle ', j+1, ' car pas statistiquement significatif.')        

### CORRECTION
Si on doit choisir un modèle et un seul, le meilleur est le modèle 1.

4. Faites la régression multiple de la Valeur totale en fonction des autres facteurs (quand c’est possible). Analysez les résultats obtenus.  Appuyez vous sur l'exemple vu en cours pour la méthode à suivre et l'utilisation de bibliothèques.

In [None]:
### CORRECTION
Y = data['Valeur Totale']
X = data[columns]

In [None]:
### CORRECTION
from sklearn.linear_model import LinearRegression
model = LinearRegression()
model.fit(X, Y)
print(model.intercept_)
print(model.coef_)

In [None]:
### CORRECTION
print('Modèle de régression : ')
m = 'Valeur Totale = ' + str(model.intercept_) + ' + '
for i in range(len(model.coef_)-1):
    m =  m + str(model.coef_[i]) + ' * ' + columns[i] + ' + '
m = m + str(model.coef_[i+1]) + ' * ' + columns[i+1]
print(m)

In [None]:
### CORRECTION
import warnings
warnings.filterwarnings("ignore")

import numpy as np
import statsmodels
from statsmodels.regression.linear_model import OLS

X= statsmodels.tools.add_constant(X)
m = OLS(Y,X)
results = m.fit()
su = results.summary()
su

### CORRECTION
#### Analyse de la régression :

$R^2 = 0.878$ $\Rightarrow$ 88% de la variabilité de Valeur Totale est expliquée par les variables considérées.

On pose :
$$
H_0 : \beta_1 = \beta_2 = \beta_3 = \beta_4 = \beta_5 = \beta_6 = \beta_7 = 0, 
$$
où $\beta_1, \beta_2, \beta_3, \beta_4, \beta_5, \beta_6, \beta_7$ correspondent aux coefficients de Valeur Terrain, Pied2, Pièces, Chambre, SbainsC, Sbains , et Foyers respectivement.

On observe que p_value = 6.98e-30, ce qui est très petit comparé au seuil $\alpha = 5\%$. On rejette donc $H_0$ et on considère que la variation de Valeur Totale est explicable par au moins une des autres variables.

Pour chacune des variables, on pose l'hypothèse : 
$$
H_0 : \beta_i = 0, 
$$
On analyse la deuxième partie du rapport de la régression. On voit que toutes les p_value, exceptées celles de Pieces et de Foyers sont < au seuil $5%%$. On rejette donc toutes les hypothèses sauf celles concernant ces deux  variables. 

On refait la régression en éliminant les deux variables Pieces et Foyers.

In [None]:
### CORRECTION
X.columns

In [None]:
### CORRECTION
X_cols = X.columns.drop(['Pièces', 'Foyers'])
print(X_cols)
X = X[X_cols]
m = OLS(Y,X)
results = m.fit()
su = results.summary()
su

### CORRECTION
La p-value de la variable Chambre est supérieur à 0.05 donc on recommence en supprimant cette variable.

In [None]:
### CORRECTION
X_cols = X.columns.drop(['Chambre'])
print(X_cols)
X = X[X_cols]
m = OLS(Y,X)
results = m.fit()
su = results.summary()
su

In [None]:
### CORRECTION
Toutes les variables ont une p-value < 5% donc on garde ce modèle.