Database and Datascience: Résoudre les problèmes de Régression avec le Machine Learning

Résoudre les problèmes de Régression avec le Machine Learning – Part 3 : La Régression Linéaire Simple

Lorsque le nuage de points associé à une série statistique double a une forme "allongée " c'est-à-dire lorsque les points sont sensiblement alignés, on peut tracer des droites passant « au plus près de ces points ». On dit alors que chacune de ces droites réalise un ajustement « affine » du nuage de points.

Introduction

Nous rappelons que l’apprentissage supervisé consiste en une variable cible (target) à prédire à partir d’un ensemble de prédicteurs (features). En utilisant cet ensemble de variables, nous générons une fonction qui associe les entrées aux sorties souhaitées. Le processus d’apprentissage se poursuit jusqu’à ce que le modèle atteigne le niveau de précision souhaite sur les données. La régression linéaire est un premier exemple d’apprentissage supervise simple qui présente la manière dont un algorithme peut apprendre un modèle.

Nous avons vu que pour résoudre un problème d’apprentissage supervise, nous avons besoin de procéder en quatre étapes :

Le Dataset

Le Modèle

De manière générale de meilleur ajustement est encore appelle ligne de régression et représentée par le modèle équation linéaire

Pour l’instant, nous ne connaissons pas les valeurs des paramètres a et b . Il est donc impossible de tracer une droite sur le nuage de points a moins de choisir des paramètres au hasard.

Ainsi on pourra avoir un modèle initial :

Le rôle de la machine sera d’apprendre de ces valeurs en minimisant la fonction Cout. Ainsi on pourra avoir un modèle final :

La fonction Cout

On l’appelle « la droite des moindres carrés » : c’est la droite qui va permettre d’obtenir des différences au carré les plus petites.

Pour la régression linéaire, nous allons définir la fonction comme étant la moyenne de toutes les erreurs, c’est-à-dire :

Cette fonction porte le nom d’Erreur Quadratique Moyenne ou Mean Squared Error en Anglais.

L’Algorithme d’apprentissage

La fonction , telle qu’elle est définie est une somme de carrés. Donc son allure par rapport à chacune de ses variables est parabolique. Cette propriété est très importante car c’est elle qui nous permettra de s’assurer la convergence vers le minimum en utilisant l’algorithme de la descente de gradient que nous avons développé à l’article précédent.

Comment utiliser l’algorithme de la descente du gradient

Nous avons déjà :

- - Créé un Dataset

- - Développé un Modèle

- - Exprimé la fonction Cout