Résoudre les problèmes de Régression avec le Machine Learning – Part 3 : La Régression Linéaire Simple
Lorsque le nuage de points associé à une série statistique double a une forme "allongée " c'est-à-dire lorsque les points sont sensiblement alignés, on peut tracer des droites passant « au plus près de ces points ». On dit alors que chacune de ces droites réalise un ajustement « affine » du nuage de points.
Introduction
Nous rappelons que l’apprentissage supervisé consiste en une variable cible (target) à prédire à partir d’un ensemble de prédicteurs (features). En utilisant cet ensemble de variables, nous générons une fonction qui associe les entrées aux sorties souhaitées. Le processus d’apprentissage se poursuit jusqu’à ce que le modèle atteigne le niveau de précision souhaite sur les données. La régression linéaire est un premier exemple d’apprentissage supervise simple qui présente la manière dont un algorithme peut apprendre un modèle.
Nous avons vu que pour résoudre un problème d’apprentissage supervise, nous avons besoin de procéder en quatre étapes :
-
Le Dataset
Le Modèle
De manière générale de meilleur ajustement est encore appelle ligne de régression et représentée par le modèle équation linéaire
Pour l’instant, nous ne connaissons pas les valeurs des paramètres a et b . Il est donc impossible de tracer une droite sur le nuage de points a moins de choisir des paramètres au hasard.
Ainsi on pourra avoir un modèle initial :
Le rôle de la machine sera d’apprendre de ces valeurs en minimisant la fonction Cout. Ainsi on pourra avoir un modèle final :
La fonction Cout
On l’appelle « la droite des moindres carrés » : c’est la droite qui va permettre d’obtenir des différences au carré les plus petites.
Pour la régression linéaire, nous allons définir la fonction comme étant la moyenne de toutes les erreurs, c’est-à-dire :
Cette fonction porte le nom d’Erreur Quadratique Moyenne ou Mean Squared Error en Anglais.
L’Algorithme d’apprentissage
La fonction , telle qu’elle est définie est une somme de carrés. Donc son allure par rapport à chacune de ses variables est parabolique. Cette propriété est très importante car c’est elle qui nous permettra de s’assurer la convergence vers le minimum en utilisant l’algorithme de la descente de gradient que nous avons développé à l’article précédent.
Comment utiliser l’algorithme de la descente du gradient
Nous avons déjà :
- - Créé un Dataset
- - Développé un Modèle
- - Exprimé la fonction Cout
Pour implémenter l’algorithme de la descente du gradient, il faut donc calculer les dérivées partielles de la fonction Cout.
Forme matricielle
Pour nous rafraîchir les idées, revenons sur notre Dataset qui contient m lignes et n variables (Dans notre cas, n= 1) :
Descente de gradient
A présent, nous avons tous les éléments nous permettant d’implémenter la descente du gradient. En effet les boucles :
Deviennent tout simplement équivalentes à la boucle suivante :
Aucun commentaire:
Enregistrer un commentaire