Régression linéaire (définition, exemples) - Comment interpréter?

Qu'est-ce qu'une régression linéaire?

La régression linéaire est essentiellement une technique de modélisation statistique utilisée pour montrer la relation entre une variable dépendante et une ou plusieurs variables indépendantes. C'est l'un des types d'analyse prédictive les plus courants. Ce type de distribution se forme en ligne, c'est ce qu'on appelle la régression linéaire. Dans cet article, nous prendrons les exemples de l'analyse de régression linéaire dans Excel.

Pour effectuer d'abord une analyse de régression linéaire, nous devons ajouter des compléments Excel en suivant les étapes.

Cliquez sur Fichier - Options (cela ouvrira la fenêtre contextuelle Excel Options pour vous).

Cliquez sur Compléments - Sélectionnez Compléments Excel dans Gérer le menu déroulant dans Excel, puis cliquez sur Aller.

Cela ouvrira la fenêtre contextuelle des compléments. Sélectionnez Analysis ToolPak, puis cliquez sur OK.

Le complément d'analyse de données apparaîtra sous l'onglet Insérer.

Laissez-nous comprendre par les exemples ci-dessous de l'analyse de régression linéaire dans Excel.

Exemples d'analyse de régression linéaire

Exemple 1

Supposons que nous ayons des ventes mensuelles et des dépenses marketing pour l'année dernière, et que nous devions maintenant prédire les ventes futures sur la base des ventes et du marketing dépensés l'année dernière.

Mois La publicité Ventes
Jan 40937 502729
fév 42376 507553
Mar 43355 516885
avr 44126 528347
Mai 45060 537298
Juin 49546 544066
juil 56105 553664
Août 59322 563201
SEP 59877 568657
oct 60481 569384
nov 62356 573764
déc 63246 582746

Cliquez sur Analyse des données sous l'onglet Données, et cela ouvrira la fenêtre contextuelle d'analyse des données pour vous.

Sélectionnez maintenant Régression dans la liste et cliquez sur OK.

La fenêtre contextuelle de régression s'ouvrira.

Sélectionnez Fourchette de ventes $ C $ 1: $ C $ 13 dans la zone de l'axe Y car il s'agit de la variable dépendante et $ B $ 1: $ B $ 14 en axe X en tant que publicité dépensée est la variable indépendante.

Cochez la case Libellés si vous avez sélectionné des en-têtes dans les données sinon cela vous donnera l'erreur.

Sélectionnez Plage de sortie si vous souhaitez obtenir la valeur de la plage spécifique sur la feuille de calcul, sinon sélectionnez Nouvelle feuille de calcul Ply: et cela ajoutera une nouvelle feuille de calcul et vous donnera le résultat.

Cochez ensuite la case Résiduels et cliquez sur OK.

Cela ajoutera des feuilles de calcul et vous donnera le résultat suivant.

Laissez-nous comprendre le résultat.

Sortie récapitulative

Multiple R: Ceci représente le coefficient de corrélation. La valeur 1 montre une relation positive et la valeur 0 ne montre aucune relation.

R Square: R Square représente le coefficient de détermination. Cela vous indique le pourcentage de points tombant sur la droite de régression. 0,49 signifie que 49% des valeurs correspondent au modèle

Carré R ajusté : il s'agit du carré R ajusté, ce qui nécessite lorsque vous avez plus d'une variable X.

Erreur standard: Ceci représente une estimation de l'écart type de l'erreur. Il s'agit de la précision avec laquelle le coefficient de régression est mesuré.

Observations: il s'agit du nombre d'observations que vous avez prises dans un échantillon.

ANOVA - Df: Degrés de liberté

SS: somme des carrés.

MS: nous avons deux MS

  • Regression MS est Regression SS / Regression Df.
  • MS résiduelle est l'erreur quadratique moyenne (SS résiduel / Df résiduel).

Test F: F pour l'hypothèse nulle.

Signification F: valeurs P associées à la signification

Coefficient: Coefficient vous donne l'estimation des moindres carrés.

Statistique T: Statistique T pour l'hypothèse nulle par rapport à l'hypothèse alternative.

Valeur P: C'est la valeur p pour le test d'hypothèse.

95% inférieur et 95% supérieur: il s'agit de la limite inférieure et de la limite supérieure de l'intervalle de confiance

Production résiduelle: Nous avons 12 observations basées sur les données. 2 ème colonne représente prédits ventes et 3 e Residuals de colonne. Les résidus sont essentiellement la différence entre les ventes prévues et les ventes réelles.

Exemple # 2

Sélectionnez la colonne Ventes et marketing prévues

Accédez au groupe de graphiques sous l'onglet Insertion. Sélectionnez l'icône de nuage de points

Cela insérera le nuage de points dans Excel. Voir l'image ci-dessous

Cliquez avec le bouton droit sur n'importe quel point, puis sélectionnez Ajouter une ligne de tendance dans Excel. Cela ajoutera une courbe de tendance à votre graphique.

  • Vous pouvez formater la courbe de tendance en faisant un clic droit n'importe où sur la courbe de tendance, puis en sélectionnant Formater la courbe de tendance.
  • Vous pouvez apporter d'autres améliorations au graphique. c'est-à-dire, formater la courbe de tendance, la couleur et changer le titre, etc.
  • Vous pouvez également afficher la formule sur le graphique en cochant la formule Afficher sur le graphique et afficher la valeur R au carré sur le graphique.

Quelques autres exemples d'analyse de régression linéaire:

  1. La prédiction d'Umbrella vendue sur la base de la pluie s'est produite dans la zone.
  2. Prédiction de la climatisation vendue en fonction de la température en été.
  3. Pendant la saison des examens, les ventes de papeterie, les ventes de guides d'examen ont augmenté.
  4. Prédiction des ventes lorsque la publicité a été effectuée sur la base de la série High TRP où une publicité est faite, de la popularité de l'ambassadeur de la marque et des pas sur le lieu où une publicité est publiée.
  5. Ventes d'une maison en fonction de la localité, de la région et du prix.

Exemple # 3

Supposons que nous ayons neuf étudiants avec leur niveau de QI et le nombre qu'ils ont obtenu au test.

Étudiant Score du test QI
RAM 100 145
Shyam 97 140
Kul 93 130
Kappu 91 125
Raju 89 115
Vishal 86 110
Vivek 82 100
Vinay 78 95
Kumar 75 90

Étape 1: Tout d'abord, recherchez les variables dépendantes et indépendantes. Ici, le score du test est la variable dépendante et le QI est la variable indépendante car le score du test varie à mesure que le QI change.

Étape 2: Allez dans l'onglet Données - Cliquez sur Analyse des données - Sélectionnez la régression - cliquez sur OK.

Cela ouvrira la fenêtre de régression pour vous.

Étape 3. Entrez la plage de score de test dans la zone de plage d'entrée Y et IQ dans la zone de plage d'entrée X. (Vérifiez sur les étiquettes si vous avez des en-têtes dans votre plage de données. Sélectionnez les options de sortie, puis vérifiez les résidus souhaités. Cliquez sur OK.

Vous obtiendrez la sortie de résumé affichée dans l'image ci-dessous.

Étape 4: Analyse de la régression par sortie récapitulative

Sortie récapitulative

Multiple R: Ici, le coefficient de corrélation est de 0,99, ce qui est très proche de 1, ce qui signifie que la relation linéaire est très positive.

R Square: La valeur R Square est de 0,983, ce qui signifie que 98,3% des valeurs correspondent au modèle.

Valeur P: Ici, la valeur P est 1,86881E-07, ce qui est très inférieur à 0,1, ce qui signifie que le QI a des valeurs prédictives significatives.

Voir le tableau ci-dessous.

Vous pouvez voir que presque tous les points tombent en ligne ou sur une ligne de tendance proche.

Exemple # 4

Nous devons prédire les ventes de climatisation en fonction des ventes et de la température pour un mois différent.

Mois Temp Ventes
Jan 25 38893
fév 28 42254
Mar 31 42845
avr 33 47917
Mai 37 51243
Juin 40 69588
juil 38 56570
Août 37 50000

Suivez les étapes ci-dessous pour obtenir le résultat de la régression.

Étape 1: Tout d'abord, recherchez les variables dépendantes et indépendantes. Ici, les ventes sont la variable dépendante et la température est une variable indépendante car les ventes varient à mesure que la température change.

Étape 2: Allez dans l'onglet Données - Cliquez sur Analyse des données - Sélectionnez la régression - cliquez sur OK.

Cela ouvrira la fenêtre de régression pour vous.

Étape 3. Entrez les ventes dans la zone de plage d'entrée Y et la température dans la zone de plage d'entrée X. (Vérifiez sur les étiquettes si vous avez des en-têtes dans votre plage de données. Sélectionnez les options de sortie, puis vérifiez les résidus souhaités. Cliquez sur OK.

Cela vous donnera une sortie récapitulative comme ci-dessous.

Étape 4: Analysez le résultat.

Multiple R: Ici, le coefficient de corrélation est de 0,877, ce qui est proche de 1, ce qui signifie que la relation linéaire est positive.

R Square: La valeur R Square est de 0,770, ce qui signifie que 77% des valeurs correspondent au modèle

Valeur P: Ici, la valeur P est 1,86881E-07, ce qui est très inférieur à 0,1, ce qui signifie que le QI a des valeurs prédictives significatives.

Exemple # 5

Maintenant, faisons une analyse de régression pour plusieurs variables indépendantes:

Vous devez prévoir les ventes d'un mobile qui sera lancé l'année prochaine. Vous avez le prix et la population des pays qui affectent les ventes de mobiles.

Version mobile Ventes Quantité Population
NOUS 63860 858 823
Royaume-Uni 61841 877 660
KZ 60876 873 631
CH 58188 726 842
HN 52728 864 573
AU 52388 680 809
NZ 51075 728 661
RU 49019 689 778

Suivez les étapes ci-dessous pour obtenir le résultat de la régression.

Étape 1. Tout d'abord, découvrez les variables dépendantes et indépendantes. Ici, les ventes dépendent de la variable, de la quantité et de la population. Les deux sont des variables indépendantes car les ventes varient avec la quantité et la population du pays.

Étape 2. Allez dans l'onglet Données - Cliquez sur Analyse des données - Sélectionnez la régression - cliquez sur OK.

Cela ouvrira la fenêtre de régression pour vous.

Étape 3. Saisissez les ventes dans la zone de plage d'entrée Y et sélectionnez la quantité et la population dans la zone de plage d'entrée X. (Vérifiez sur les étiquettes si vous avez des en-têtes dans votre plage de données. Sélectionnez les options de sortie, puis vérifiez les résidus souhaités. Cliquez sur OK.

Exécutez maintenant la régression à l'aide de l'analyse des données sous l'onglet Données. Cela vous donnera le résultat ci-dessous.

Sortie récapitulative

Multiple R: Ici, le coefficient de corrélation est de 0,93, ce qui est très proche de 1, ce qui signifie que la relation linéaire est très positive.

R Square: La valeur R Square est de 0,866, ce qui signifie que 86,7% des valeurs correspondent au modèle.

Signification F: La signification F est inférieure à 0,1, ce qui signifie que l'équation de régression a une valeur prédictive significative.

Valeur P : Si vous regardez la valeur P pour la quantité et la population, vous pouvez voir que les valeurs sont inférieures à 0,1, ce qui signifie que la quantité et la population ont une valeur prédictive significative. Les valeurs P moins nombreuses signifient qu'une variable a des valeurs prédictives plus significatives.

Cependant, la quantité et la population ont une valeur prédictive significative, mais si vous regardez la valeur P pour la quantité et la population, vous pouvez voir que la quantité a une valeur P inférieure dans Excel à Population. Cela signifie que la quantité a une valeur prédictive plus significative que la population.

Choses dont il faut se rappeler

  • Vérifiez toujours les variables dépendantes et indépendantes chaque fois que vous sélectionnez des données.
  • L'analyse de régression linéaire considère la relation entre la moyenne des variables.
  • Ceci modélise uniquement la relation entre les variables linéaires
  • Parfois, ce n'est pas la meilleure solution pour un problème réel. Par exemple: (Âge et salaire). La plupart du temps, les salaires augmentent avec l'âge. Cependant, après la retraite, l'âge augmente mais les salaires diminuent.

Articles intéressants...