Régression linéaire (définition, exemples) - Comment interpréter?

Table des matières

Qu'est-ce qu'une régression linéaire?

Qu'est-ce qu'une régression linéaire?

La régression linéaire est essentiellement une technique de modélisation statistique utilisée pour montrer la relation entre une variable dépendante et une ou plusieurs variables indépendantes. C'est l'un des types d'analyse prédictive les plus courants. Ce type de distribution se forme en ligne, c'est ce qu'on appelle la régression linéaire. Dans cet article, nous prendrons les exemples de l'analyse de régression linéaire dans Excel.

Pour effectuer d'abord une analyse de régression linéaire, nous devons ajouter des compléments Excel en suivant les étapes.

Cliquez sur Fichier - Options (cela ouvrira la fenêtre contextuelle Excel Options pour vous).

Cliquez sur Compléments - Sélectionnez Compléments Excel dans Gérer le menu déroulant dans Excel, puis cliquez sur Aller.

Cela ouvrira la fenêtre contextuelle des compléments. Sélectionnez Analysis ToolPak, puis cliquez sur OK.

Le complément d'analyse de données apparaîtra sous l'onglet Insérer.

Laissez-nous comprendre par les exemples ci-dessous de l'analyse de régression linéaire dans Excel.

Exemples d'analyse de régression linéaire

Exemple 1

Supposons que nous ayons des ventes mensuelles et des dépenses marketing pour l'année dernière, et que nous devions maintenant prédire les ventes futures sur la base des ventes et du marketing dépensés l'année dernière.

Mois	La publicité	Ventes
Jan	40937	502729
fév	42376	507553
Mar	43355	516885
avr	44126	528347
Mai	45060	537298
Juin	49546	544066
juil	56105	553664
Août	59322	563201
SEP	59877	568657
oct	60481	569384
nov	62356	573764
déc	63246	582746

Cliquez sur Analyse des données sous l'onglet Données, et cela ouvrira la fenêtre contextuelle d'analyse des données pour vous.

Sélectionnez maintenant Régression dans la liste et cliquez sur OK.

La fenêtre contextuelle de régression s'ouvrira.

Sélectionnez Fourchette de ventes $ C $ 1: $ C $ 13 dans la zone de l'axe Y car il s'agit de la variable dépendante et $ B $ 1: $ B $ 14 en axe X en tant que publicité dépensée est la variable indépendante.

Cochez la case Libellés si vous avez sélectionné des en-têtes dans les données sinon cela vous donnera l'erreur.

Sélectionnez Plage de sortie si vous souhaitez obtenir la valeur de la plage spécifique sur la feuille de calcul, sinon sélectionnez Nouvelle feuille de calcul Ply: et cela ajoutera une nouvelle feuille de calcul et vous donnera le résultat.

Cochez ensuite la case Résiduels et cliquez sur OK.

Cela ajoutera des feuilles de calcul et vous donnera le résultat suivant.

Laissez-nous comprendre le résultat.

Sortie récapitulative

Multiple R: Ceci représente le coefficient de corrélation. La valeur 1 montre une relation positive et la valeur 0 ne montre aucune relation.

R Square: R Square représente le coefficient de détermination. Cela vous indique le pourcentage de points tombant sur la droite de régression. 0,49 signifie que 49% des valeurs correspondent au modèle

Carré R ajusté : il s'agit du carré R ajusté, ce qui nécessite lorsque vous avez plus d'une variable X.

Erreur standard: Ceci représente une estimation de l'écart type de l'erreur. Il s'agit de la précision avec laquelle le coefficient de régression est mesuré.

Observations: il s'agit du nombre d'observations que vous avez prises dans un échantillon.

ANOVA - Df: Degrés de liberté

SS: somme des carrés.

MS: nous avons deux MS

Regression MS est Regression SS / Regression Df.
MS résiduelle est l'erreur quadratique moyenne (SS résiduel / Df résiduel).

Test F: F pour l'hypothèse nulle.

Signification F: valeurs P associées à la signification

Coefficient: Coefficient vous donne l'estimation des moindres carrés.

Statistique T: Statistique T pour l'hypothèse nulle par rapport à l'hypothèse alternative.

Valeur P: C'est la valeur p pour le test d'hypothèse.

95% inférieur et 95% supérieur: il s'agit de la limite inférieure et de la limite supérieure de l'intervalle de confiance

Production résiduelle: Nous avons 12 observations basées sur les données. 2 ^ème colonne représente prédits ventes et 3 ^e Residuals de colonne. Les résidus sont essentiellement la différence entre les ventes prévues et les ventes réelles.

Exemple # 2

Sélectionnez la colonne Ventes et marketing prévues

Accédez au groupe de graphiques sous l'onglet Insertion. Sélectionnez l'icône de nuage de points

Cela insérera le nuage de points dans Excel. Voir l'image ci-dessous

Cliquez avec le bouton droit sur n'importe quel point, puis sélectionnez Ajouter une ligne de tendance dans Excel. Cela ajoutera une courbe de tendance à votre graphique.

Vous pouvez formater la courbe de tendance en faisant un clic droit n'importe où sur la courbe de tendance, puis en sélectionnant Formater la courbe de tendance.
Vous pouvez apporter d'autres améliorations au graphique. c'est-à-dire, formater la courbe de tendance, la couleur et changer le titre, etc.
Vous pouvez également afficher la formule sur le graphique en cochant la formule Afficher sur le graphique et afficher la valeur R au carré sur le graphique.

Quelques autres exemples d'analyse de régression linéaire:

La prédiction d'Umbrella vendue sur la base de la pluie s'est produite dans la zone.
Prédiction de la climatisation vendue en fonction de la température en été.
Pendant la saison des examens, les ventes de papeterie, les ventes de guides d'examen ont augmenté.
Prédiction des ventes lorsque la publicité a été effectuée sur la base de la série High TRP où une publicité est faite, de la popularité de l'ambassadeur de la marque et des pas sur le lieu où une publicité est publiée.
Ventes d'une maison en fonction de la localité, de la région et du prix.

Exemple # 3

Supposons que nous ayons neuf étudiants avec leur niveau de QI et le nombre qu'ils ont obtenu au test.

Étudiant	Score du test	QI
RAM	100	145
Shyam	97	140
Kul	93	130
Kappu	91	125
Raju	89	115
Vishal	86	110
Vivek	82	100
Vinay	78	95
Kumar	75	90

Étape 1: Tout d'abord, recherchez les variables dépendantes et indépendantes. Ici, le score du test est la variable dépendante et le QI est la variable indépendante car le score du test varie à mesure que le QI change.

Étape 2: Allez dans l'onglet Données - Cliquez sur Analyse des données - Sélectionnez la régression - cliquez sur OK.

Cela ouvrira la fenêtre de régression pour vous.

Étape 3. Entrez la plage de score de test dans la zone de plage d'entrée Y et IQ dans la zone de plage d'entrée X. (Vérifiez sur les étiquettes si vous avez des en-têtes dans votre plage de données. Sélectionnez les options de sortie, puis vérifiez les résidus souhaités. Cliquez sur OK.

Vous obtiendrez la sortie de résumé affichée dans l'image ci-dessous.

Étape 4: Analyse de la régression par sortie récapitulative

Sortie récapitulative

Multiple R: Ici, le coefficient de corrélation est de 0,99, ce qui est très proche de 1, ce qui signifie que la relation linéaire est très positive.

R Square: La valeur R Square est de 0,983, ce qui signifie que 98,3% des valeurs correspondent au modèle.

Valeur P: Ici, la valeur P est 1,86881E-07, ce qui est très inférieur à 0,1, ce qui signifie que le QI a des valeurs prédictives significatives.

Voir le tableau ci-dessous.

Vous pouvez voir que presque tous les points tombent en ligne ou sur une ligne de tendance proche.

Exemple # 4

Nous devons prédire les ventes de climatisation en fonction des ventes et de la température pour un mois différent.

Mois	Temp	Ventes
Jan	25	38893
fév	28	42254
Mar	31	42845
avr	33	47917
Mai	37	51243
Juin	40	69588
juil	38	56570
Août	37	50000

Suivez les étapes ci-dessous pour obtenir le résultat de la régression.

Étape 1: Tout d'abord, recherchez les variables dépendantes et indépendantes. Ici, les ventes sont la variable dépendante et la température est une variable indépendante car les ventes varient à mesure que la température change.

Étape 2: Allez dans l'onglet Données - Cliquez sur Analyse des données - Sélectionnez la régression - cliquez sur OK.

Cela ouvrira la fenêtre de régression pour vous.

Étape 3. Entrez les ventes dans la zone de plage d'entrée Y et la température dans la zone de plage d'entrée X. (Vérifiez sur les étiquettes si vous avez des en-têtes dans votre plage de données. Sélectionnez les options de sortie, puis vérifiez les résidus souhaités. Cliquez sur OK.

Cela vous donnera une sortie récapitulative comme ci-dessous.

Étape 4: Analysez le résultat.

Multiple R: Ici, le coefficient de corrélation est de 0,877, ce qui est proche de 1, ce qui signifie que la relation linéaire est positive.

R Square: La valeur R Square est de 0,770, ce qui signifie que 77% des valeurs correspondent au modèle

Valeur P: Ici, la valeur P est 1,86881E-07, ce qui est très inférieur à 0,1, ce qui signifie que le QI a des valeurs prédictives significatives.

Exemple # 5

Maintenant, faisons une analyse de régression pour plusieurs variables indépendantes:

Vous devez prévoir les ventes d'un mobile qui sera lancé l'année prochaine. Vous avez le prix et la population des pays qui affectent les ventes de mobiles.

Version mobile	Ventes	Quantité	Population
NOUS	63860	858	823
Royaume-Uni	61841	877	660
KZ	60876	873	631
CH	58188	726	842
HN	52728	864	573
AU	52388	680	809
NZ	51075	728	661
RU	49019	689	778

Suivez les étapes ci-dessous pour obtenir le résultat de la régression.

Étape 1. Tout d'abord, découvrez les variables dépendantes et indépendantes. Ici, les ventes dépendent de la variable, de la quantité et de la population. Les deux sont des variables indépendantes car les ventes varient avec la quantité et la population du pays.

Étape 2. Allez dans l'onglet Données - Cliquez sur Analyse des données - Sélectionnez la régression - cliquez sur OK.

Cela ouvrira la fenêtre de régression pour vous.

Étape 3. Saisissez les ventes dans la zone de plage d'entrée Y et sélectionnez la quantité et la population dans la zone de plage d'entrée X. (Vérifiez sur les étiquettes si vous avez des en-têtes dans votre plage de données. Sélectionnez les options de sortie, puis vérifiez les résidus souhaités. Cliquez sur OK.

Exécutez maintenant la régression à l'aide de l'analyse des données sous l'onglet Données. Cela vous donnera le résultat ci-dessous.

Sortie récapitulative

Multiple R: Ici, le coefficient de corrélation est de 0,93, ce qui est très proche de 1, ce qui signifie que la relation linéaire est très positive.

R Square: La valeur R Square est de 0,866, ce qui signifie que 86,7% des valeurs correspondent au modèle.

Signification F: La signification F est inférieure à 0,1, ce qui signifie que l'équation de régression a une valeur prédictive significative.

Valeur P : Si vous regardez la valeur P pour la quantité et la population, vous pouvez voir que les valeurs sont inférieures à 0,1, ce qui signifie que la quantité et la population ont une valeur prédictive significative. Les valeurs P moins nombreuses signifient qu'une variable a des valeurs prédictives plus significatives.

Cependant, la quantité et la population ont une valeur prédictive significative, mais si vous regardez la valeur P pour la quantité et la population, vous pouvez voir que la quantité a une valeur P inférieure dans Excel à Population. Cela signifie que la quantité a une valeur prédictive plus significative que la population.

Choses dont il faut se rappeler

Vérifiez toujours les variables dépendantes et indépendantes chaque fois que vous sélectionnez des données.
L'analyse de régression linéaire considère la relation entre la moyenne des variables.
Ceci modélise uniquement la relation entre les variables linéaires
Parfois, ce n'est pas la meilleure solution pour un problème réel. Par exemple: (Âge et salaire). La plupart du temps, les salaires augmentent avec l'âge. Cependant, après la retraite, l'âge augmente mais les salaires diminuent.