Åbn undermenuer...

Lineær regression og R2

Lineær regression bruges til at undersøge, om der er en sammenhæng mellem to variable, hvor den ene variabel antages at påvirke den anden. Man ønsker at undersøge, om ændringer i den enes værdi kan forklares ved ændringer i den andens værdi.

Afhængige og uafhængige variable

Den påvirkede variabel kalder vi også ”den afhængige variabel”, idet dens værdi afhænger af noget andet. Den påvirkende variabel kaldes også for ”den uafhængige variabel”, idet den – i denne sammenhæng – ikke påvirkes, men netop antages at have indflydelse på den afhængige variabel.

Hvad der er uafhængig variabel og afhængig variabel skal du bruge din samfundsfaglige viden - og sunde fornuft - til at afgøre. Det er fx muligt, at dit køn kan have betydning for din stemmeafgivelse, men ikke sandsynligt at dit partivalg påvirker dit køn. Andre gange er årsag og virkning dog mindre åbenlyst og kræver brug af samfundsfaglige teorier.

Lineær regression illustreres i et diagram af denne type (klik og forstør):

 

Kilde: Samfundsstatistik 2014.

I dette tilfælde er spørgsmålet, om der er sammenhæng mellem prisniveauet (den afhængige variabel) og  velstandsniveauet (BNP, den afhængige variabel) forskellige lande (punkterne) i EU.

Tendenslinje, linjens ligning og R2

Tendenslinjen er den linje, der ligger tættest på punkterne. Det første, du skal gøre, når du tolker diagrammet, er at se på a) linjens hældning og b) punkterne: a) Har linjen positiv eller negativ hældning? Og b) Ligger punkterne tæt på linjen? Så er der med stor sandsynlighed en sammenhæng. Ligger de derimod langt fra linjen, er der næppe nogen entydig sammenhæng.

Ligningen for linjen er af typen y = ax + b, hvor a angiver hældningskoefficienten for linjen.

I ligningen y = 0,7454x + 21,13 er hældningskoefficienten 0,7454. Det betyder, at når x (BNP) stiger med 1 procent, så stiger y (forbrugerpriserne) med godt 0,7 procent.

R2 (R i anden) viser forklaringsgraden, som udtrykker, hvor stor en del af variationen i den afhængige variabel y, der forklares af variationen i den uafhængige variabel x. Sagt på en anden måde: I hvor høj grad kan forbrugerprisernes niveau forklares med velstandsniveauet? Det fortæller R2.

R2 varierer mellem 0 og 1. Hvis R2 er 1, ligger alle punkterne præcis på den rette linje, og variationen i den uafhængige variabel x kan forklare 100 % af variationen i den afhængige variabel y. Jo tættere punkterne ligger på tendenslinjen, jo højere bliver R2. Jo mere spredt punkterne ligger i forhold til linjen, jo mere vil R2 nærme sig 0.

Hvis R2 er 0,79, ligger punkterne tæt på linjen, men ikke fuldstændig. Variationen i x kan forklare 79 % af variationen. De sidste 21 % må forklares ud fra andre forhold end tendenslinjen.

Den samfundsfaglige forklaring

Hvad kan vi - samfundsfagligt - bruge diagrammet til? Man kan sige, at variationen i x (BNP) kan forklare 79 % af variationen i y (forbrugerpriserne). 21 % af variationen i forbrugerpriserne må forklares ud fra andre faktorer end BNP. Andre faktorer kan fx være udviklingen i importpriser eller udviklingen i pengemængden.

Velstandsniveauet har kort sagt stor betydning for forbrugerprisernes niveau i EU, men også andet end velstandsniveauet har betydning. For at kunne forklare det, må man bruge viden om økonomiske sammenhænge.

Det skal understreges, at en høj R2 i en lineær regression ikke i sig selv er udtryk for en årsagssammenhæng. Om udviklingen i x (BNP) er årsag til udviklingen i y (prisstigning) er netop begrundelsen for den samfundsfaglige forklaring.