Autor: Dirk Lange
Regressions- und Korrelationsanalyse
Betrachtung von Zusammenhängen, also von Ursache -> Wirkung
Regression: Besteht überhaupt ein Zusammenhang (positiv oder negativ)?
Korrelation: Wie stark ist der Zusammenhang?
Problem: Quantifizierung des kausalen Zusammenhangs (Differenzierung von Variablen)
Beispiele | Werbung | Umsatz | |
Investition | Gewinn | ||
Zinsen | Investition | ||
Problem der Multikolliniarität, d.h. keine Abhängigkeit unter den unabhängigen Variablen sollte gegeben sein
a) einfache Regression: y = f(x)
b) multiple Regression: y = f(x1, x2, x3, ... xn)
c) partielle Regression: y = f(x1| x2, x3, x4)
d.h. x1 wird zuerst auf y getestet, der Rest bleibt konstant
dann wird x2 auf y getestet, der Rest bleibt konstant, usw... bis x4
Die Summe der Abweichungen (von der Geraden) muß gleich 0 sein
di = Abweichung; a = absolutes Glied; b = Steigung
Verteilung über jedem Alter = interne Streuung
gesamte Verteilung = externe Streuung
Berechnung der Regressionsgeraden
Methode der kleinsten Quadrate yi = a + bxi
a und b sind (unbekannte) Regressionskoeffizienten
Summe der quadratischen Abweichungen =
Die Minimierung von S bezüglich der Regressionskoeffizienten a und b erfolgt durch partielle Ableitung von S nach a und b und Nullsetzen der 1. Ableitung, d.h. erst nach a ableiten, dann einsetzen und nach b ableiten.
Regressionsgerade: |
Regressionsgerade:
Bsp.: 6 Personen werden zu ihrem Alter und ihrem Einkommen befragt:
Nettoeinkommen | yi | 500 | 600 | 1100 | 1500 | 2200 | 3100 |
Alter | xi | 20 | 21 | 25 | 28 | 36 | 44 |
Die Regressionsfunktion lautet: y = -1.606 + 107,1x
für die Zeichnung:
x = 0, also y = -1.606
x = 40, also y = 2.678
y = 0, also x = 15 (ab 15 Jahren kommt man ins plus)
P (29 | 1500) als ( x y - Punkt)
2. Beispiel:
Eine Firma hat ein neues Reinigungsmittel entwickelt. Bevor es auf den Markt kommt, wird auf 15 Testmärkten geprüft, wie der Verkaufspreis den Absatz des Produktes beeinflusst.
Zielgröße: Absatzquote in % = y
Instrumentvariable: Verkaufspreis / Packung = x
Absatzquote = f (Verkaufspreis)
Gesucht ist, wie stark der Verkaufspreis die Absatzquote beeinflusst!
Arbeitstabelle zur Berechnung der Regressionskoeffizienten
Test- Nr:. | Verkaufs preis x (xi) | Absatzquote in % (yi) | xi2 | xi · yi | xi -x | yi -y | Summe | |
1 | 170 | 62 | 28900 | 10540 | -50 | 2500 | 20 | -1000 |
2 | 170 | 65 | 28900 | 11050 | -50 | 2500 | 23 | -1150 |
3 | 180 | 46 | 32400 | 8280 | -40 | 1600 | 4 | -160 |
4 | 180 | 42 | 32400 | 7560 | -40 | 1600 | 0 | 0 |
5 | 180 | 55 | 32400 | 9900 | -40 | 1600 | 13 | -520 |
6 | 190 | 55 | 36100 | 10450 | -30 | 900 | 13 | -390 |
7 | 190 | 50 | 36100 | 9500 | -30 | 900 | 8 | -240 |
8 | 190 | 57 | 36100 | 10830 | -30 | 900 | 15 | -450 |
9 | 220 | 50 | 48400 | 11000 | 0 | 0 | 8 | 0 |
10 | 230 | 44 | 52900 | 10120 | +10 | 100 | 2 | +20 |
11 | 250 | 45 | 62500 | 11250 | +30 | 900 | 3 | +90 |
12 | 270 | 12 | 72900 | 3240 | +50 | 2500 | -30 | -1500 |
13 | 280 | 20 | 78400 | 5600 | +60 | 3600 | -22 | -1320 |
14 | 290 | 13 | 84100 | 3770 | +70 | 4900 | -29 | -2030 |
15 | 310 | 14 | 96100 | 4340 | +90 | 8100 | -28 | -2520 |
n = 15 | 3300 | 630 | 758.600 | 127.430 | 0 | 32600 | 0 | -11170 |
Ø = 220 Pf. | Ø = 42 |
Arbeitsschritte:
1) y bestimmen (Ø Absatzquote) = Summe %/n = 42%
2) x bestimmen (Ø Verkaufspreis) = Summe x/n = 3300/15 = 220
3) b bestimmen
4) a bestimmen
5) Die Regressionsgerade/-funktion lautet: y = 117,38 - 0,34264x
Frage: Wie hoch ist die Absatzquote bei einem Verkaufspreis von a) 2 DM und b) 2,50 DM bei der Funktion:
y = 117,38 - 0,34264x · f(200) = 48,852%, f(250) = 31,72%
y = 117,38 - 0,34264x · f(200) = 48,852%, f(250) = 31,72%
Ausssage über die Verteilung der Abweichungen · Korrelationsanalyse
4.2 Der Korrelationskoeffizient
Frage: Wie "stark" ist der Zusammenhang zwischen den beobachteten Variablen ausgeprägt? Also die Intensität des Zusammenhangs?
Diesen Zusammenhang drückt der Korrelationskoeffizient r aus
0 < r < +1 bzw. -1 < r < 0 mit den verschiedenen Möglichkeiten:
Zwei Streuungen (Abweichungen) sind zu betrachten:
1) interne Streuung (in der vertikalen Richtung), sollte möglichst klein sein
2) externe Streuung (in der horizontalen Richtung), möglichst groß
4.2.1 Bravair - Pearson´scher Korrelationskoeffizient
Bsp.: Arbeitstabelle zur Berechnung der Regressions-/Korrelationskoeffizienten
Arbeiter | yi | xi | yi - y | xi - x | (yi - y) · (xi - x) | (xi - x)2 | (yi - y)2 |
1 | 5 | 20 | -10 | -9 | 90 | 81 | 100 |
2 | 6 | 21 | -9 | -8 | 72 | 64 | 81 |
3 | 11 | 25 | -4 | -4 | 16 | 16 | 16 |
4 | 15 | 28 | 0 | -1 | 0 | 1 | 0 |
5 | 22 | 36 | 7 | 7 | 49 | 49 | 49 |
6 | 31 | 44 | 16 | 15 | 240 | 225 | 256 |
90 (y = 15) | 174 (x = 29) | 0 | 0 | 467 | 436 | 502 |
Interpretation:
Zwischen dem Nettoeinkommen und dem Alter besteht ein sehr hoher korrelativer Zusammenhang (r ist signifikant von Null verschieden).
Die Signifikanz hängt von der Art der Untersuchung ab; von den Anforderungen an das Modell. Es gibt eine Vorgabe eines kritischen Wertes, der erreicht werden muß.
Bestimmungsmaß:
ist ein relatives Maß für die Güte der Analyse. Es mißt die Stärke des Anteils der Streuung der abhängigen Variablen an der Gesamtstreuung.
B = r2 = 0,998212 = 0,9964 = 99,64%
Interpretation: 99,64% der Streuung der Nettoeinkommen der befragten Arbeiter ist durch die lineare Streuung der Regression mit dem Alter zu erklären. 0,4% der Streuung ist durch das Modell nicht geklärt (kann andere Zusammenhänge haben)
2. Beispiel: vergl. Tabelle "Reinigungsmittel"
Frage: Wie stark beeinflußt der Verkaufspreis die Absatzquote der Reinigungsmittel?
Interpretation: Zwischen der Absatzquote und dem Verkaufspreis besteht ein relativ enger (negativer) Zusammenhang.
Arbeitstabelle
Test- Nr:. | Verkaufs preis x (xi) | Absatzquote in % (yi) | xi2 | xi · yi | xi -x | (xi -x)2 | yi -y | (yi -y)2 | Summe |
1 | 170 | 62 | 28900 | 10540 | -50 | 2500 | 20 | 400 | -1000 |
2 | 170 | 65 | 28900 | 11050 | -50 | 2500 | 23 | -1150 | |
3 | 180 | 46 | 32400 | 8280 | -40 | 1600 | 4 | -160 | |
4 | 180 | 42 | 32400 | 7560 | -40 | 1600 | 0 | 0 | |
5 | 180 | 55 | 32400 | 9900 | -40 | 1600 | 13 | -520 | |
6 | 190 | 55 | 36100 | 10450 | -30 | 900 | 13 | -390 | |
7 | 190 | 50 | 36100 | 9500 | -30 | 900 | 8 | -240 | |
8 | 190 | 57 | 36100 | 10830 | -30 | 900 | 15 | -450 | |
9 | 220 | 50 | 48400 | 11000 | 0 | 0 | 8 | 0 | |
10 | 230 | 44 | 52900 | 10120 | +10 | 100 | 2 | +20 | |
11 | 250 | 45 | 62500 | 11250 | +30 | 900 | 3 | +90 | |
12 | 270 | 12 | 72900 | 3240 | +50 | 2500 | -30 | -1500 | |
13 | 280 | 20 | 78400 | 5600 | +60 | 3600 | -22 | -1320 | |
14 | 290 | 13 | 84100 | 3770 | +70 | 4900 | -29 | -2030 | |
15 | 310 | 14 | 96100 | 4340 | +90 | 8100 | -28 | 84 | -2520 |
n = 15 | 3300 | 630 | 758.600 | 127.430 | 0 | 32600 | 0 | 4.658 | -11170 |
Ø = 220 Pf. | Ø = 42 |
Interpretation: 82% der Absatzquote sind durch den Preis erklärt. Zwischen der Absatzquote und dem Verkaufspreis besteht ein relativ enger negativer Zusammenhang
Rangkorrelation: Man ersetzt die Beobachtungen (xi, yi) durch Paare von Rang-ahlen (xi*, yi*), die man durch fortlaufende Nummerierung der x bzw. y-Werte ihrer Größe nach erhält und errechnet für diese Rangpaare den Korrelationskoeffizient.
1. Beispiel: Studenten veranstalten am Ende ihres Skiurlaubs ein Wettrennen als Abfahrtslauf und als Slalom und erreichen dabei folgende Platzierungen:
Studenten | A | B | C | D | E | F | |
Abfahrt (x) | 2 | 1 | 3 | 4 | 5 | 6 | y von x abhängig |
Slalom (y) | 2 | 3 | 1 | 5 | 4 | 6 |
Gegeben sind die Rangzahlen R (xi) = xi* und R (yi) = xi*
der Beobachtungen und die Rangdifferenzen di = xi* - yi*, so gilt:
heißt Rangkorrelationskoeffizient (nach Pearson) und ist ein Maß für die Ausgeprägtheit des Zusammenhangs
Studenten | Abfahrt R (xi) = xi* | Slalom R (yi) = yi* | di | di² |
A | 2 | 2 | 0 | 0 |
B | 1 | 3 | -2 | 4 |
C | 3 | 1 | 2 | 4 |
D | 4 | 5 | -1 | 1 |
E | 5 | 4 | 1 | 1 |
F | 6 | 6 | 0 | 0 |
Summe: | - | - | 10 |
Interpretation: Es besteht ein relativ starker korrelativer (positiver) Zusammenhang
2. Beispiel: Beim Eiskunstlauf werden für 9 Läufer A und B - Noten festgehalten. Es ergeben sich dafür folgende Werte:
Läufer | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |
A-Note (x) | 5,3 | 5,6 | 5,0 | 5,3 | 4,9 | 4,6 | 5,3 | 5,0 | 5,2 |
B-Note (y) | 5,4 | 5,4 | 5,1 | 5,2 | 5,0 | 4,5 | 5,5 | 4,8 | 5,1 |
Arbeitstabelle zur Berechnung der Rangkorrelationskoeffizienten
Läufer | A-Note xi | B-Note yi | R (xi) = xi* | R (yi) = yi* | di | di² |
1 | 5,3 | 5,4 | 3 | 2,5 | 0,5 | 0,25 |
2 | 5,6 | 5,4 | 1 | 2,5 | -1,5 | 2,25 |
3 | 5,0 | 5,1 | 6,5 | 5,5 | 1 | 1 |
4 | 5,3 | 5,2 | 3 | 4 | -1 | 1 |
5 | 4,9 | 5,0 | 8 | 7 | 1 | 1 |
6 | 4,6 | 4,5 | 9 | 9 | 0 | 0 |
7 | 5,3 | 5,5 | 3 | 1 | 2 | 4 |
8 | 5,0 | 4,8 | 6,5 | 8 | -1,5 | 2,25 |
9 | 5,2 | 5,1 | 5 | 5,5 | -0,5 | 0,25 |
Summe: | lt. Rangfolge 1 bis 9 bzw. Mitte | 0 | 12 |
Interpretation: Zwischen den Bewertungen der Läufer in der A-Note und in der B-Note besteht ein relativ hohe (positive) Korrelation, d.h. derjenige, der eine hohe A-Note erhält, erreicht i.d.R. auch eine hohe Bewertung in der B-Note.
5 Analyse von Zeitreihen
Zeitreihenanalyse
a) Querschnittsanalyse b) Längsschnittanalyse
zu a) Analyse der Struktur ökonomischer Zusammenhänge, bezogen auf den Zeitpunkt. Sie liefert Zustandsbilder zu bestimmten Zeitpunkten und ist nicht für Prognosezwecke geeignet.
zu b) Beschreibung der Merkmale innerhalb eines Zeitraums. Sie ist für Prognosezwecke geeignet. (Analyse von Zeitreihen)
Modell: y = f(t) y = Umsatz / Lohn / Produktionsentwicklung
f(t) = Periode, Tage, Wochen, Monate, Jahre,...
Definition Zeitreihen: Unter einer Zeitreihe versteht man die Entwicklung eines bestimmten Merkmals, dessen Werte im Zeitablauf zu bestimmten Zeitpunkten erfaßt und dargestellt werden.
Komponenten einer Zeitreihe: y = f (T, Z, S, R)
1) Trend (T), langfristig
2) Konjunktur (Z), mittelfristig
3) saisonale Einflüsse (S), kurzfristig
4) Restkomponente (R), zufällig
Für bestimmte Zwecke werden nur die Trendkomponente und die Saisonkomponente erfaßt und berechnet. S(t) und R(t) werden aus dem Vergleich der Daten ermittelt.
Beispiel: Der Umsatz entwickelte sich in den letzten 9 Jahren wie folgt:
Umsatz in Mio y | 5-Jahres-Werte | Trendwerte | |
1 | 4,8 | - | |
2 | 5,2 | - | |
3 | 5,6 | 26,7 / 5 = 5,34 = T1 | 5,34 |
4 | 4,9 | x = T2 = 5,50 | 5,50 |
5 | 6,2 | x = T3 = 5,62 | 5,62 |
6 | 5,6 | x = T4 = 5,78 | 5,78 |
7 | 5,8 | x = T5 = 5,98 | 5,98 |
8 | 6,4 | - | |
9 | 5,9 | - | |
50,4 | immer ungerade Jahre | gilt für die Mitte der Periode |
Nachteile:
1) Die ersten und letzten beiden Jahre der Zeitreihe werden in der
Trendkomponente nicht berücksichtigt (= Informationsverlust)
2) eine völlige Ausschaltung der Schwankungen ist nicht möglich
3) Da die Trendwerte schon vor dem Ende der Zeitreihe abbrechen ist die Methode für Prognosezwecke ungünstig
2) Die Methode der kleinsten Quadrate (vergl. Seite 2, Regressionsgerade)
Beispiel: Umsatzzahlen, quartalsweise
Quartale | 1996 | 1997 | 1998 | 1999 | 2000 |
1 | 168 | 179 | 185 | 191 | 201 |
2 | 210 | 223 | 231 | 233 | 245 |
3 | 190 | 195 | 210 | 220 | ? |
4 | 298 | 315 | 340 | 356 | ? |
866 | 912 | 966 | 1000 |
Arbeitsschritte:
1) y bestimmen (Ø Umsatz) = Summe Quartale / n = 232,777
2) x bestimmen (_ Quartal) = Summe x / n = 171/18 = 9,5
3) b bestimmen
4) a bestimmen
5) Die Regressionsgerade/-funktion lautet: y = 3,2941177 x + 201,4836
Berechnung der Umsatztrendwerte (vergl. Tabelle S. 14 in rot)
mit I / 1996 x = 1 Trendwert = 201,4836 +(1 * 3,2941) = 204,77
II / 1996 x = 2 Trendwert = 201,4836 +(2 * 3,2941) = 208,06
II / 2000 x = 18 Trendwert = 201,4836 +(18 * 3,2941) = 260,77
Erstellen von Trendprognosen
III / 2000 x = 19 Trendwert = 201,4836 +(19 * 3,2941) = 264,072
IV / 2000 x = 20 Trendwert = 201,4836 +(20 * 3,2941) = 267,366
IV / 2001 x = 24 Trendwert = 201,4836 +(24 * 3,2941) = 280,542
(ist nur der Trend ohne Saisonkomponente)
Interpretation:
Wenn die ökonomischen Bedingungen gleich bleiben und die Komponenten der Zeitreihe dieselbe Wirkung auf die Entwicklung ausüben wie bisher, so kann das Unternehmen im 4. Quartal 2001 einen Umsatz von 280,542 Mio. DM erwarten.
Die Ermittlung des Saisoneinfluß
Der Saisonindex (Saisonquotient, ist die prozentuale Abweichung der ursprünglichen, saisonbeeinflussten Werte einer Reihe von der saisonal unbeeinflussten Reihe)
Berechnungsschritte: 1) Ermittlung einer Vergleichsreihe
Interpretation (S1): Der tatsächlich eingetretene Wert (Ursprungswert) ist gegenüber dem saisonfreien Trendwert um 18% (1-0,82) abgeschwächt, d.h. im 1. Quartal 1996 liegt ein saison-schwächender Einfluß mit einer Wirkung von 18% vor.
oder: Wenn es keine saisonalen Schwankungen gegeben hätte, wäre der Umsatz in diesem Quartal um 21,89% höher gewesen (verminderte Basis von 0,82 !)
Interpretation (S4): Im 4. Quartal 1996 liegt ein saisonverstärkender Einfluß von ca. 39% vor
oder: Wenn keine saisonalen Einflüsse zur Wirkung gekommen wären, hätte der Umsatz im 4 Quartal 1996 um ____ % niedriger gelegen
Prognose über die Entwicklung des Umsatzes
Der erwartete Umsatz (y Dach = Schätzwerte) setzt sich aus den beiden Komponenten "Trend" und "Saisoneinfluß" zusammen.
= Trendwert (Trendfunktion) · Saisoneinfluß (im Durchschnitt)
6) Bsp.: Quartalsumsätze
(III, 2000) = 201,48 +(19·3,2941) · 0,893 = 235,813
Interpretation: Im 3. Quartal 2000 ist zu erwarten, dass der Umsatz saisonbedingt ca. 235,813 Mio. DM beträgt.
(IV, 2000) = 201,48 +(19·3,2941) · _______ 2,7443 = 373,24
(IV, 2001) = 201,48 +(24·3,2941) · 1,396 = 391,63
the very end
Häufig gestellte Fragen zu Regressions- und Korrelationsanalyse
Was ist der Unterschied zwischen Regression und Korrelation?
Regression untersucht, ob überhaupt ein Zusammenhang zwischen Variablen besteht (positiv oder negativ). Korrelation misst, wie stark dieser Zusammenhang ist.
Was ist das Problem der Multikollinearität?
Multikollinearität tritt auf, wenn unabhängige Variablen untereinander abhängig sind. Dies sollte vermieden werden, da es die Regressionsanalyse beeinträchtigen kann.
Welche Arten der Regression gibt es?
Es gibt einfache Regression (y = f(x)), multiple Regression (y = f(x1, x2, x3, ... xn)) und partielle Regression (y = f(x1| x2, x3, x4)), wobei bei Letzterer jede unabhängige Variable einzeln auf die abhängige Variable getestet wird, während die anderen konstant gehalten werden.
Wie wird die Regressionsgerade berechnet?
Die Regressionsgerade wird mithilfe der Methode der kleinsten Quadrate berechnet (yi = a + bxi), wobei a und b die Regressionskoeffizienten sind.
Was drückt der Korrelationskoeffizient r aus?
Der Korrelationskoeffizient r drückt die Stärke des Zusammenhangs zwischen den beobachteten Variablen aus (Intensität des Zusammenhangs). Er liegt zwischen -1 und +1.
Was ist die interne und externe Streuung?
Interne Streuung ist die Streuung in der vertikalen Richtung um die Regressionsgerade. Externe Streuung ist die Streuung in der horizontalen Richtung. Für eine gute Analyse sollte die interne Streuung möglichst klein und die externe Streuung möglichst groß sein.
Was ist der Bravais-Pearson’sche Korrelationskoeffizient?
Dies ist eine Methode zur Berechnung des Korrelationskoeffizienten, die auf den Abweichungen der Werte vom Mittelwert basiert.
Was ist das Bestimmungsmaß?
Das Bestimmungsmaß (B = r²) ist ein relatives Maß für die Güte der Analyse. Es misst den Anteil der Streuung der abhängigen Variablen an der Gesamtstreuung.
Was ist Rangkorrelation?
Bei der Rangkorrelation werden die Beobachtungen durch Rangzahlen ersetzt und für diese Rangpaare der Korrelationskoeffizient berechnet.
Was ist Zeitreihenanalyse?
Zeitreihenanalyse untersucht die Entwicklung eines Merkmals im Zeitablauf und wird in Querschnittsanalyse (Zustandsbilder zu bestimmten Zeitpunkten) und Längsschnittanalyse (Beschreibung der Merkmale innerhalb eines Zeitraums) unterteilt. Längsschnittanalyse eignet sich für Prognosezwecke.
Welche Komponenten hat eine Zeitreihe?
Eine Zeitreihe hat die Komponenten Trend (T), Konjunktur (Z), saisonale Einflüsse (S) und Restkomponente (R).
Wie werden Trendwerte ermittelt?
Trendwerte können beispielsweise durch die Methode der gleitenden Durchschnitte oder die Methode der kleinsten Quadrate ermittelt werden.
Was ist der Saisonindex?
Der Saisonindex (Saisonquotient) ist die prozentuale Abweichung der ursprünglichen, saisonbeeinflussten Werte von der saisonal unbeeinflussten Reihe.
Wie wird eine Umsatzprognose erstellt?
Eine Umsatzprognose setzt sich aus den Komponenten Trendwert und Saisoneinfluss zusammen.
- Quote paper
- Dirk Lange (Author), 2001, Regressionsanalyse, Munich, GRIN Verlag, https://www.hausarbeiten.de/document/101869