Die zuverlässige Planung des zukünftigen Absatzes gilt in der Wirtschaft als unverzichtbarer Bestandteil einer erfolgreichen Unternehmensführung. Insbesondere im Lebensmitteleinzelhandel kann eine zu geringe Produktnachfrage in Bezug auf verderbliche Produkte zu starken Gewinneinbußen führen, da überschüssige verdorbene Ware gezwungenermaßen renditelos und kostspielig entsorgt werden muss.
Das Ziel dieser Hausarbeit ist, unter Verwendung der Regressionsanalyse zu untersuchen, ob und in welchem Ausmaß die Produktnachfrage in einem ausgewählten Supermarkt von der Produktwerbung, dem Produktpreis und der zeitlichen Entwicklung abhängt. Anschließend soll mithilfe des Regressionsmodells eine Nachfrageprognose durchgeführt und beurteilt werden.
Dazu werden eingangs in Kapitel 2 die theoretischen Grundlagen der Regressionsanalyse erläutert. Anschließend werden ausgewählte Prognosegütemaße vorgestellt und voneinander abgegrenzt. Im dritten Kapitel wird zunächst der verwendete Datensatz beschrieben, wobei die Eigenschaften der enthaltenen Variablen erläutert werden. Nachfolgend wird zur Einführung eine multiple-lineare-Regressionsanalyse anhand eines ausgewählten Produktes durchgeführt, um mit den Begrifflichkeiten der Regressionskoeffizienten vertraut zu werden und eine Prognose der Nachfrage durchführen zu können. Daraufhin sollen die Regressionsmodelle aller 2.910 Produkte gebildet werden, um anhand der Masse der daraus resultierenden Regressionskoeffizienten ein Urteil über den durchschnittlichen Einfluss der jeweiligen Einflussvariablen auf die Zielvariable bilden zu können. Im letzten Abschnitt des Kapitel 3 werden sämtliche 2.910 Regressionsmodelle mittels eines Prognosegütemaßes beurteilt, um eine ungefähre Qualität der Modelle bestimmen zu können. In Kapitel 4 fasst das Fazit dieser Hausarbeit das Ergebnis der durchgeführten Regressionsanalysen zusammen und versucht, abgeleitet von den Regressionsmodellen, Regelmäßigkeiten in der Umsatzplanung des betrachteten Supermarktes zu nennen.
Inhaltsverzeichnis
Abkürzungsverzeichnis
Abbildungsverzeichnis
1 Einleitung
2 Lineare Regressionsanalyse
2.1 Die Optimierung der Zielfunktion
2.2 Die Güte der Prognose
3 Multiple lineare Regressionsanalyse anhand von Umsatzdaten
3.1 Der Datensatz
3.2 Multiple lineare Regression anhand eines Produktes
3.3 Auswertung der Koeffizienten sämtlicher Produkte des Datensatzes
4 Fazit
5 Literaturverzeichnis
Abkürzungsverzeichnis
Abbildung in dieser Leseprobe nicht enthalten
Abbildungsverzeichnis
Abbildung 1: Output-Tabelle der Regression für Produkt PID
Abbildung 2: RMSE der Regression von Produkt PID
Abbildung 3: Nachfrageprognose auf Basis des Regressionsmodells für Produkt PID
Abbildung 4: Verteilung der Koeffizienten der Einflussvariable Preis
Abbildung 5: Verteilung der Koeffizienten der Einflussvariable Datum
Abbildung 6: Verteilung der Koeffizienten der Einflussvariable Werbung
Abbildung 7: Verteilung der RMSE´s aller 2.910 Regressionsmodelle
1 Einleitung
Die zuverlässige Planung des zukünftigen Absatzes gilt in der Wirtschaft als unverzichtbarer Bestandteil einer erfolgreichen Unternehmensführung. Insbesondere im Lebensmitteleinzelhandel kann eine zu geringe Produktnachfrage in Bezug auf verderbliche Produkte zu starken Gewinneinbußen führen, da überschüssige verdorbene Ware gezwungenermaßen renditelos und kostspielig entsorgt werden muss. Das Ziel dieser Hausarbeit ist, unter Verwendung der Regressionsanalyse zu untersuchen, ob und in welchem Ausmaß die Produktnachfrage in einem ausgewählten Supermarkt von der Produktwerbung, dem Produktpreis und der zeitlichen Entwicklung abhängt. Anschließend soll mithilfe des Regressionsmodells eine Nachfrageprognose durchgeführt und beurteilt werden. Dazu werden eingangs in Kapitel 2 die theoretischen Grundlagen der Regressionsanalyse erläutert. Anschließend werden ausgewählte Prognosegütemaße vorgestellt und voneinander abgegrenzt. Im dritten Kapitel wird zunächst der verwendete Datensatz beschrieben, wobei die Eigenschaften der enthaltenen Variablen erläutert werden. Nachfolgend wird zur Einführung eine multiple-lineare-Regressionsanalyse anhand eines ausgewählten Produktes durchgeführt, um mit den Begrifflichkeiten der Regressionskoeffizienten vertraut zu werden und eine Prognose der Nachfrage durchführen zu können. Daraufhin sollen die Regressionsmodelle aller 2.910 Produkte gebildet werden, um anhand der Masse der daraus resultierenden Regressionskoeffizienten ein Urteil über den durchschnittlichen Einfluss der jeweiligen Einflussvariablen auf die Zielvariable bilden zu können. Im letzten Abschnitt des Kapitel 3 werden sämtliche 2.910 Regressionsmodelle mittels eines Prognosegütemaßes beurteilt, um eine ungefähre Qualität der Modelle bestimmen zu können. In Kapitel 4 fasst das Fazit dieser Hausarbeit das Ergebnis der durchgeführten Regressionsanalysen zusammen und versucht, abgeleitet von den Regressionsmodellen, Regelmäßigkeiten in der Umsatzplanung des betrachteten Supermarktes zu nennen.
2 Lineare Regressionsanalyse
2.1 Die Optimierung der Zielfunktion
Eine vielfältig einzusetzende Methode zur Beschreibung eines funktionalen Zusammenhangs zwischen Merkmalen ist die lineare Regressionsanalyse. Zur Einführung wird zunächst die einfache lineare Regression vorgestellt, um diese im Anschluss von der multiplen linearen Regression zu unterscheiden. Die zu untersuchenden Merkmale werden dabei im Vorfeld bei einem Merkmalsträger gemessen. Beispielsweise könnten in einer staatlich durchgeführten Studie sämtliche Staatsbürger nach dem Jahresbruttoeinkommen befragt werden, sodann das untersuchte Merkmal „Jahresbruttoeinkommen in Euro“ und der Merkmalsträger der „Staatsbürger“ ist. Für die Analyse eines funktionalen Zusammenhangs zwischen zwei Merkmalen muss zunächst festgelegt werden, von welchem Merkmal ein Einfluss ausgeht, und welches Merkmal von diesem Einfluss betroffen ist. Das beeinflussende Merkmal wird fachüblich unabhängig bzw. Einflussvariable genannt, wohingegen das beeinflusste Merkmal als abhängig bzw. als Zielvariable definiert wird. Für die Regressionsfragestellung ist es relevant zu definieren ob die Zielvariable sowie die jeweilige Einflussvariable vom Typ stetig, binär kategorial oder Zählvariablen sind (Fahrmeir et al. 2009, S. 19). Die einfache lineare Regression arbeitet stets mit einer Einflussvariable und einer Zielvariable, demnach mit maximal zwei Variablen insgesamt. Die Festlegung eines Merkmals als abhängig oder unabhängig ergibt sich oftmals aus dem Kontext. Der Umsatz von Speiseeis in Euro kann bspw. als Zielvariable in einer Kausalbeziehung zur Temperatur in Grad Celsius als Einflussvariable gesetzt werden. Hierbei ist davon auszugehen, dass eine erhöhte Temperatur zu einer Umsatzsteigerung der Eisdiele führen kann. Das Interesse liegt demnach primär in der Zielvariable Umsatz, jedoch wird der Informationsgehalt bzgl. dieser Zielvariable größer, wenn weitere Informationen aus der Einflussvariable Temperatur gewonnen werden können. Es existiert also ein Informationsgehalt in der Einflussvariable bzgl. der Zielvariable, den es mithilfe der linearen Regression zu analysieren gilt (Bingham & Fry 2010, S. 2). Eine lineare Regression ist stets dann zu empfehlen, wenn die jeweilige Einflussvariable einen linearen Effekt auf die Zielvariable ausübt, und die Zielvariable vom Typ stetig ist. Im Beispiel wird dann die Behauptung aufgestellt, der „Umsatz von Speiseeis“ sei eine lineare Funktion der „Temperatur“ (Fahrmeir et al. 2009, S. 20). Solch eine lineare Funktion wird durch folgende
Gleichung beschrieben: = + + . In dieser Ausarbeitung wird die lineare Regressionsanalyse durch die Symbole Y, X, , und beschrieben. In der Fachliteratur sind die Symbole Y und X einheitlich anerkannt. Demgegenüber können die Symbole , und je nach Literatur abweichen. Y beschreibt die Zielvariable bzw. die abhängige Variable, daher im vorliegendem Beispiel den Umsatz. Yi bezeichnet hierbei den Variablenwert des i-ten Beobachtungsfall. Das Symbol Xi steht für die i-te Ausprägung der Einflussvariable bzw. der unabhängigen Variable, also den Wert der Temperatur (Urban & Mayerl 2011, S. 28). Die Parameter und bestimmen jeweils das Ausmaß und die Richtung des Einflusses der Einflussvariable X auf die Zielvariable Y. Man spricht in diesem Zusammenhang auch von der Regression von Y auf X. Der Parameter definiert den Y-Achsenabschnitt im Koordinatensystem, demzufolge den Punkt, an dem die Regressionsgerade die Y-Achse schneidet. Der Vorteil aus der Beschreibung einer kausalen Beziehung mithilfe einer Geraden besteht darin, eine große Datenmenge beschreiben zu können, sofern sich die einzelnen Datenpunkte ungefähr auf dieser Gerade befinden. Der Parameter , definiert die Steigung der Geraden, weswegen er auch Steigungskoeffizient genannt wird. zeigt als Marginaleffekt die Reaktion der Zielvariable auf eine marginale Veränderung der Einflussvariable. Je größer die Ausprägung von , desto größer der Einfluss. Ein negativer β Wert bedeutet, dass eine ansteigende Temperatur zu einem Umsatzrückgang von Speiseeis führt (ebd., S. 38). Ein solcher Kausalzusammenhang zwischen X und Y ist in der Regel nicht definitiv, sondern nur als Näherung gültig, da die Ausprägung von Y in der Realität von einer Vielzahl weiterer Faktoren abhängt. Dies bedeutet, dass in der Realität nie alle Datenpunkte exakt auf der Regressionsgerade liegen, sondern mehr oder weniger von dieser abweichen. Diese Streuung der Datenpunkte um den Funktionsgraphen herum wird durch den Fehlerterm berücksichtigt (Fahrmeir et al. 2009, S. 20). Somit wird dem Sachverhalt Rechnung getragen, dass unbekannte Einflüsse auf die Zielvariable Y einwirken könnten, die nicht aus einer Veränderung der Einflussvariable X resultieren (Urban & Mayerl 2011, S. 35). Durch die Verwendung der griechischen Symbolik in Bezug auf die Parameter α und β definiert die vorliegende Regressionsgleichung zunächst einen „wahren“ Zusammenhang. Das bedeutet, dass die Grundgesamtheit einer empirischen Regelmäßigkeit unterliegt. Diese Parameter sind in der Realität aber oftmals nicht bekannt. Abhilfe wird durch die Tatsache geschaffen, dass die Ergebnisse der Regressionsanalyse keine Resultate einer Berechnung, sondern einer Schätzung sind (Urban & Mayerl 2011, S. 40 ff.). Dieser Umstand wird nachfolgend in der Regressionsgleichung wiedergegeben, wobei aus den Parametern α und β die zu schätzenden sog. Regressionskoeffizienten „a“ und „b“ werden: = + + . Auch der Störterm wird zu U umgeschrieben. Wie im Vorfeld erklärt, führt nun die Berechnung der Regressionskoeffizienten a und b zur eindeutigen Identifikation der gesuchten Regressionsgeraden. Unter Annahme der Linearität des besagten Zusammenhangs, dass die zukünftig zu schätzenden Werte der Zielvariable ausschließlich von der Einflussvariable bestimmt werden, kann im weiteren Verlauf auf den Störterm U verzichtet werden. Zur Kennzeichnung, dass neben den Regressionskoeffizienten a und b, auch die Zielvariable aus einer Schätzung resultiert, wird aus Y der Schätzwert Ŷ. Dementsprechend erhalten wir folgende Gleichung: Ŷ = + . Das Regressionsverfahren ist also eine rechnerische Anpassung der Regressionsgeraden an gegebene Beobachtungswerte der Grundgesamtheit. Je enger die Schätzwerte Ŷ bei einem bestimmten X-Wert an den tatsächlich untersuchten Y- Werte liegen, desto näher wird die Regressionsgerade an den beobachteten Werten liegen (Urban & Mayerl 2011, S. 41). Die eigentliche Aufgabe liegt darin, die Regressionskoeffizienten a und b so zu bestimmen, dass der Abstand der Schätzwerte Ŷ und der beobachteten Werten Y möglichst klein ausfällt. Dieser Abstand ist zugleich eine Konsequenz des Störterms U, den es im Rahmen des Regressionsverfahrens zu minimieren gilt (ebd., S. 43). Diese Minimierung dient zur Optimierung der Zielfunktion. Bestimmt man nun a und b so, dass die Summe der Abweichungen, und somit der Störterm, minimiert wird, stößt man schnell auf ein Problem. Es besteht die Gefahr, dass eine positive Abweichung letztendlich durch eine negative Abweichung in gleicher Höhe kompensiert wird, sodass die Summe der Abweichung Null ergibt. Diese Gefahr resultiert aus den Vorzeichen der Abweichungen. Wenn die Summe der Abweichungen mit negativen Vorzeichen für sich genommen groß ist, aber gleichzeitig ebenso groß wie die Summe der Abweichungen mit positiven Vorzeichen, deutet dies fälschlicherweise auf einen Störterm von Null und damit auf eine verlässliche Approximation hin. Die einfachste und zugleich relativ alte Möglichkeit zur Lösung des Problems bietet der MAD. Der MAD steht für „Minimum Absolute Deviation“ auf Deutsch „minimale absolute Abweichungen“. Wie der Name erahnen lässt soll durch die Berücksichtigung aller Abweichungen im Betrag das Vorzeichenproblem behoben werden:[Abbildung in dieser Leseprobe nicht enthalten]. Bei dieser Methode werden kleine sowie sehr große Abweichungen gleich stark gewichtet werden, obwohl oftmals gerade Ausreißern eine signifikante Relevanz bei der Modellerstellung zugesprochen wird (Fahrmeir et al. 2009, S. 91). Zusätzlich ist eine Funktion im Betrag für den weiteren Verlauf der Vorgehensweise äußerst ungeeignet, da diese nicht doppelt differenzierbar ist. Zur Lösung dieser Problemstellung empfiehlt sich die „Ordinary Least Squares“-Methode (OLS-method), zu Deutsch „Kleinst-Quadrate-Methode“. Folgende Formel wird zur Minimierung des Störterms verwendet:[Abbildung in dieser Leseprobe nicht enthalten] Bei dieser Methode werden die einzelnen Abweichungen zunächst quadriert, bevor sie aufsummiert werden. Der Vorteil liegt darin, dass durch das Quadrieren der Abweichungen die Summe unverfälscht und unabhängig vom jeweiligen Vorzeichen dargestellt wird. Ebenfalls werden bei der OLS-Methode stärkere Abweichungen schwerer gewichtet als kleinere (Urban & Mayerl 2011, S. 45). Im weiteren Verlauf werden unter Anwendung der OLS-Methode die Regressionskoeffizienten a und b bestimmt, weswegen in der vorigen Gleichung der Schätzwert Ŷ durch den ihn beschreibenden Ausdruck ersetzt wird:[Abbildung in dieser Leseprobe nicht enthalten] Für die nun anstehende Schätzung der Regressionskoeffizienten muss die vorliegende Gleichung jeweils nach a sowie nach b abgeleitet und anschließend gleich Null gesetzt werden. Nach Vornahme der Operationen ergeben sich für [Abbildung in dieser Leseprobe nicht enthalten]und für[Abbildung in dieser Leseprobe nicht enthalten]Der Regressionskoeffizient a ist als Schnittpunkt der Regressionsgerade mit der[Abbildung in dieser Leseprobe nicht enthalten]Achse gleichzusetzen mit dem Mittelwert der Gesamtheit der beobachteten Y-Werte. B hingegen ist gleich der Summe der Produkte aller Xi und Yi Datenpaare, dividiert durch die Summe der quadrierten X-Werte und stellt den Anstieg der Geraden dar (Urban & Mayerl 2011, S. 46 ff.). In den meisten Fällen ist ein Merkmal jedoch nicht nur durch ein anderes Merkmal beeinflussbar, sondern durch eine Vielzahl an Merkmalen. Im vorher genannten Beispiel kann neben der „Temperatur in Grad Celsius“ beispielsweise auch die „Kalenderwoche“ einen Einfluss auf den „Umsatz von Speiseeis“ haben. Das bedeutet, dass die Anzahl der Einflussvariablen theoretisch auf unendlich erhöht werden kann. Ein solches Modell mit mehreren Einflussvariablen nennt man multiple lineare Regression. Die weiteren Einflussvariablen werden aufgrund der Begrenztheit des Alphabets weiterhin mit X inklusive einem individuellen Zahlenindex beschrieben (Bingham & Fry 2010, S. 2). Die anfangs dargestellte Formel wird durch k-beliebige weitere Einflussvariablen zu = +11 +⋯+ + erweitert. Hierbei steht Xki für den Wert der k-ten Einflussvariable für die i-te Beobachtung. Es ist wichtig zu erwähnen, dass die multiple Regressionsanalyse die Regressionskoeffizienten jeder Einflussvariable unter der Voraussetzung schätzt, dass der Einfluss der anderen Einflussvariablen auf die Zielvariable konstant bleibt, sodass der Regressionskoeffizient unabhängig vom zeitgleichen Einfluss der anderen Einflussvariablen geschätzt werden kann (Urban & Mayerl 2011, S. 81).
2.2 Die Güte der Prognose
In diesem Abschnitt werden einzelne Messzahlen für die Bestimmung des Prognosefehlers beschrieben und deren charakterisierende Unterschiede aufgezeigt. Der Prognosefehler, welcher letztendlich für die Prognosegüte einer Zielfunktion steht, gibt das Maß der Übereinstimmung der prognostizierten Werte zu den real eingetretenen Werten einer Zielvariable an.
[...]