Diese Arbeit beschäftigt sich mit der Bearbeitung und der Auswertung von Tick-Daten. Es geht hauptsächlich darum, die Rohdaten mithilfe von Funktionen zu bearbeiten, die im Anschluss auch für vergleichbare Datensätze wieder verwendet werden können. Unter anderem werden die Datenreihen harmonisiert, Ausreißer gelöscht und zusätzliche Daten errechnet.
Anschließend werden die Daten ausgewertet, graphisch präsentiert, Besonderhei-ten hervorgehoben sowie sonstige Fragen beantwortet.
Inhaltsverzeichnis
1. Motivation und Themenstellung
2. Theorie
2.1 Theorie zu Tick-Daten
2.2 Theorie zu ‚time sampling‘
2.2.1 Tick based time sampling
2.2.2 Calendar time sampling
2.2.3 Transcation based time sampling
3. Methodik
3.1 Vorgehensweise
3.2 Vorstellung der erstellten, generischen Funktionen
3.2.1 Funktionen zur Anpassung und Bereinigung des Datensatzes
3.2.2 Funktionen zur weiteren Bearbeitung und für zusätzliche Ergebnisse
4. Ergebnisse
5. Fazit und Zusammenfassung
6. Anhang
6.1 Verwendeter R-Code
Zielsetzung & Themen
Diese Arbeit widmet sich der automatisierten Bearbeitung und statistischen Auswertung von Tick-Daten mittels der Programmiersprache R. Ziel ist es, generische Funktionen zu entwickeln, die Rohdaten bereinigen, harmonisieren und für weiterführende Analysen aufbereiten, um so grundlegende Handelsmuster und Kennzahlen transparent zu machen.
- Entwicklung generischer R-Funktionen zur Datenbereinigung und Anpassung
- Methodik des ‚time sampling‘ bei Tick-Daten
- Deskriptive statistische Analyse von Kursen, Renditen und Spreads
- Untersuchung der Handelsaktivität und Transaktionsdauer im Zeitverlauf
Auszug aus dem Buch
3. Methodik
Nach der Theorie folgt nun die Beschreibung der Methodik. Zuerst wird die allgemeine Vorgehensweise der Datenbearbeitung beschrieben, im Anschluss werden die programmierten Funktionen vorgestellt; welchen Zweck erfüllen sie, welchen Besonderheiten haben sie und was muss man beachten.
3.1 Vorgehensweise
Ausgangspunkt des Projektes sind zwei Datenreihen mit Datum/Zeit und Bid bzw. Ask-preisen für jeden Tick über 6 Tage (175.964 bzw. 175.965 Beobachtungen) im .csv-Format. Damit kann man die später beschriebenen Funktionen für alle vergleichbaren Daten verwenden. Der erste Schritt muss folglich sein, die Daten in R einzulesen, die beiden Tabellen bezüglich ihrer Datumsspalte anzupassen (d.h. sicherstellen, dass in beiden Tabellen in jeder Zeile jeweils der gleiche Wert ist) und die gleiche Anzahl von Reihen in beiden Datensätzen zu erhalten. Hat man nun einen solchen Datensatz (3 Spalten: Datum, ask-price, bid-price) kann die weitere Verarbeitung folgen. Extreme Ausreißer sollen gelöscht, Mittelwerte sowie die Spreads zwischen Bid- und Ask-price eingefügt werden.
Ein weiteres Problem sind mehrere Zeilen mit genau derselben ‚Sekunde‘. Sollten mehrere Ticks pro Sekunde aufgetaucht sein, soll jeweils nur der letzte stehen bleiben. Nach der Theorie wird es dadurch begründet, dass nur der letzte Preis gültig ist, bis der nächste Tick eintritt.
Zusammenfassung der Kapitel
1. Motivation und Themenstellung: Einführung in die Zielsetzung der Datenbearbeitung und Auswertung von Tick-Daten zur Erstellung wiederverwendbarer Algorithmen.
2. Theorie: Kurze theoretische Einordnung von Tick-Daten sowie Erläuterung verschiedener Sampling-Methoden wie Tick, Calendar und Transaction based time sampling.
3. Methodik: Detaillierte Darstellung der Vorgehensweise bei der Datenbereinigung und Vorstellung der generischen Funktionen zur Anpassung und Bearbeitung der Datensätze.
4. Ergebnisse: Präsentation der statistischen Auswertung inklusive deskriptiver Statistik, grafischer Aufarbeitung der Spreads, Renditen und Transaktionshäufigkeiten.
5. Fazit und Zusammenfassung: Reflexion über die erreichten Ergebnisse, die Bestätigung theoretischer Annahmen und den Nutzen der entwickelten Funktionen für die weitere Datenexploration.
6. Anhang: Bereitstellung des vollständigen R-Codes, der zur Bearbeitung der Daten und zur Erstellung der Grafiken verwendet wurde.
Schlüsselwörter
Tick-Daten, R, Programmierung, Datenbereinigung, Time Sampling, Finanzmarktdaten, Algorithmen, Kursdaten, Rendite, Spread, Transaktionshäufigkeit, Statistik, Datenanalyse, Rohdaten, Handelsaktivität
Häufig gestellte Fragen
Worum geht es in dieser Arbeit grundsätzlich?
Die Arbeit beschäftigt sich mit der automatisierten Verarbeitung von Tick-Daten, um diese für statistische Analysen in der Programmiersprache R vorzubereiten.
Was sind die zentralen Themenfelder der Analyse?
Im Fokus stehen die Datenaufbereitung, die Berechnung von Finanzkennzahlen wie Renditen und Spreads sowie die Visualisierung von Handelsaktivitäten.
Was ist das primäre Ziel der Untersuchung?
Ziel ist die Erstellung generischer R-Funktionen, die eine robuste Bereinigung und Analyse von vergleichbaren Datensätzen ermöglichen.
Welche wissenschaftliche Methode kommt zur Anwendung?
Es werden methodische Schritte der Datenharmonisierung, Ausreißerbereinigung und statistische Standardmethoden wie deskriptive Analysen und Regressionen angewandt.
Was wird im Hauptteil der Arbeit behandelt?
Der Hauptteil gliedert sich in die theoretische Begründung der Methoden, die praktische Implementierung der R-Funktionen und die anschließende Ergebnisauswertung.
Welche Begriffe charakterisieren die Arbeit am besten?
Die Arbeit ist durch Begriffe wie Tick-Daten-Analyse, R-Programmierung, Datenbereinigung und Finanzmarktdaten charakterisiert.
Wie werden Ausreißer in den Daten behandelt?
Die Arbeit verwendet eine spezifische Funktion, die Werte löscht, welche ein definiertes Vielfaches des Mittelwertes überschreiten.
Warum spielt die Uhrzeit bei der Transaktionshäufigkeit eine wichtige Rolle?
Die Analyse zeigt, dass die Handelsaktivität zur Mittagszeit deutlich abnimmt, was auf das Verhalten der Marktteilnehmer zurückgeführt wird.
- Arbeit zitieren
- Jan Reichenberger (Autor:in), 2010, Bearbeitung und Auswertung von Tick-Daten, München, GRIN Verlag, https://www.hausarbeiten.de/document/174164