Die nachfolgende Arbeit hebt die aktuelle Problematik von Forschenden hervor, dessen Forschung sich auf die algorithmische Analyse von großen Textbeständen stützt. Das einleitende Kapitel der Ausarbeitung beschäftigt sich mit dem Urheberrecht und gibt einen Einblick über die Berührungspunkte zwischen Forschung und Urheberrecht. Es beleuchtet die aktuelle Rechtsgrundlage und die damit einhergehende Problematik für Forschende. Insbesondere wird der rechtskonforme Zugang zu geschützten Werken hervorgehoben. Im Zentrum dessen steht die Thematik der abgeleiteten Textformate.
Daraufhin stellt das dritte Kapitel die methodische Grundlage der Ausarbeitung in den Vordergrund. Es verschafft einen Überblick über den Untersuchungsgegenstand und beleuchtet das Vorgehen sowie die Strategie zur Evaluierung der Forschungsergebnisse. Das darauffolgende Kapitel stellt die algorithmische Umsetzung der Transformation des Originals zu einem abgeleiteten Textformat vor. Die Transformierung unterteilt sich hierbei in zwei Schritte: Im ersten Schritt wird der Text unter der Verwendung der Python-Bibliothek "NLTK" vorverarbeitet. Im zweiten Schritt erfolgt die Umwandlung in ein abgeleitetes Textformat unter der Verwendung der Python-Bibliothek "Spacy".
Das fünfte Kapitel stellt einen Algorithmus aus dem Bereich des maschinellen Lernens vor. Die Ergebnisse des Algorithmus dienen als Indikator, um die Verfälschung von Forschungsergebnissen im Kontext von abgeleiteten Textformaten zu ermitteln. Unter der Verwendung des Algorithmus kann das Sentiment des Originaltextes ermittelt werden, dieses dient als Referenz für das erhobene Sentiment der transformierten Texte. Unter Einbezug des Originals kann somit für jedes abgeleitete Textformat im Anschluss der Grad der Verfälschung anhand der Differenz zum Original ermittelt werden. In den letzten Kapiteln werden die Ergebnisse der Sentimentanalyse zusammengefasst und diskutiert.
Im Anschluss erfolgt das Fazit. Die nachfolgende Arbeit soll die Verfälschung von Forschungsergebnissen im Kontext von abgeleiteten Textformaten im Rahmen einer Sentimentanalyse untersuchen.
Inhaltsverzeichnis
- Einleitung
- Überblick UrhG
- UrhG Allgemein
- Relevanz UrhG in der Forschung
- Relevante Schranken
- Nachteile für die Forschung
- Potenzielle Alternativen
- Zusammenfassung
- Methodik
- Erstellung abgeleiteter Textformate
- Bereinigung
- Stemming
- Transformation in abgeleitete Textformate
- Vergleich
- Machine Learning
- Import
- Vorverarbeitung
- Aufbau des Modells
- Eigener Input
- Zusammenfassung der Ergebnisse
- Fazit
Zielsetzung und Themenschwerpunkte
Die Arbeit befasst sich mit der Problematik von Forschenden, die auf algorithmische Analysen von großen Textbeständen angewiesen sind. Dabei stehen die rechtlichen Rahmenbedingungen des Urheberrechts (UrhG) im Fokus, insbesondere im Hinblick auf den Zugang zu geschützten Texten und die Erstellung von abgeleiteten Textformaten.
- Das Urheberrecht im Kontext der wissenschaftlichen Forschung
- Die Herausforderungen des Zugangs zu geschützten Werken
- Relevante Schranken im UrhG, insbesondere Text und Data Mining
- Die methodische Vorgehensweise bei der algorithmischen Transformation von Texten
- Die Anwendung maschinellen Lernens zur Ermittlung von Verfälschungen in abgeleiteten Textformaten
Zusammenfassung der Kapitel
- Einleitung: Dieses Kapitel führt in die Problematik des Urheberrechts im Kontext der wissenschaftlichen Forschung ein und stellt die Relevanz von abgeleiteten Textformaten für die Analyse großer Textbestände heraus.
- Überblick UrhG: Dieses Kapitel beleuchtet die Grundzüge des deutschen Urheberrechtsgesetz (UrhG) und seine Relevanz für die wissenschaftliche Forschung. Es werden verschiedene Schranken des UrhG im Zusammenhang mit Text und Data Mining behandelt, sowie die Nachteile für die Forschung im Hinblick auf die Veröffentlichung von Ergebnissen.
- Methodik: Dieses Kapitel beschreibt die methodische Vorgehensweise der Ausarbeitung, die sich auf die algorithmische Transformation von Texten fokussiert.
- Erstellung abgeleiteter Textformate: Dieses Kapitel erläutert die algorithmische Transformation von Texten in abgeleitete Formate unter Verwendung von Python-Bibliotheken wie 'NLTK' und 'Spacy'.
- Machine Learning: Dieses Kapitel präsentiert einen Algorithmus aus dem Bereich des maschinellen Lernens, der zur Ermittlung von Verfälschungen in abgeleiteten Textformaten eingesetzt wird.
Schlüsselwörter
Die Arbeit befasst sich mit den Schlüsselbegriffen Urheberrecht, Text und Data Mining, algorithmische Analyse, abgeleitete Textformate, maschinelles Lernen, Sentimentanalyse, Verfälschung von Forschungsergebnissen, und die Relevanz dieser Themen für die wissenschaftliche Forschung.
- Quote paper
- Aleksej Woratsch (Author), 2021, Abgeleitete Textformate als alternativer, rechtskonformer Zugang. Wie wirkt sich die Manipulation eines Textes auf die Forschungsergebnisse aus?, Munich, GRIN Verlag, https://www.hausarbeiten.de/document/1259056