Diese Arbeit beschäftigt sich mit der Frage, ob und wie Autoren wissenschaftlicher Texte mit Hilfe von Graphzentralitäten auf einem Autor-Zitate Netzwerk bewertet werden können. Dabei liegt der Fokus auf dem Vergleich verschiedener Zentralitäten untereinander, sowie zu anderen auf diesem Gebiet durchgeführten Untersuchungen.
Inhaltsverzeichnis
1. Einführung
2. Grundlagen
2.1. Graphen
2.2. Autor-Zitate Netzwerke
2.3. h-Index
2.4. Zentralität
3. Data Mining
3.1. Konferenzen
3.2. Datenquellen
3.3. Implementierung
3.4. Eindeutigkeit von Namen
4. Anwendung
4.1. Bewertung von Knoten
4.2. Bewertung von Autoren
5. Fazit
5.1. Probleme
5.2. Ansätze für Distanzsumme & Exzentrizität
6. Literaturverzeichnis
6.1. Referenzliste
A. Anhang
A.1. CD-Inhalt
A.2. Tabellen und Diagramme
Zielsetzung & Themen
Die Arbeit untersucht, ob und wie Graphzentralitäten in Autor-Zitate-Netzwerken zur Bewertung der wissenschaftlichen Relevanz von Publikationen und Autoren herangezogen werden können, um bestehende Defizite gängiger Metriken wie dem h-Index auszugleichen.
- Analyse und Vergleich verschiedener Graphzentralitätsmaße.
- Datengewinnung aus wissenschaftlichen Portalen wie Springerlink und ACM.
- Evaluierung der Eignung von Betweenness, Distanzsumme, PageRank und weiteren Kennzahlen.
- Kritische Diskussion der Problematik von Namens-Eindeutigkeit und Zitat-Kontext.
- Methodische Ansätze zur Autoren-Bewertung abseits des h-Index.
Auszug aus dem Buch
2.4.1. Betweenness
Die Betweenness, auch Shortest Path Betweenness Centrality, ist ein Maß, welches diejenigen Knoten als wichtig ansieht, über die, unter der Annahme, dass Informationen im Graphen gleichmäßig von und zu allen Knoten fließen, viele Informationen fließen. Konkret betrachtet man dazu die Anzahl der kürzesten Pfade, in denen ein Knoten v vorkommt. Dieses Verfahren wurde in den 1970er Jahren von Anthonisse und Freeman eingeführt [4, 5]. Heute ist Betweenness in der Analyse sozialer Netzwerke weit verbreitet.
Die Betweenness CB(v) eines Knoten v ∈ V ist definiert durch die Abbildung CB : V → R≥0 mit CB(v) = Σ (s≠v≠t∈V) σs,t(v) / σs,t, wobei gilt: σs,t(v): Die Anzahl der kürzesten Pfade von s nach t, die durch v verlaufen. σs,t = max{Die Anzahl der kürzesten Pfade von s nach t, 1}.
Häufig werden diese Werte noch normalisiert. Dazu dividiert man sie durch die Anzahl der möglichen Paare aller Knoten aus V \ {v}. Also konkret (n − 1)(n − 2) für gerichtete und (n−1)(n−2)/2 für ungerichtete Graphen. Auf Grund des geringen Vernetzungsgrades in den von dieser Arbeit untersuchten Graphen (siehe Kapitel 4.1) haben wir die Betweenness-Werte nicht normalisiert.
Zusammenfassung der Kapitel
1. Einführung: Die Einleitung motiviert die Problematik bestehender Bewertungssysteme wie des h-Index und skizziert die Zielsetzung, Graphzentralitäten als alternative Bewertungsmetriken für Publikationen und Autoren zu untersuchen.
2. Grundlagen: Dieses Kapitel führt die theoretischen Basisbegriffe der Graphentheorie, Autor-Zitate-Netzwerke sowie die untersuchten Zentralitätsmaße (Betweenness, Distanzsumme, Eigenvektor-Zentralität, etc.) ein.
3. Data Mining: Es wird der Prozess der Datengewinnung von Plattformen wie Springerlink und ACM sowie die Herausforderungen bei der Bereinigung der Daten und der Eindeutigkeit von Autorennamen beschrieben.
4. Anwendung: Die praktische Anwendung der Zentralitätsmaße auf die Datensätze der untersuchten Konferenzen (GD, STOC, SODA) wird dokumentiert und die Ergebnisse werden mit etablierten Metriken verglichen.
5. Fazit: Das Fazit fasst die Ergebnisse zusammen, diskutiert generelle Probleme der Zitatanalyse wie den Matthäus-Effekt und formuliert Ansätze für zukünftige Forschungsarbeiten.
6. Literaturverzeichnis: Hier werden alle in der Arbeit verwendeten Quellen sowie die gesondert betrachteten Referenzpublikationen aufgelistet.
A. Anhang: Der Anhang enthält technische Details zum Programm, Anleitungen zur Konfiguration sowie detaillierte statistische Tabellen und Korrelationsmatrizen.
Schlüsselwörter
Graphzentralität, Autor-Zitate-Netzwerke, Betweenness, h-Index, Bibliometrie, Data Mining, Zitationsanalyse, PageRank, wissenschaftliche Bewertung, Netzwerkanalyse, Informatik, Springerlink, ACM, Publikationsmetriken, Konferenzpublikationen.
Häufig gestellte Fragen
Worum geht es in dieser Bachelorarbeit grundsätzlich?
Die Arbeit untersucht die Eignung von verschiedenen Graphzentralitätsmaßen, um die wissenschaftliche Bedeutung von Publikationen und Autoren in Zitationsnetzwerken besser abzubilden als bisherige Indizes.
Was sind die zentralen Themenfelder der Analyse?
Die Arbeit kombiniert graphentheoretische Grundlagen mit Data-Mining-Prozessen, um Zitationsgraphen zu erstellen und diese mittels mathematischer Zentralitätsmaße hinsichtlich ihrer Relevanz zu evaluieren.
Was ist das primäre Ziel oder die Forschungsfrage?
Das Ziel ist die Identifikation von Alternativen zum weit verbreiteten h-Index, um die Schwächen bei der Bewertung von Autoren oder Publikationen, die durch die reine Zitationshäufigkeit entstehen, auszugleichen.
Welche wissenschaftlichen Methoden werden verwendet?
Es werden verschiedene Methoden der Graphenzentralität angewendet, darunter Betweenness, Closeness (Distanzsumme), Eigenvektor-Zentralität, PageRank sowie die HITs-Algorithmen.
Was wird im Hauptteil der Arbeit behandelt?
Der Hauptteil umfasst die Datenerhebung von Konferenzpublikationen, die technische Implementierung der Analyse, die Anwendung der Zentralitätsmaße auf die Graphen und einen detaillierten Vergleich mit dem h-Index und dem PageRank.
Welche Schlüsselwörter charakterisieren die Arbeit?
Zu den wichtigsten Begriffen gehören Graphzentralität, Autor-Zitate-Netzwerke, Betweenness, h-Index, Zitationsanalyse und Publikationsmetriken.
Warum ist der h-Index laut Autor nur bedingt geeignet?
Der h-Index wird durch die Anzahl der veröffentlichten Arbeiten begrenzt und benachteiligt insbesondere Wissenschaftler, die sich noch am Anfang ihrer Karriere befinden.
Welche Rolle spielt die Betweenness-Zentralität im Vergleich zum h-Index?
Die Betweenness kann wichtige Arbeiten identifizieren, die als Brücke zwischen verschiedenen Forschungsgebieten fungieren, auch wenn diese selbst keine hohe Zitationszahl im Sinne des h-Index vorweisen.
Was ist das Problem bei der Eindeutigkeit von Autorennamen?
Das Problem sind inkonsistente Schreibweisen (z.B. Abkürzungen oder Sonderzeichen) in den Quelldaten von Portalen wie Springerlink, welche ohne E-Mail-Adressen nur schwer automatisch korrigiert werden können.
- Quote paper
- Malte Landwehr (Author), 2011, Graphzentralität in Autor-Zitate Netzwerken, Munich, GRIN Verlag, https://www.hausarbeiten.de/document/178620