The automatic Named Entity Recognition and Classification (NERC) is an important sub task of the information extraction of texts, whose fundamental properties are the choice of the considered feature
space, the applied learning techniques as well as the evaluation of existing systems. The goal of this work is to discuss these aspects, to compare existing approaches to NERC and to classifiy those regarding
their potential.
----------
Die maschinelle Erkennung von Eigennamen - Named Entity Recognition and Classification (NERC) -ist ein wichtiges Teilfeld der Informationsextrahierung aus Texten, dessen wesentliche Bestandteile die Wahl des betrachteten Eigenschaftenraumes, die eingesetzten Lerntechniken sowie die anschließende Evaluation bestehender Systeme sind. Diese Studienarbeit hat zum Ziel, diese Aspekte zu erörtern sowie existierende Herangehensweisen zur Eigennamenerkennung gegeneinander abzuwägen und hinsichtlich ihres Potentials zu bewerten.
Inhaltsverzeichnis
- Introduction
- Scope of this Work
- Applications of NERC
- Type, Domain and Language Factors
- NERC Evaluation
- Ways of Evaluation
- MUC Evaluations
- Exact-match Evaluations
- Evaluation Metrics
- Features for NERC
- List lookup features
- Document and corpus features
- Short Example
- Overview of NERC Systems
- Supervised Learners
- Baseline Approach
- Maximum Entropy Approach
- Semi-Supervised Learners
- Unsupervised Learners
- Augmenting Ontologies
- Generating Gazetteers and Resolving Ambiguity
Zielsetzung und Themenschwerpunkte
Diese Studienarbeit befasst sich mit der maschinellen Erkennung von Eigennamen (Named Entity Recognition and Classification, NERC), einem wichtigen Teilbereich der Informationsextrahierung aus Texten. Die Arbeit untersucht die Auswahl des Merkmalsraums, die eingesetzten Lerntechniken und die Evaluation bestehender Systeme. Das Ziel ist es, diese Aspekte zu diskutieren, bestehende Ansätze zur Eigennamenerkennung zu vergleichen und hinsichtlich ihres Potentials zu bewerten.
- Automatische Erkennung von Eigennamen (NERC) in Texten
- Evaluierung von NERC-Systemen
- Merkmale für die Eigennamenerkennung
- Überblick über verschiedene NERC-Systeme: Überwachte, semi-überwachte und unüberwachte Lernverfahren
- Vorteile und Nachteile bestehender NERC-Systeme und -techniken
Zusammenfassung der Kapitel
- Kapitel 1: Einführung - Die Arbeit konzentriert sich auf die maschinellen Lernverfahren für NERC, darunter überwachte, semi-überwachte und unüberwachte Klassifikatoren. Die Auswahl der Merkmale für die Kodierung von Eingabedokumenten und die Evaluierung von NERC-Systemen werden ebenfalls behandelt.
- Kapitel 2: NERC-Evaluierung - Verschiedene Evaluierungsansätze werden vorgestellt, darunter MUC-Evaluierungen und exakte Übereinstimmungen. Außerdem werden die wichtigsten Metriken für die Evaluierung von NERC-Systemen erläutert.
- Kapitel 3: Merkmale für NERC - Die Verwendung von Listen-Suchfunktionen, Dokumenten- und Korpusmerkmalen sowie ein kurzes Beispiel für die Merkmalsextraktion werden diskutiert.
- Kapitel 4: Überblick über NERC-Systeme - Die Arbeit behandelt verschiedene Ansätze für NERC-Systeme, darunter überwachte Lernverfahren (z.B. Baseline- und Maximum-Entropy-Ansatz), semi-überwachte Lernverfahren und unüberwachte Lernverfahren (z.B. Erweiterung von Ontologien und Generierung von Gazetteers).
Schlüsselwörter
Named Entity Recognition, Named Entity Classification, Informationsextrahierung, maschinelles Lernen, überwachte Lernverfahren, semi-überwachte Lernverfahren, unüberwachte Lernverfahren, Merkmale, Evaluation, MUC-Evaluierung, exakte Übereinstimmung, Metriken.
- Quote paper
- Dominic Scheurer (Author), 2011, Named Entity Recognition - Techniques and Evaluation, Munich, GRIN Verlag, https://www.hausarbeiten.de/document/190582