Neben den vielen Jobportalen, die als Datenbanken funktionieren, wo Informationen wie Branche, Jobart oder Qualifikationen manuell eingegeben werden, gibt es auch Jobsuchdienste, die das Web durchsuchen, relevante Informationen extrahieren und sie automatisch klassifizieren. Die Klassifizierung erhöht die Wahrscheinlichkeit dem Benutzer präzise und seinen Ansprüchen adäquate Informationen zu liefern. Die extrahierten Informationen zu klassifizieren ist oft ein kompliziertes Unterfangen. Die Jobanzeigen sind meistens nicht kategorisiert oder so kategorisiert, dass die Kategorie nicht ermittelt und die Anzeige nicht zugeordnet werden kann. Nicht zuletzt liegt das Problem an den Suchdiensten selbst. Viele von ihnen gehören zu den Suchdiensten der ersten Generation, die auf der Volltextsuche ohne semantisch-syntaktisch-orthografische Analyse basieren und keine Gegebenheiten der Jobwelt berücksichtigen.
Die vorliegende Arbeit greift das Problem der Information Extraktion basierten Textklassifikation auf und strebt die Erstellung des semiautomatischen Algorithmus für die Stellenanzeigenklassifikation nach vorgegebenen Jobsektoren an.
Im theoretischen Teil der Arbeit werden Jobsektoren analysiert, Verfahren der Textklassifikation, Kontexterstellung und Lexikonbootstrapping mithilfe von lokalen Grammatiken besprochen sowie ein konkreter Lösungsansatz dargestellt, der auf der semantisch-syntaktischen Analyse von Stellenanzeigen mithilfe von Korpusbearbeitungstool UNITEX basiert.
Im praktischen Teil der Arbeit wird ein Verfahren zur semiautomatischen Textklassifikation dargestellt. Es werden Informationen über Textkorpora gegeben, einzelne Preprozessing-Schritte erläutert, lokale Grammatiken von Stellenanzeigen präsentiert, Seedlisten von Fachtermini beschrieben sowie der Lernprozess erklärt.

Excerpt

Inhaltsverzeichnis

1 Einführung

2 Jobsektoren

2.1 Begriffsdefinition

2.2 Klassifikation der Jobsektoren

3 Theoretische Grundlage

3.1 Verfahren zur Textkategorisierung

3.2 Lokale Grammatiken

4 Algorithmus zur Stellenanzeigeklassifikation

5 Preprozessing von Stellenanzeigen

5.1 Korpora

5.2 Normalisierung

5.3 Graphenbeschreibung

6 Deskriptorenlisten

7 Präzision- Recall Werte

8 Fazit

9 Literaturverzeichnis

9.1 Fachliteratur und Artikel

9.2 Internetlinks

10 Anhang

10.1 Zuordnung der Berufsfelder zu der Jobsektoren

10.2 Extrahierte Deskriptoren nach den Jobsektoren

Zielsetzung & Themen

Das Hauptziel dieser Arbeit besteht in der Entwicklung eines semiautomatischen Algorithmus zur automatischen Klassifikation von Stellenanzeigen nach vorgegebenen Jobsektoren. Die Forschungsfrage fokussiert sich darauf, wie durch semantisch-syntaktische Analyse mittels Informationsextraktion relevante Jobdeskriptoren identifiziert werden können, um eine präzise Zuordnung zu Branchen oder Berufsfeldern zu ermöglichen.

Informationsextraktion basierte Textklassifikation
Einsatz von lokalen Grammatiken zur Kontextanalyse
Verwendung von Bootstrapping-Methoden zur Wörterbucherstellung
Semiautomatischer Lernprozess mit Administrator-Feedback
Graduelle Klassifikation durch Punktesystem

Auszug aus dem Buch

3.2 Lokale Grammatiken

Lokale Grammatiken sind die empirische Herangehensweise an die Sprache, wobei man alle sprachlichen Phänomene mithilfe von endlichen Automaten beschreibt. Der Termin lokale Grammatiken wurde von Maurice Gross eingeführt. Unter lokalen Grammatiken versteht man die bestimmten „lokalen“ Phänomene, die nicht mithilfe von globalen syntaktischen Regeln beschrieben werden können.

Maurice Gross arbeitete 1975 an der Erstellung einer Lexikongrammatik. Das Ziel seines Vorhabens zielte darauf ab, syntaktische Eigenschaften aller französischen Verben zu erarbeiten sowie für jedes Verb ein exaktes Satzschema aufzustellen. Auf der Grundlage einer Forschung, in der eine Gruppe von Linguisten mehr als 400 Eigenschaften von 12.000 Verben analysiert hat, kam Gross zu einem bahnbrechenden Ergebnis, dass das syntaktische Paradigma von jedem einzelnen Verb einzelartig ist. Daher plädierte er für einen neuen Grammatikformalismus, für die Theorie der lokalen Grammatiken, die mit endlichen Automaten darstellbar sind.

Nach Maurice Gross sind sie einerseits die Wiedererweckung von endlichen Markov Automaten für die Beschreibung von der Sprache, aber diese Automaten beabsichtigen keine globale Beschreibung von der Sprache sondern strikt die lokalen Phänomena. „In this perspective, the global nature of language results from the interaction of a multiplicity of local finite-state schemes which we call finite-state local automata“. In seiner Arbeit “The Construction of Local Grammars” versucht Maurice Gross eine Grammatik von der Börse-Domäne zu erstellen, weil der Domänenwortschatz und die benutzten Konstruktionen von limitierter Natur zu sein scheinen. Laut Harris charakterisieren sich die Sprachdomänen (z.B. Sprache der Stellenanzeigen, Finanznachrichten oder Arztdiagnosen) durch eine limitierte Anzahl von Ambiguitäten sowie durch gewisse Regularitäten und Strukturen, die für Computerbearbeitung von Vorteil sind.

Zusammenfassung der Kapitel

1 Einführung: Diese Einleitung stellt die Problematik der automatischen Stellenanzeigenklassifikation dar und definiert die Zielsetzung der Arbeit, ein semiautomatisches System basierend auf Informationsextraktion zu entwickeln.

2 Jobsektoren: Das Kapitel definiert den Begriff Jobsektoren im Kontext der Arbeit und legt die detaillierte Klassifikation der in der Analyse verwendeten Sektoren fest.

3 Theoretische Grundlage: Hier werden die theoretischen Ansätze der Textkategorisierung diskutiert sowie die Methode der lokalen Grammatiken nach Maurice Gross als zentrales Werkzeug eingeführt.

4 Algorithmus zur Stellenanzeigeklassifikation: Dieses Kapitel erläutert den implementierten Algorithmus, der auf Trainingskorpora basiert und die Extraktion relevanter Deskriptoren durchläuft.

5 Preprozessing von Stellenanzeigen: Hier wird die Vorverarbeitung der Daten, die Normalisierung sowie die Modellierung der sprachlichen Daten mittels Graphen für UNITEX beschrieben.

6 Deskriptorenlisten: Das Kapitel präsentiert und analysiert ausgewählte Deskriptorenlisten für spezifische Branchen wie Banken, Baugewerbe und IT.

7 Präzision- Recall Werte: Hier erfolgt die quantitative Evaluation des Systems anhand der klassischen Gütemaße Recall, Präzision und F-Mittel basierend auf den Testergebnissen.

8 Fazit: Das Fazit fasst die Ergebnisse zusammen, bewertet die Leistungsfähigkeit des Algorithmus und zeigt mögliche Ansätze für zukünftige Verbesserungen auf.

9 Literaturverzeichnis: Umfassende Auflistung der verwendeten Fachliteratur, Artikel und Internetressourcen.

10 Anhang: Enthält die vollständige Zuordnung der Berufsfelder zu den Jobsektoren sowie die detaillierten Deskriptorenlisten.

Schlüsselwörter

Stellenanzeigenklassifikation, Jobsektoren, Informationsextraktion, Lokale Grammatiken, UNITEX, Supervised Learning, Bootstrapping, Textkategorisierung, Jobdeskriptoren, Sprachdomänen, Wissensbasierte Verfahren, Informatik, Automatisierung, Präzision, Recall.

Häufig gestellte Fragen

Worum geht es in dieser Arbeit grundsätzlich?

Die Diplomarbeit befasst sich mit der Entwicklung eines semiautomatischen Algorithmus zur automatischen Klassifikation von Stellenanzeigen in verschiedene Jobsektoren mittels computerlinguistischer Verfahren.

Was sind die zentralen Themenfelder?

Die zentralen Themen sind die Informationsextraktion aus Texten, die Nutzung von lokalen Grammatiken zur Kategorisierung und die praktische Anwendung dieser Verfahren zur Strukturierung von Jobdatenbanken.

Was ist das primäre Ziel oder die Forschungsfrage?

Das Ziel ist die Erstellung eines Algorithmus, der durch semantisch-syntaktische Analyse und das Extrahieren von Jobdeskriptoren Stellenanzeigen präzise ihren jeweiligen Branchen zuordnet.

Welche wissenschaftliche Methode wird verwendet?

Die Arbeit nutzt Methoden des Supervised Learning, die Implementierung lokaler Grammatiken über das Tool UNITEX sowie Bootstrapping-Verfahren zur automatischen Erweiterung von Wörterbüchern.

Was wird im Hauptteil behandelt?

Der Hauptteil behandelt die theoretischen Grundlagen, die Beschreibung der Vorverarbeitungsschritte (Preprocessing), die graphbasierte Modellierung der Kontexte sowie die Analyse der extrahierten Deskriptoren für verschiedene Sektoren.

Welche Schlüsselwörter charakterisieren die Arbeit?

Charakteristische Begriffe sind Stellenanzeigenklassifikation, Lokale Grammatiken, Informationsextraktion, Jobsektoren und Supervised Learning.

Wie unterscheidet sich dieser Ansatz von klassischen Suchdiensten?

Im Gegensatz zu Suchdiensten der ersten Generation, die nur Volltextsuche nutzen, verwendet dieser Ansatz eine semantisch-syntaktische Analyse, um die spezifischen Strukturen und Regularitäten der Domäne "Stellenanzeigen" zu berücksichtigen.

Warum spielt der Administrator eine wichtige Rolle im Lernprozess?

Der Administrator ist notwendig, um die automatische Extraktion von Deskriptoren in der Trainingsphase zu validieren (akzeptieren oder ablehnen), was die Qualität der Klassifizierung maßgeblich steigert.

Wie wird die Qualität der Klassifizierung bewertet?

Die Bewertung erfolgt durch die klassischen Metriken Präzision (Genauigkeit der Klassifizierung), Recall (Vollständigkeit) und das daraus berechnete F-Mittel zur Messung der Gesamteffektivität.

Excerpt out of 64 pages - scroll top

Details

Title: Supervised Learning Algorithmus für Stellenanzeigenklassifikation und Jobdeskriptoren Gewinnung
College: LMU Munich (Centrum für Informations- und Sprachverarbeitung)
Course: Computerlinguistik, Information Extraktion, Informatik
Grade: 1,3
Author: M.A. Pawel Broda (Author)
Publication Year: 2011
Pages: 64
Catalog Number: V184482
ISBN (eBook): 9783656093046
ISBN (Book): 9783656093336
Language: German
Tags: computerlinguistik information extraktion lokale grammatiken textklassifikation textklassifizierung text klassifikation text klassifizierung stellenanzeigen klassifikation informatik informatik linguistik
Product Safety: GRIN Publishing GmbH

Quote paper: M.A. Pawel Broda (Author), 2011, Supervised Learning Algorithmus für Stellenanzeigenklassifikation und Jobdeskriptoren Gewinnung, Munich, GRIN Verlag, https://www.hausarbeiten.de/document/184482

Supervised Learning Algorithmus für Stellenanzeigenklassifikation und Jobdeskriptoren Gewinnung