Letzte Änderung : 26.01.2025 00:21:13   


Code:132250
Modul:Data Mining 1
Module title:Data Mining 1
Version:1.0 (12/2009)
letzte Änderung: 09.11.2021
Modulverantwortliche/r: Prof. Dr.-Ing. ten Hagen, Klaus
k.tenhagen@hszg.de

angeboten in den 3 Studiengängen:
Informatik (M.Sc.) gültig ab Matrikel 2018
Informatik (M.Sc.) gültig ab Matrikel 2020
Informatik (M.Sc.) gültig ab Matrikel 2024

Modul läuft im:SoSe (Sommersemester)
Niveaustufe:Master
Dauer des Moduls:1 Semester
Status:Pflichtmodul
Lehrort:Görlitz
Lehrsprache:Deutsch

Workload* in SWS **
Semester
Zeit- std.ECTS-
Pkte
1
2
3
4

V
S
P
W
V
S
P
W
V
S
P
W
V
S
P
W
150
5
4.0

2
2
0
0


*Gesamtarbeitsaufwand pro Modul (1 ECTS-Punkt entspricht einem studentischen Arbeitsaufwand von 30 Zeitstunden)
**eine Semesterwochenstunde (SWS) entspricht 45 Minuten pro Woche

Selbststudienzeit in h
Angabe gesamt
davon
105
30
Vor- und Nachbereitung LV
30
Vorbereitung Prüfung
45
Sonstiges


Lehr- und Lernformen:Vorlesung, Seminar, Projektbearbeitung in der Gruppe

Um den Anschluss in der Vorlesung nicht zu verlieren ist es notwendig diese zuhause nachzubereiten. Dazu werden die aktuellen Folien im Anschluss an die Vorlesung zur Verfügung gestellt. Es ist sehr empfehlenswert, dabei auftretende Fragen in der Literatur oder auf dem Web zu recherchieren. Interessante Einsichten oder Fragen werden in den Konsultationen diskutiert.

Konsultationen für jede Gruppe (20 min pro Gruppe / 2 SWS bei 5 Gruppen)

  • Definition des Projektes

  • Vorstellung von Zwischenergebnissen

  • Besprechung des aktuellen Standes

  • Festlegung der Arbeiten für die nächste Woche


Selbstständige Arbeit (3 SWS) in der Gruppe oder individuell am Laptop zur Lösung des Forschungsaufgabe

Zur Vorbereitung auf die Projektverteidigung muss ein Beleg pro Gruppe als schriftlicher wissenschaftlich-technischer Bericht erstellt werden. Weiterhin muss die Präsentation für die Projektverteidigung erstellt werden.
Hinweise:Ein Beleg als wissenschaftlich-technischer Bericht pro Gruppe.
Die Ergebnisse des Projektes werden in einem Vortrag und eventueller Demonstration von 20 min mit 10 min Diskussion vorgestellt. Die Verteidigung ist öffentlich, weil ein Vortrag von einem Auditorium motivierender ist und Fragen von den anderen Studis erwünscht sind.
Der Beleg und die Verteidigung gehen mit gleichem Gewicht in die Note ein. Bei der Verteidigung werden die Präsentation und die Beantwortung der Fragen bewertet.
Zur Bewertung der individuellen Leistung in der selbstständigen Projektarbeit werden vertrauliche Beschreibungen der Gruppenmitglieder zu den einzelnen Beiträgen und deren Beurteilung herangezogen.


Prüfung(en)
Prüfung Prüfungsleistung als Beleg (PB)
 - 
100.0%



Lerninhalt: Im Modul Forschungsprojekt sind OLAP und Exploratory Data Analysis vorgestellt worden.
In diesem Modul wird nun Data Mining im Verhältnis zur Künstlichen Intelligenz, Maschinelles Lernen und Intelligenten Agenten diskutiert. Die vorgestellten Methoden werden durch Anwendungsbeispiele in realen Projekten illustriert. Im einzelnen werden behandelt:
Making decision under uncertainty, Data Warehousing, Bayesian Networks, Naive Bayes, Cross Validation, Clustering, z.B. K-means / medoids, Hierarchical Clustering, Nearest neighbor clustering, DBscan

Die aktuellen Projekte werden zu Beginn des Semesters definiert. Dabei werden Projektvorschläge der Studis berücksichtigt.

Lernergebnisse/Kompetenzen:
Fachkompetenzen:Die Studierenden vertiefen das im Bachelorstudium gewonnenes Basiswissen im Bereich der Informatik. Sie sind in der Lage, diese vertieften Erkenntnisse aus den Bereichen Datenbanken, Data Mining, Künstliche Intelligenz, Echtzeitprogrammierung, Betriebssysteme, Modellbildung etc für Ihre spezielle Profilbildung innerhalb der Masterausbildung anzuwenden und nutzbringend zu kombinieren.
Die Studierenden betrachten und diskutieren jenseits rein technischer Fragestellungen auch ökonomische, ökologische, soziale und rechtliche Aspekte. Während in den Modulen mit überwiegendem Vorlesungscharakter (Statistik, Intelligente Agenten...) bei denen die Erweiterung der diesbezüglichen Wissensbasis im Vordergrund steht, geht es in den Modulen mit Belegabschluss (Fortgeschrittene Datenbankkonzepte, Data Mining ...) insbesondere darum, dass die Studierenden dieses Wissen praktisch umsetzen, in die Lösungsfindung mit einbeziehen und ganzheitliche Lösungen entwickeln.
Am Ende des Moduls kann der Studi ein Data Warehouse entwerfen und implementieren. Er kann ein Bayes Net z.B. fuer die Diagnose, in Zusammenarbeit mit den Domain Experte skizzieren und Data Mining zur Parametrierung desselben implementieren. Er kann mit dem Naive Bayes z.B. ein adaptives SPAM Filter konstruieren. Er kann die Leistungsfähigkeit eines Klassifiers oder Entscheiders mit Cross Validation Methoden beurteilen. Er kann entscheiden, für welche Problemstellungen Klassifikation und Clustering Verwendung finden. Er kann Clustering Algorithmen auswählen, implementieren und kritisch bewerten.
Die Studierenden analysieren und abstrahieren technische Problemstellungen anhand bekannter und unbekannter Randbedingungen. Sie können einschätzen, wie der Lösungsraum aussieht (unlösbar - eindeutige Lösung - viele Lösungen) und aufbauend darauf Handlungsanweisungen ableiten. Sie entwerfen unter Verwendung bekannten Kreativitätsmethoden Problemlösungsansätze.
Die Studierenden sind in der Lage, die fachspezifischen wissenschaftlichen Methoden in sinnvoll prozessuraler Weise anzuwenden. Sie kennen die Möglichkeiten und insbesondere auch Grenzen der Methoden und nutzen dieses Wissen für eine differenzierte Beurteilung des gefundenen Problemlösungsansatzes. Studierende haben ein erhöhtes Vertrautheitsniveau mit den Methoden entwickelt, das es Ihnen erlaubt, mit hoher Flexibilität auch neue Aufgabenfelder zu erschließen.
Studierende sind sich in den Bereichen ihrer Spezialisierung des aktuellen Standes der Technik bewusst, können zukünftige Entwicklungstendenzen sinnvoll prognostizieren und entsprechende Problemstellungen ableiten.
Studierende besitzen in hinreichendem Umfang Wissensdrang und Neugier, um eigenständig umfassende Literaturrecherchen, die wissenschaftlichen Ansprüchen genügen, durchzuführen. Sie können die Ergebnisse dieser Recherchen systematisieren und aufbereiten, so dass sie für den Eigen- oder Fremdgebrauch verwendbar sind.
Fachübergreifende Kompetenzen:Studierende können die Ergebnisse ihrer Arbeit verständlich und nachvollziehbar darstellen und in angemessener Form verteidigen. Je nach Modul bezieht sich dies auf erworbenes Fachwissen (z.B. in mündlichen oder schriftlichen Prüfungen) oder auf erarbeitete umfassende Problemlösungen (z.B. bei Präsentationen zu Projekt- und Belegarbeiten). Studierende sind dazu fähig, Kritik an der Arbeit/den Lösungen zu rezipieren und für eine Lösungsverbesserung zu nutzen.
Studierende können in Kleingruppen effektiv zusammenarbeiten, um Aufgaben zu lösen. Neben ausgeprägter Teamfähigkeit besitzen sie Fähigkeiten zur Selbstorganisation und Konfliktlösung. Der Aspekt der Berücksichtigung der Interkulturalität ergibt sich quasi automatisch durch die grundsätzlich sehr heterogene Zusammensetzung der Studierendengruppen.
Studierende sind sich der speziellen Anforderungen und Verpflichtungen, die aus der Übernahme von Führungsaufgaben entstehen bewusst, und sind imstande diese auch zu übernehmen. Insbesondere sind sie fähig, in angemessener und konstruktiver Form Kritik zu üben, um das Arbeitsergebnis innerhalb einer Gruppenarbeit zu verbessern.
Es gibt in der modernen Informatik nur wenige Aufgaben, welche alleine erledigt werden können. Die meisten Aufgaben erfordern eine Zusammenarbeit in einer Gruppe und mit anderen Personen. In der Vergangenheit war die Hauptursache für das Scheitern einer Diplomarbeit fehlende Kompetenz im Bereich des Zeitmanagement. Bei einer Gruppenarbeit wird das zeitgerechte Erreichen des Ziels durch ein vorschnelles Verlassen auf die Anderen erschwert. Daher sollen im konsekutiven BS-MS die Studis in den folgenden Schritten zum Erwerb eine Kompetenz im Zeitmanagement und die Fähigkeit zur Übernahme von Verantwortung als Gruppe angeleitet werden:
a) Forschungsprojekt im BS als Gruppe
b) Mehrere parallele Belege im ersten Semester des MS als Gruppe
c) Mehrere parallele Belege im zweiten Semester des MS als Gruppe mit Abhängigkeiten zwischen den Gruppen
d) Forschungsprojekt im MS individuell oder als Gruppe
e) MS Arbeit individuell oder als Gruppe
Im zweiten Semester des MS haben viele Studis ein Niveau in der Beherrschung von Planungstechniken und Sozialkompetenz erreicht, welche es ermöglichen, das eine Gruppe die Ergebnisse einer anderen Gruppe im selben Semester verwendet. Dazu müssen die einzelnen Gruppen die Bearbeitung ihrer Projekte gemeinsame planen und dann den gruppenuebergreifenden Plan durchhalten. Die Personalkompetenzen wir Eigeninitiative, Zielorientierheit und Durchhaltevermögen werden in diesen Stufen entwickelt, um dann in der MS Arbeit eine wissenschaftliche Fragestellung basierend auf den Ergebnissen anderen in einer Forschergruppe zu bearbeiten.
Ein wichtige Aufgabe diese Moduls es Leistungsbereitschaft, Selbstmotivation und Zielorientierung zu entwickeln, um dann im ersten Semester des MS mehrere Projekt in verschiedenen Fächern gleichzeitig zu bearbeiten.
Die Verteidigung dient mit Präsentation und Verteidigung vor dem Matrikel der Entwicklung der Präsentationstechniken und der Kommunikationsfähigkeit vor einer größeren Gruppe.
Absolventen können rationale und ethisch begründete Entscheidungen in einem komplexen Umfeld mit teilweise neuen und/oder unbekannten Einflussgrößen treffen sowie kritisch denken, um innovative und effektive Lösungen für fachübergreifende, qualitative und quantitative Probleme zu finden (kritisches Denken, ergebnisorientiertes Handeln).
Studierende sind in der Lage, Wissen aus sehr unterschiedlichen Gebieten zu vernetzen, um komplexe Problemstellungen zu analysieren, zu bewerten und Lösungsansätze zu entwickleln. Dabei gehen sie systematisch und methodisch vor. Sie begründen und beurteilen ihre gefundenen Lösungsansätze, sind aber gleichzeitig fähig, berechtigte Kritik Dritter in ihre Beurteilung mit einzubeziehen.

Notwendige Voraussetzungen für die Teilnahme:Das Modul ist für das erste Semester des MS konzipiert und verlangt daher Kenntnisse und Kompetenz aus verschiedenen Bereichen der Informatik um ein Projekt erfolgreich zu bearbeiten. Kenntnisse aus dem Bereich der Algorithmen und Datenstrukturen sind unverzichtbar. Gute Kenntnisse und praktische Handlungskompetenz in OOA und OOP sind von großer Bedeutung. Kenntnisse in Datenbanken und SQL
Empfohlene Voraussetzungen für die Teilnahme:Verteilte Systeme, Betriebssystem insbesondere UNIX

Literatur:

  • “Introduction to Data Mining” von Pang-Ning Tan, Michael Steinbach und Vipin Kumar

  • „Exploratory Analysis of Spatial and Temporal Data“ von Natalia Andrienko und Gennady An-drienko

  • “Data Preparation for Data Mining” von Dorian Pyle

  • „Principle of Data Mining“ von David Hand, Heikki Mannila und Padhraic Smyth

  • “Bayesian Networks and Decision Graphs” von Finn V. Jensen

  • “Data Mining: Concepts and Techniques” von Jiawei Han und Micheline Kamber