Was bedeutet Data Mining
Data Mining ist der Prozess der Analyse eines Datensatzes, um Erkenntnisse zu gewinnen. Sobald die Daten im Data Warehouse (siehe auch Data Warehouse Seminare) gesammelt sind, beginnt der Data-Mining-Prozess und umfasst alles von der Bereinigung der Daten von unvollständigen Datensätzen bis zur Erstellung von Visualisierungen der Ergebnisse. Data Mining wird in der Regel mit der Analyse der großen Datensätze aus den Bereichen Big Data (siehe Big Data Schulung) , maschinelles Lernen und künstliche Intelligenz in Verbindung gebracht. Der Prozess sucht nach Mustern, Anomalien und Assoziationen in den Daten mit dem Ziel, Werte zu extrahieren. Im Fall von selbstfahrenden Autos könnten Datenassoziationen zum Beispiel dabei helfen, Fahraktionen zu identifizieren, die mit höherer Wahrscheinlichkeit zu Unfällen führen. Zu den sechs Kernschritten des Data-Mining-Prozesses gehören die Erkennung von Anomalien, die Modellierung (siehe Modellierung Schulungen) von Abhängigkeiten, Clustering, Klassifizierung, Regression und Berichterstellung.
Online-Kurse in Data Mining
Die Teilnehmer an den Data Mining Schulungen können Data-Mining-Fähigkeiten, -Werkzeuge und -Techniken in Kursen zu Analytik, Statistik (mehr dazu Statistik Training) und Programmierung (mehr Infos Programmierung Schulungen) erlernen. In Big-Data-Kursen lernen Sie zum Beispiel wichtige Data-Mining-Tools wie Spark, R (siehe R Seminar) und Hadoop (mehr Infos Hadoop Seminar) sowie Programmiersprachen (mehr dazu Programmiersprachen Schulung) wie Java (mehr dazu Java Training) und Python (siehe Python Training) . Lernen Sie, wie man probabilistische und statistische Modelle erstellt, erforschen Sie die spannende Welt der Predictive Analytics (siehe auch Analytics Schulungen) und gewinnen Sie ein Verständnis für die Anforderungen an groß angelegte Datenanalysen. Wenn Sie gerade erst anfangen, erhalten Sie eine Einführung in die Grundlagen des Data Mining mit Programming with Python for Data Science (mehr dazu Data Science Schulung) von Microsoft.
Der Kurs zeigt, wie man Rohdaten nimmt und sie für den Data-Mining-Prozess vorbereitet, sowie verschiedene wichtige Visualisierungstechniken. Lernen Sie, wie Sie Daten aus der Perspektive des Datenwissenschaftlers betrachten können, um wertvolle Erkenntnisse zu gewinnen. Lernen Sie verschiedene Anwendungen von Data Mining kennen und sammeln Sie Erfahrungen im Umgang mit Data-Mining-Algorithmen.
Data-Mining-Jobs
Data-Mining-Fähigkeiten sind aufgrund des Wachstums von Big Data und dem Internet der Dinge (IoT) sehr gefragt. Unternehmen sind auf der Suche nach Datenexperten, die wertvolle Erkenntnisse gewinnen können, um wettbewerbsfähig zu bleiben und der Zeit voraus zu sein. Eine Suche nach "Data Mining" ergab sehr viele Stellenangebote für Positionen wie Machine Learning (mehr dazu Machine Learning Seminare) Engineer, Data Engineer, Data Scientist und Business Intelligence (siehe auch Business Intelligence Seminare) Analyst, die alle hervorragende Data Mining-Fähigkeiten und -Erfahrungen erfordern.Wer neu im Bereich Data Mining ist, findet viele Praktikumsplätze. Suchen Sie nach Einstiegspositionen wie Data Intern, Data Modeling Analyst oder Big Data Intern.
Ein Data-Mining-Prozess kann Tausende von Regeln aus einem gegebenen Datensatz aufdecken, von denen die meisten am Ende keinen Bezug haben oder für die Benutzer uninteressant sind. Oft haben die Benutzer ein gutes Gespür dafür, welche "Richtung" des Minings zu interessanten Mustern führen kann und welche "Form" der Muster oder Regeln sie finden wollen. Sie haben vielleicht auch ein Gespür für "Bedingungen" für die Regeln, die die Entdeckung bestimmter Regeln ausschließen würden, von denen sie wissen, dass sie nicht von Interesse sind. Eine gute Heuristik ist es daher, die Benutzer solche Intuitionen oder Erwartungen als Constraints angeben zu lassen, um den Suchraum einzugrenzen. Diese Strategie wird als Constraint-basiertes Mining bezeichnet. Die Beschränkungen können Folgendes umfassen.
- Wissenstyp-Beschränkungen: Diese spezifizieren den Typ des zu schürfenden Wissens, z. B. Assoziation, Korrelation, Klassifikation oder Clustering.
- Daten-Beschränkungen: Diese spezifizieren die Menge der aufgabenrelevanten Daten.
- Dimension/Ebenen-Beschränkungen: Diese spezifizieren die gewünschten Dimensionen (oder Attribute) der Daten, die Abstraktionsebenen oder die Ebene der Konzepthierarchien, die beim Mining verwendet werden sollen.
- Interessantheits-Beschränkungen: Diese spezifizieren Schwellenwerte für statistische Maße der Regelinteressanz wie Unterstützung, Konfidenz und Korrelation.
Diese Constraints können mit einer deklarativen Data-Mining-Abfragesprache auf hoher Ebene und einer Benutzeroberfläche spezifiziert werden.
Für das Pruning des Musterraums führen wir drei Klassen von Eigenschaften ein, die das Constraint-basierte Pruning des Suchraums erleichtern: Antimonotonizität, Monotonizität und Prägnanz. Wir diskutieren auch eine spezielle Klasse von Constraints, die so genannten konvertierbaren Constraints, bei denen die Constraints durch die richtige Datenanordnung tief in den iterativen Mining-Prozess hineingeschoben werden können und die gleiche Pruning-Leistung wie monotone oder antimonotone Constraints haben. Für das Pruning des Datenraums führen wir zwei Klassen von Eigenschaften ein - Datenknappheit und Datenantimonotonie - und untersuchen, wie sie in einen Data-Mining-Prozess integriert werden können.
Um die Diskussion zu vereinfachen, nehmen wir an, dass der Benutzer nach Assoziationsregeln sucht. Die vorgestellten Prozeduren können leicht auf das Mining von Korrelationsregeln erweitert werden, indem ein Korrelationsmaß der Interessantheit zum Support-Konfidenz-Rahmenwerk hinzugefügt wird.
Betriebswirtschaftliches Verständnis
Die vielleicht wichtigste Phase des Data-Mining-Prozesses beinhaltet das Verstehen der aktuellen Praktiken und der allgemeinen Ziele des Projekts. In der Phase des Verständnisses für das Geschäft bestimmt der Analyst die Ziele des Data-Mining-Projekts. In dieser Phase werden die verfügbaren Ressourcen und alle damit verbundenen Einschränkungen, die Gesamtziele und spezifische Metriken, die zur Bewertung des Erfolgs oder Misserfolgs des Projekts verwendet werden können, identifiziert.
Verstehen der Daten
Die zweite Phase ist der Schritt des Datenverständnisses. In dieser Phase werden die Daten gesammelt und der Analytiker beginnt, die Daten zu untersuchen und sich mit ihnen vertraut zu machen, einschließlich Form, Inhalt und Struktur. Die Kenntnis und das Verständnis der numerischen Merkmale und Eigenschaften der Daten (z. B. kategoriale versus kontinuierliche Daten) sind während des Datenaufbereitungsprozesses wichtig und wesentlich für die Auswahl geeigneter statistischer Werkzeuge und Algorithmen, die während der Modellierungsphase verwendet werden. Schließlich erwirbt der Analytiker durch diese vorläufige Untersuchung ein Verständnis für und eine Vertrautheit mit den Daten, die in den nachfolgenden Schritten verwendet werden, um den analytischen Prozess, einschließlich der Modellierung, zu leiten, die Ergebnisse zu bewerten und die Ergebnisse und Berichte vorzubereiten.
Datenvorbereitung
Nachdem die Daten in der Phase des Datenverständnisses vorläufig untersucht und charakterisiert wurden, werden die Daten für die anschließende Auswertung und Analyse vorbereitet. Diese Datenvorbereitung umfasst die Bereinigung und Umkodierung sowie die Auswahl der notwendigen Trainings- und Testmuster. In dieser Phase werden auch alle notwendigen Zusammenführungen oder Aggregationen von Datensätzen oder Elementen vorgenommen. Das Ziel dieses Schritts ist die Erstellung des Datensatzes, der in der nachfolgenden Modellierungsphase des Prozesses verwendet wird.
Modellierung
Während der Modellierungsphase des Projekts werden spezifische Modellierungsalgorithmen ausgewählt und auf den Daten ausgeführt. Die Auswahl der spezifischen Algorithmen, die im Data-Mining-Prozess eingesetzt werden, basiert auf der Art der Fragestellung und den gewünschten Ergebnissen. Beispielsweise werden Scoring-Algorithmen oder Entscheidungsbaummodelle verwendet, um Entscheidungsregeln zu erstellen, die auf bekannten Kategorien oder Beziehungen basieren und auf unbekannte Daten angewendet werden können. Nicht überwachte Lern- oder Clustering-Techniken werden verwendet, um natürliche Muster oder Beziehungen in den Daten aufzudecken, wenn die Gruppenzugehörigkeit oder Kategorie zuvor nicht identifiziert wurde. Diese Algorithmen können in zwei allgemeine Gruppen eingeteilt werden: Regelinduktionsmodelle oder Entscheidungsbäume und nicht überwachte Lern- oder Clustering-Techniken. Zu den zusätzlichen Überlegungen bei der Modellauswahl und -erstellung gehört die Ausgewogenheit von Genauigkeit und Verständlichkeit. Einige extrem leistungsfähige Modelle sind zwar sehr genau, können aber sehr schwer zu interpretieren und damit zu validieren sein. Auf der anderen Seite gehen Modelle, die eine verständliche und validierbare Ausgabe erzeugen, häufig Kompromisse bei der Gesamtgenauigkeit ein, um dies zu erreichen.
Auswertung
In der Evaluierungsphase des Projekts werden die erstellten Modelle überprüft, um ihre Genauigkeit sowie ihre Fähigkeit, die in der Phase des Geschäftsverständnisses identifizierten Ziele des Projekts zu erreichen, zu bestimmen. Vereinfacht ausgedrückt: Ist das Modell genau, und beantwortet es die gestellte Frage?
Einsatz
Die Deployment-Phase schließlich umfasst die Verbreitung der Informationen. Die Form der Informationen kann sowohl Tabellen und Berichte als auch die Erstellung von Regelsätzen oder Scoring-Algorithmen umfassen, die direkt auf andere Daten angewendet werden können.