Datenvorbereitung
Ziel der Phase "Datenvorbereitung" ist es, die Daten in eine Form zu bringen, sodass sie für die Modellierung genutzt werden können.
Dabei hängt die Form der Vorbereitung wesentlich davon ab, welches Modell wir anschließend entwickeln. Die Datenbereinigung und Datenformatierung macht in der
Realität den größten zeitlichen Anteil der Arbeit eines Data Scientist aus.
Worum geht es hier?
Damit wir ein Modell für unseren Datensatz entwickeln können, müssen die Daten in einer Form vorliegen, sodass der Computer die notwendigen Daten effizient verarbeiten kann. Welche Form das ist, hängt von dem Modell ab, welches wir in der Phase "Modellentwicklung" implementieren. Wir bereiten unseren Datensatz in diesem Kapitel auf ein bestimmtes Modell vor. In der Arbeitswelt kommt es vor, dass in der Phase "Modellentwicklung" ein anderes Modell entwickelt wird, als zuvor geplant. Dann kann es notwendig sein, in die Phase "Datenvorbereitung" zurückzuspringen (siehe Data Science Arbeitszyklus).Hier lernst du...
- ...wie Daten mit der python Bibliothek pandas bereinigt und formatiert werden.
- ...warum Daten für die Phase der Modellierung vorbereitet werden müssen.
- ...wie der Datensatz für die Entwicklung eines ein inhaltsbasierten Empfehlungssystems vorbereitet wird.
- ...wie der Datensatz für die Entwicklung eines ein kollaborativen Empfehlungssystems vorbereitet wird.