Modellverbesserung
Unser Filmempfehlungssystem
Wir haben unser Ziel erreicht: ein erstes Filmempfehlungssystem!
Nochmal zurück zum CRISP-DM Modell: Wir haben den Projektzyklus nun einmal komplett durchlaufen. In der Arbeitswelt folgen meist noch viele weiteren Arbeitszyklen, in denen weiter an der perfekten Lösung gefeilt wird.
Aufgabe 1 - Möglichkeiten zur Verbesserung
Natürlich können wir auch unser System noch weiterentwickeln. Diskutiere, an welchen Stellen wir unsere Modelle verbessern könnten. Denke dabei zum Beispiel an
- die Quanität der Daten.
- die Lückenfüller bei der Modellvorbereitung.
- die Repräsentativität der Daten.
- das Klassifikationsverfahren.
Der Netflix Prize
In dem folgenden Video ist zusammengefasst, wie das Gewinnerteam des Netflix Prize das Projekt umgesetzt hat.Aufgabe 2 - Der Netflix Prize
Beantworte die folgenden Fragen:
- Was waren die ersten zwei Projektschritte des Teams?
- Was war der erste mathematische Ansatz, der für das Empfehlungssystem genutzt wurde, dessen Tipp über einen Post im Internet verbreitet wurde?
- Welche Informationen werden im Video genannt, die für das Empfehlungssystem verwendet wurden?
- Welcher Film sorgte für die größte Herausforderung und warum?
- Wie viele Algorithmen kombinierten die Entwickler am Ende?
- Aus wie vielen Ursprungsteams bestand das Gewinnerteam?
Das Beispiel zeigt, dass
- ein Data Science Projekt fast immer mehrere Zyklen durchläuft, ein Modell also nicht direkt im ersten Anlauf das perfekte Ergebnis liefert.
- meist eine Kombination verschiedener Modelle zum gewünschten Ergebnis führt.
- es immer sinnvoll ist im Team zu arbeiten.
- ...
Aufgabe 3 - Was nimmst du mit?
Ergänze die obige Liste um die Erkenntnisse, die du im Laufe dieser Reihe hattest.