i

Datenumstrukturierung für ein Inhaltsbasiertes Empfehlungssystem

Angenommen wir haben den folgenden Datensatz gegeben:

movieID title genres year
1 Forrest Gump Comedy|Drama|Romance|War 1994
2 Hangover Comedy|Crime 2009
3 Honig im Kopf Comedy|Drama 2014
4 Joker Crime|Drama|Thriller 2019
5 Titanic Drama|Romance 1997
6 Wolf of Wall Street Comedy|Crime|Drama 2013
userId movieId rating
1 1 4
1 2 5
1 3 3
1 4 5
1 5 2
1 6 5
2 2 5
2 3 5
2 4 2
2 6 3

Um inhaltsbasierte Filmempfehlungen zu geben, wird für jeden Nutzer ein Nutzerprofil erstellt. Dabei werden beispielsweise die Bewertungen für verschiedene Genres, Schauspieler und Regisseure beachtet. In unserem Fall haben wir nur Zugriff auf die Filminformationen Genres und Erscheinungsjahr. Unser Ziel ist es, ein Nutzerprofil zu erstellen, aus welchem wir die Bewertungen des Nutzers für die verschiedenen Genre gut entnehmen können. Mögliche Fragen sind zum Beispiel:

  • Welche Bewertungen hat der Nutzer Filmen gegeben, die dem Genre Comedy angehören?
  • Welche Genre wurden von dem Nutzer noch nie bewertet?
Dazu bringen wir die Daten in eine dafür passende Form:
movieID Comedy Crime Drama Thriller Romance War rating Nutzer 1
1 1 0 1 0 1 1 4
... ... ... ... ... ... ... ...

Aufgabe 1- Tabellenschema vervollständigen

  1. Erläutere den Aufbau des Tabellenschemas. Für was stehen die einzelnen Tabelleneinträge?
  2. Vervollständige die Tabelle für den Nutzer mit userId 1.
  3. Fertige eine zweite Tabelle für den Nutzer mit der userId 2 an.
  4. Argumentiere, warum wir für Nutzer 2 eine eigene Tabelle anfertigen. Gehe dabei auf die Funktionsweise von inhaltsbasierten Empfehlungssystemen ein.

Aufgabe 2- Tabellenschema nutzen

  1. Beantworte die folgenden Fragen mit Hilfe der Tabelle:
    • Welche Bewertung hat der Film mit movieId 4 von Nutzer 1 erhalten?
    • Gibt es Genre, die von Nutzer 2 noch nicht bewertet wurden. Wenn ja, welche?
    • Welche Bewertungen hat Nutzer 1 Filmen im Bereich Comedy vergeben?
  2. Durch die Umwandlung in das Tabellenformat sind Informationen verloren gegangen. Gib zwei Beispielfragen an, die du anhand des Datensatzes beantworten kannst, mit Hilfe der Tabelle allerdings nicht mehr.
  3. Ein Film der die Genre Crime und Romance besitzt kommt hinzu. Prognostiziere die Bewertung von Nutzer 1 für diesen Film.
  4. Diskutiere, von welchen Daten du mehr benötigen würdest, um deine inhaltsbasierten Filmempfehlungen zu verbessern.

Aufgabe 3- Übertragen auf unseren Datensatz

Lade dir das herunter und speichere es im gleichen Ordner wie den Filmdatensatz.

Erläutere die einzelnen Schritte in eigenen Worten. Führe dafür den Code für verschiedene Nutzer aus.

Suche

v
14.5.1.2.3
inf-schule.de/projekte/datascience/projekt_empfehlungssysteme/datenvorbereitung/vorbereitung_inhaltsbasiert
inf-schule.de/14.5.1.2.3
inf-schule.de/@/page/zNPMlZXqQvBKYI9i

Rückmeldung geben