Einbettungen (original) (raw)

Stellen Sie sich vor, Sie entwickeln eine Anwendung für Lebensmittelempfehlungen, Nutzende geben ihre Lieblingsgerichte ein und die App schlägt ähnliche Mahlzeiten vor. das ihnen gefallen könnte. Sie möchten ein ML-Modell entwickeln die Ähnlichkeiten zwischen Lebensmitteln vorhersagen, Empfehlungen ("Da Sie Pfannkuchen mögen, empfehlen wir Crêpes").

Zum Trainieren Ihres Modells stellen Sie ein Dataset mit 5.000 beliebten Mahlzeiten, darunter Borscht,Hotdog Salat Pizza, und shawarma.

Abbildung 1: Illustrationen von fünf Lebensmitteln. Im Uhrzeigersinn ab
       links oben: Borschtsch, Hotdog, Salat, Pizza, Schawarma.

Abbildung 1. Stichproben von Mahlzeiten, die im Lebensmittel-Dataset enthalten sind.

Sie erstellen ein meal-Element, das Folgendes enthält:One-Hot-codiertDarstellung der einzelnen Mahlzeiten im Dataset.

Abbildung 2. Oben: Eine Visualisierung der One-Hot-Codierung für Borschtsch.
       Der Vektor [1, 0, 0, 0, ..., 0] wird über sechs Feldern angezeigt,
       jeweils ausgerichtet von links
       mit einer der Vektorzahlen nach rechts. Die Felder, von links nach rechts
       die folgenden Bilder enthalten: Borschtsch, Hotdog, Salat, Pizza, [leer],
       Schawarma. Mitte: eine Visualisierung der One-Hot-Codierung für Hotdogs.
       Der Vektor [0, 1, 0, 0, ..., 0] wird über jeweils sechs Feldern angezeigt.
       von links nach rechts an einer der Vektornummern ausgerichtet. Die Boxen haben
       dieselben Bilder von links nach rechts wie bei der Borschtsch-Visualisierung
       oben. Unten: eine Visualisierung der One-Hot-Codierung für Schawarma. Die
       Der Vektor [0, 0, 0, 0, ..., 1] wird über sechs ausgerichteten Feldern angezeigt.
       von links nach rechts mit einer der Vektornummern. Die Boxen haben
       dieselben Bilder von links nach rechts wie Borschtsch und Hotdog
       Visualisierungen.

Abbildung 2. One-Hot-Codierungen von Borschtsch, Hotdog und Schawarma Jeder One-Hot-Codierungsvektor hat eine Länge von 5.000 (ein Eintrag pro im Dataset). Die Ellipse im Diagramm steht für die 4.995 nicht angezeigten Einträge.

Fallstricke bei dünnbesetzten Datendarstellungen

Bei der Überprüfung dieser One-Hot-Codierungen stellen Sie zwei Hauptprobleme fest, Darstellung der Daten.

In diesem Modul erfahren Sie, wie Sie Einbettungen mit einer niedrigeren Dimension erstellen. dünnbesetzte Datendarstellungen, die beide Probleme lösen.