Machine Learning visuell lernen - von StatQuest - Josh Starmer - E-Book

Machine Learning visuell lernen - von StatQuest E-Book

Josh Starmer

0,0

Beschreibung

  • Nach der erfolgreichen visuellen Methode des YouTube-Kanals »StatQuest with Josh Starmer« mit fast 900.000 Abonnenten
  • Bild für Bild lernen: vollständig illustrierter Guide zu den wichtigsten Machine-Learning-Konzepten
  • Alle Grundlagen von Statistik über Algorithmen bis hin zu neuronalen Netzen

Machine Learning ist ein mächtiges Werkzeug, kann aber auch unheimlich kompliziert erscheinen. Genau hier setzt dieses Buch an. Jedes Konzept wird anschaulich anhand von einfachen Bildern erläutert. Egal wie schwierig ein Machine-Learning-Algorithmus ist, der Autor zerlegt ihn in kleine, leicht verständliche Häppchen. So erhältst du ein grundlegendes Verständnis für die einzelnen Methoden, das über die bloßen Formeln hinausgeht.

Dieses Buch hat nicht zum Ziel, die Konzepte zu vereinfachen. Vielmehr bekommst du mit verständlichen und unterhaltsamen Erläuterungen alles Notwendige an die Hand, um ein grundlegendes und zugleich tiefes Verständnis für Machine Learning aufzubauen.

Das Buch setzt keine Vorkenntnisse voraus und erläutert alle Grundlagen Bild für Bild. Es zeigt dir, was Machine Learning ist und auf welchen Konzepten selbstfahrende Autos und Gesichtserkennung beruhen.

Aus dem Inhalt:
  • Grundlegende Konzepte des Machine Learnings
  • Klassifikation und Kreuzvalidierung
  • Statistik-Grundlagen
  • Lineare und logistische Regression
  • Gradientenabstiegsverfahren
  • Naive Bayes
  • Überanpassung vermeiden durch Regularisierung
  • Entscheidungsbäume
  • Support Vector Machines (SVMs)
  • Neuronale Netze

Sie lesen das E-Book in den Legimi-Apps auf:

Android
iOS
von Legimi
zertifizierten E-Readern

Seitenzahl: 311

Veröffentlichungsjahr: 2023

Das E-Book (TTS) können Sie hören im Abo „Legimi Premium” in Legimi-Apps auf:

Android
iOS
Bewertungen
0,0
0
0
0
0
0
Mehr Informationen
Mehr Informationen
Legimi prüft nicht, ob Rezensionen von Nutzern stammen, die den betreffenden Titel tatsächlich gekauft oder gelesen/gehört haben. Wir entfernen aber gefälschte Rezensionen.



Josh Starmer
BÄÄÄM!!!
Eine Übersetzung aus
dem Englischen von
Bettina Schwenker
Bibliografische Information der Deutschen Nationalbibliothek
Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische
Daten sind im Internet über http://dnb.d-nb.de abrufbar.
2
ISBN 978-3-7475-0073-6
1. Auflage 2023
www.mitp.de
Telefon: +49 7953 / 7189 - 079
Telefax: +49 7953 / 7189 - 082
© 2023 mitp Verlags GmbH & Co. KG, Frechen
Copyright © Joshua Starmer 2022
First published in the English language under the title ‘The StatQuest Illustrated Guide To Machine Learning (9798811583607)’
Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem Werk berechtigt auch ohne besondere
Kennzeichnung nicht zu der Annahme, dass solche Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei zu
betrachten wären und daher von jedermann benutzt werden dürften.
Der Verlag räumt Ihnen mit dem Kauf des E-Books das Recht ein, die Inhalte im Rahmen des geltenden Urheberrechts zu nutzen.
Dieses Werk, einschließlich aller seiner Teile, ist urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des
Urheberrechtsgesetzes ist ohne Zustimmung des Verlags unzulässig und strafbar. Dies gilt insbesondere für Vervielfältigungen,
Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen.
Der Verlag schützt seine E-Books vor Missbrauch des Urheberrechts durch ein digitales Rechtemanagement. Bei Kauf im Webshop
des Verlages werden die E-Books mit einem nicht sichtbaren digitalen Wasserzeichen individuell pro Nutzer signiert. Bei Kauf in
anderen E-Book-Webshops erfolgt die Signatur durch die Shopbetreiber. Angaben zu diesem DRM finden Sie auf den Seiten der
jeweiligen Anbieter.
Lektorat: Janina Bahlmann
Fachkorrektorat: Friedhelm Schwenker
Sprachkorrektorat: Nicole Winkel
Covergestaltung: Christian Kalkert, Sandrina Dralle
Bildnachweis: Joshua Starmer
Layout: Joshua Starmer
Satz: Friedhelm Schwenker, Nicole Winkel
Für F und B, die mich gelehrt haben, anders zu denken,
T und D, weil sie es mir ermöglicht haben, anders zu denken,
und für A, für alles.
3
Über den Autor
4
Scanne, klicke oder
tippe auf diesen QR-
Code, um StatQuest.org
zu besuchen!!!
Über den Fachkorrektor der deutschen Ausgabe
Josh Starmer ist das Gesicht hinter dem bekannten
Youtube-Kanal »StatQuest with Josh Starmer«. Seit 2016
erklärt er allen Interessierten mit seinem innovativen und
einzigartigen visuellen Stil Konzepte aus den Bereichen
Statistik, Data Science, Machine Learning und Algorithmen.
StatQuest hilft Menschen auf der ganzen Welt dabei,
Wettbewerbe zu gewinnen, Prüfungen zu bestehen, neue
Berufe zu ergreifen und befördert zu werden.
Friedhelm Schwenker ist Professor für Informatik (Fachgebiet: Machine Learning)
an der Universität Ulm. Er hat im Bereich der Angewandten Mathematik promoviert
und ist seit vielen Jahren im Bereich Machine Learning in Forschung und Lehre
tätig. Seine Forschungsgebiete sind Pattern Recognition, Data Mining und Machine
Learning mit Schwerpunkt Neuronale Netze. In jüngster Zeit befasst er sich auch
mit Anwendungen des Machine Learning im Affective Computing. Er ist Editor von
19 Proceedingsbänden und Special Issues sowie Autor von 200+ Journal- und
Konferenzartikeln.
The
Stat
- Quest
C-Dur
Il - lus
- tra - ted
Guide
G-Dur
C-Dur
is
Here!!!
Da jede StatQuest mit einem Silly Song beginnt …
StatQuest!!!
Hurra!!!
Scanne, klicke oder
tippe auf diesen QR-
Code, um den Silly
Song zu hören!!!
Hallo!!!
Ich bin Josh Starmer. Willkommen zu
Machine Learning – visuell lernen.In
diesem Buch werden wir über alles sprechen,
von den Grundlagen bis zu fortgeschrittenen
Themen wie neuronale Netze. Alle Konzepte
werden illustriert und schrittweise vorgestellt.
Inhaltsverzeichnis
6
01 Grundlegende Konzepte des Machine Learnings!!!
02 Kreuzvalidierung!!!
03 Grundlegende Konzepte der Statistik!!!
04 Lineare Regression!!!
05 Gradientenabstiegsverfahren!!!
06 Logistische Regression!!!
07 Naive Bayes!!!
08 Bewertung der Modellleistung!!!
09 Überanpassung verhindern durch Regularisierung!!!
10 Entscheidungsbäume!!!
11 Support-Vektor-Klassifikatoren und -Maschinen (SVMs)!!!
12 Neuronale Netze!!!
Anhänge!!!
8
21
30
75
83
108
120
136
164
183
218
234
271
7
HINWEIS: Bevor wir beginnen,
wollen wir uns anhand einer
Beispielseite ein wenig über die
Funktionsweise dieses Buches
informieren.
Wie man mit dem Buch arbeitet
1
2
Jede Seite beginnt mit einer
Überschrift, die genau angibt,
um welches Konzept es geht.
3
Auf jeder Seite siehst
du eingekreiste Zahlen
wie diese, …
... man muss ihnen nur
der Reihe nach folgen
und jedes Konzept
wird genau erklärt.
4
BÄM!! Jetzt, wo
du weißt, wie
dieses Buch
funktioniert, können
wir loslegen!!!
Grundlegende
Konzepte des
Machine Learnings!!!
Kapitel 01
1
2
Das ist richtig, Squatch! Es geht nur um
diese beiden Dinge. Wenn wir Machine Learning
einsetzen, um Dinge zu klassifizieren, nennen wir
das Klassifizierung. Und wenn wir quantitative
Vorhersagen machen, nennen wir das
Regression.
Norm, willst du damit sagen, dass es beim
Machine Learning nur um zwei Dinge geht?
1) Wir können es nutzen, um etwas zu
klassifizieren, und 2) wir können es nutzen,
um quantitative Vorhersagen zu treffen?
BÄM!
3
Lass uns also zunächst
über die Grundideen
sprechen, wie Machine
Learning für die
Klassifizierung
eingesetzt wird.
Klar, StatSquatch! Machine Learning (ML) ist eine
Sammlung von Werkzeugen und Techniken, die Daten in
(hoffentlich gute) Entscheidungen umwandeln, indem sie
Klassifizierungen vornehmen, z. B. ob jemand einen Film
mögen wird oder nicht, oder quantitative Vorhersagen,
z. B. wie groß jemand ist.
Hey Normalsaurus, kannst du
das gesamte Machine Learning in
einem einzigen Satz
zusammenfassen?
Machine Learning: Die Grundideen
Klassifizierung durch Machine Learning: Grundideen
10
Das Problem: Wir haben einen
großen Haufen Daten, die wir für
Klassifizierungen verwenden
wollen.
Dann wirst du
StatQuest mögen!!!
Ja
Nein
Bist du an Machine
Learning interessiert?
Ja
Nein
Magst du Silly
Songs?
Dann wirst du
StatQuest mögen!!!
:(
Und wenn du dich für
Machine Learning
interessierst, dann sagt
der Entscheidungsbaum
voraus, dass du
StatQuest magst!!!
Wenn du nicht an
Machine Learning
interessiert bist, geh
bitte nach rechts,…
1
Wir treffen zum Beispiel diese
Person und wollen sie als jemanden
klassifizieren, der StatQuest
mögen wird oder nicht.
2
Eine Lösung: Wir können unsere
Daten verwenden, um einen
Entscheidungsbaum zu erstellen
(für Details siehe Kapitel 10), um
eine Person als jemanden zu
klassifizieren, der StatQuest
mögen wird oder nicht.
a
b
c
d
e
f
BÄM!!!
g
Sobald der Entscheidungsbaum erstellt ist, kann
man ihn benutzen, um Klassifizierungen vor-
zunehmen, indem man an der Spitze beginnt und die
Frage stellt: »Bist du an Machine Learning
interessiert?«
… und jetzt fragen
wir: »Magst du
Silly Songs?«
Lernen wir nun die wichtigsten
Ideen kennen, wie Machine
Learning für die Regression
verwendet wird.
Wenn du dich nicht für Machine
Learning interessierst und keine Silly
Songs magst, dann ist das schade!
Wenn du andererseits Silly Songs
magst, dann sagt der
Entscheidungsbaum voraus, dass
du StatQuest mögen wirst!!!
11
1
2
Machine Learning - Regression: Grundideen
Das Problem: Wir haben einen weiteren Haufen Daten und wollen
diesen nutzen, um quantitative Vorhersagenzu treffen, d. h. wir
wollen Machine Learning für die Regression einsetzen.
Wenn also jemand neu zu uns
kommt und uns sein Gewicht
mitteilt, möchten wir diese
Information nutzen, um seine
Körpergröße vorherzusagen.
Eine Lösung: Mit der Methode der linearen
Regression (für Details siehe Kapitel 4) können wir
eine Gerade an die gesammelten Originaldaten
anpassen und diese verwenden, um quantitative
Vorhersagen zu treffen.
Die Gerade, die mit
zunehmendem Gewicht
ansteigt, fasst den Trend
zusammen, den wir in den
Daten gesehen haben:
Wenn das Gewicht einer
Person zunimmt, nimmt im
Allgemeinen auch ihre
Größe zu.
Wenn du mir sagen
würdest, dass das
dein Gewicht ist, …
… dann könnten wir die
Gerade benutzen, um
vorherzusagen, dass dies
deine Größe ist. BÄM!!!
Hier haben wir zum Beispiel die Körpergröße
und das Gewicht von 5 verschiedenen
Personen gemessen.
Größe
Gewicht
Da in den Daten ein Trend zu erkennen
ist - je größer der Wert für das Gewicht,
desto größer die Person - erscheint es
sinnvoll, die Körpergröße anhand des
Gewichts vorherzusagen.
Gewicht
Größe
Gewicht
Größe
X
X
Da es viele Methoden des
Machine Learnings gibt,
lass uns darüber sprechen,
wie wir die beste Methode
für unser Problem wählen.
12
Methoden des Machine Learnings im Vergleich: Grundideen
1
Das Problem: Wie du in diesem Buch lernen wirst, besteht
Machine Learning aus vielen verschiedenen Methoden, die
es ermöglichen, Klassifizierungen vorzunehmen oder
quantitative Vorhersagen zu treffen. Wie entscheiden wir,
welche wir verwenden?
Man könnte zum Beispiel
diese schwarze Gerade
verwenden, um die Größe
aus dem Gewicht
vorherzusagen, …
Größe
Gewicht
… oder wir könnten diesen grünen
Schnörkel
benutzen, um die
Größe aus dem Gewicht
vorherzusagen.
Wie entscheidet man, ob
die schwarze Gerade
oder der
grüne
Schnörkel
verwendet
werden soll?
2
Eine Lösung: Beim Machine
Learning bedeutet die
Entscheidung für eine Methode
oft, sie einfach auszuprobieren
und zu sehen, wie gut sie
abschneidet.
… sagt die schwarze
Gerade diese Größe
voraus.
Gewicht
X
X
Im Gegensatz dazu sagt der grüne
Schnörkel
voraus, dass die
Person etwas größer ist.
Wir können diese beiden
Vorhersagen mit der
tatsächlichen Größe der
Person vergleichen, um die
Güte der einzelnen
Vorhersagen zu
bestimmen.
Zum Beispiel, wenn man
das Gewicht dieser
Person kennt, …
BÄM!!!
Gewicht
Größe
Gewicht
Größe
X
X
Nachdem wir nun die
Grundideen hinter den
Methoden des Machine
Learnings verstanden
haben, wollen wir uns ein
Bild davon machen, wie
man dieses in der Praxis
anwendet.
13
Methoden des Machine Learnings im Vergleich: Einblick Teil 1
Größe
Gewicht
Die Daten, die wir zur Beobachtung
des Trends und zur Anpassung der
Gerade verwenden, werden
Trainingsdaten genannt.
Mit anderen Worten: Die
schwarze Gerade wird
an die
Trainingsdaten
angepasst.
Alternativ hätte man auch einen grünen
Schnörkel
in die Trainingsdaten
einfügen können.
1
2
Gewicht
Größe
Gewicht
3
Wir sammeln also weitere
Daten, die sogenannten
Testdaten, …
Größe
Hey Normalsaurus, würdest du dir nicht
wünschen, dass wir eine Warnung bekommen,
wenn neue Begriffe wie
Trainingsdaten und
Testdaten eingeführt werden?
… und verwenden diese
Testdaten, um die
Vorhersagen der
schwarzen Gerade mit den
Vorhersagen des
grünen
Schnörkels
zuvergleichen.
Der grüne Schnörkel
passt besser zu den
Trainingsdaten als die
schwarze Gerade, aber
bedenke, dass das Ziel
des Machine Learnings
darin besteht,
Vorhersagen zu treffen.
Wir brauchen also eine
Möglichkeit, um
festzustellen, ob die
schwarze Gerade oder
der
grüne Schnörkel
bessere Vorhersagen
macht.
Das wäre toll,
StatSquatch! Halte von nun
an Ausschau nach dem
gefürchteten Terminologie-
Alarm!!!
14
Größe
Gewicht
Wenn diese blauen Punkte
nun die Testdaten sind, …
Größe
Gewicht
4
5
… dann können wir die beobachteten
Größen mit den Größen vergleichen, die durch
die schwarze Gerade und den
grünen
Schnörkel
vorhergesagt werden.
Größe
X
X
6
Größe
Gewicht
X
X
7
X
Größe
Gewicht
X
X
8
X
Ebenso messen wir den Fehler
zwischen den beobachteten und den
vorhergesagten Werten für die zweite
Person in den
Testdaten.
9
Wir können dann die beiden
Fehler addieren, um ein Gefühl
dafür zu bekommen, wie nahe
die beiden Vorhersagen an den
beobachteten Werten für die
schwarze Gerade liegen.
… und war so groß.
Die schwarze Gerade
sagt jedoch voraus,
dass sie größer ist, …
… und wir können den
Abstand bzw. den
Fehler zwischen der
beobachteten und der
vorhergesagten Größe
messen.
Zweiter
Fehler
Gesamt-
fehler
Erster
Fehler
Methoden des Machine Learnings im Vergleich: Einblick Teil 2
Die erste Person in den
Testdaten hatte dieses
Gewicht …
Gewicht
+
15
Größe
Gewicht
10
Ebenso kann man die Abstände bzw. Fehler zwischen den durch den grünen
Schnörkel
vorhergesagten Größen und den beobachteten Größen messen.
X
X
X
Gewicht
X
X
X
11
Wir können dann die beiden
Fehler addieren, um ein Gefühl
dafür zu bekommen, wie nahe
die Vorhersagen an den
beobachteten Werten für den
grünen Schnörkel liegen.
Gesamtfehler
der schwarzen
Gerade
Gesamtfehler des
grünen
Schnörkels
12
Nun kannst du die Vorhersagen der
schwarzen Gerade mit den Vorhersagen des
grünen Schnörkels vergleichen, indem du die
Summen der Fehler vergleichst.
Wir sehen, dass die
Summe der Fehler der
schwarzen Gerade kürzer
ist, was bedeutet, dass sie
bessere Vorhersagen
macht.
Größe
Gewicht
14
… so hat die schwarze
Gerade die Größe für die
Testdaten besser
vorhergesagt.
Größe
Gewicht
13
Mit anderen Worten: Auch wenn der
grüne Schnörkel viel besser zu den
Trainingsdaten passt als die
schwarze Gerade, …
Zweiter
Fehler
Erster
Fehler
Gesamt-
fehler
Methoden des Machine Learnings im Vergleich: Einblick Teil 3
+
16
Größe
Gewicht
15
Wenn wir also zwischen der
schwarzen Gerade und dem
grünen
Schnörkel
wählen müssten, um
Vorhersagen zu treffen, …
Größe
Gewicht
16
… würden wir die schwarze
Gerade wählen, weil sie bessere
Vorhersagen macht.
BÄM!!!
Größe
Methoden des Machine Learnings im Vergleich: Einblick Teil 4
TERMINOLOGIE-ALARM!!!
Wenn eine Machine-Learning-
Methode sehr gut zu den
Trainingsdaten passt, aber
schlechte Vorhersagen macht,
spricht man von einer
Überanpassung derMethode an
die Trainingsdaten. Die
Überanpassung einer Machine-
Learning-Methode hängt mit dem
Bias-Varianz-Dilemma
zusammen, auf das wir später noch
näher eingehen werden.
Erstens: Wir verwenden
Testdaten,
um Methoden des Machine Learnings
zu bewerten.
Zweitens: Nur weil eine maschinelle
Lernmethode gut zu den
Trainingsdaten passt, bedeutet das
nicht, dass sie auch bei den Testdaten
gut funktioniert.
Das Beispiel, das wir
gerade durchgespielt
haben, zeigt 2 wichtige
Konzepte des Machine
Learnings.
Gewicht
Es gibt viele coole Machine-
Learning-Methoden. In diesem
Buch lernst du etwas über …
Regression
Logistische Regression
Naive Bayes
Entscheidungsbäume
Regressionsbäume
Support-Vektor-Maschinen
Neuronale Netze
17
Vielleicht fragst du dich jetzt, warum wir
dieses Buch mit einem super einfachen
Entscheidungsbaum begonnen haben, …
… und einer einfachen schwarzen
Gerade und einem albernen
grünen
Schnörkel
anstelle eines …
… Deep Learning Convolutional Neural
Networks
oder einer
[hier die neueste, ausgefallenste
Methode des Machine Learnings
einfügen].
Die wichtigsten Konzepte des Machine Learnings: Zusammenfassung
Gesamtfehler
der schwarzen
Gerade
Gesamtfehler
des grüner
Schnörkels
Gesamtfehler
der fancy
Methode
Es gibt eine Vielzahl hochtrabender
Methoden im Machine Learning wie Deep
Learning Convolutional Neural Networks
und jedes Jahr kommt etwas Neues und
Aufregendes auf den Markt. Aber egal, was
du benutzt, das Wichtigste ist, wie die
Methode mit den
Testdaten funktioniert.
BÄM!!!
Jetzt, wo du einige der wichtigsten Ideen des
Machine Learnings verstanden hast, solltest du
dir ein paar ausgefallene Begriffe aneignen, damit
du dich schlau anhörst, wenn du auf Partys über
diese Dinge sprichst.
18
Terminologie-Alarm!!! Unabhängige und abhängige Variablen
Gewicht
Größe
0,4
1,1
1,2
1,9
1,9
1,7
2,0
2,8
2,8
2,3
Bis jetzt haben wir die
Größe …
… aus
Gewichtsmessungen
vorhergesagt, …
Wir können auch die Arten von Variablen, die
Größe und Gewicht darstellen, genauer
beschreiben.
Da die Vorhersagen zur Körpergröße von den
Gewichtsmessungen abhängen, nennen wir
die Körpergröße eine abhängige Variable.
Da wir jedoch das Gewicht nicht vorhersagen
und das Gewicht somit nicht von der Größe
abhängt, bezeichnen wir das Gewicht als
unabhängige Variable. Alternativ kann das
Gewicht auch als Merkmal bezeichnet
werden.
Unabhängig davon, ob man die Daten
im Diagramm oder in der Tabelle
betrachten, erkennt man, dass das
Gewicht von Person zu Person variiert,
und daher wird das Gewicht als
Variable bezeichnet.
Ebenso variiert die Körpergröße von
Person zu Person, sodass die
Körpergröße auch als Variable
bezeichnet wird.
… und die Daten wurden alle
in einem schönen Diagramm
dargestellt. Wir können die
Daten auch in einer Tabelle
organisieren.
1
Bisher haben wir in unseren Beispielen nur das Gewicht, eine
einzelne unabhängige Variable bzw. ein Merkmal zur Vorhersage
der Größe verwendet. Es ist jedoch üblich, mehrere unabhängige
Variablen bzw. Merkmale zu nutzen, um Vorhersagen zu treffen.
Zum Beispiel könnten wir, um die Körpergröße vorherzusagen,
Gewicht, Schuhgröße und Lieblingsfarbe verwenden.
2
3
Gewicht
Schuh-
größe
Lieblings-
farbe
Größe
0,4
3
Blau
1,1
1,2
3,5
Grün
1,9
1,9
4
Grün
1,7
2,0
4
Rosa
2,8
2,8
4,5
Blau
2,3
Bäm.
Wie in der Tabelle zu sehen ist,
ist das Gewicht eine
numerische Größe und die
Lieblingsfarbe eine diskrete
Kategorie, es handelt sich also
um unterschiedliche
Datentypen. Lies weiter, um
mehr über diese Typen zu
lernen!!!
Gewicht
Größe
X
X
19
Terminologie-Alarm!!! Diskrete und kontinuierliche Daten
181 cm
152 cm
Amerikanische Schuhgrößen sind
diskret, es gibt zwar halbe
Schuhgrößen wie 81/2, aber keine
Größen wie 87/36 oder 9 5/18.
181,73 cm
152,11 cm
… dann werden
die Messungen
präziser.
Man kann z. B. die Anzahl der
Menschen zählen, die die Farbe
Grün oder die Farbe Blau mögen.
1.
2.
3.
Da wir einzelne Personen
zählen und die Gesamtzahlen
nur ganze Zahlen sein können,
sind die Daten diskret.
Die Größe kann
eine beliebige
Zahl zwischen 0
und der Größe
der größten
Person auf der
Welt sein.
Die Genauigkeit der
kontinuierlichen
Messungen wird nur
durch die genutzten
Messinstrumente
begrenzt.
Zum Beispiel zählen Messungen der
Körpergröße zu kontinuierlichen Daten.
HINWEIS: Wenn wir
ein genaueres Lineal
benutzen, …
2
3
4
6
Diskrete Daten ...
… sind abzählbar und
nehmen nur bestimmte
Werte an.
1
Kontinuierliche Daten ...
… sind messbarund können
jeden numerischen Wert innerhalb
eines Bereichs annehmen.
5
7
Ranglisten und andere Platzierungen sind
ebenfalls diskret. Für den 1,68. Platz gibt es
keine Auszeichnung. Total blöd!
4 Menschen
mögen
Grün
3 Menschen
mögen
Blau
20
Im nächsten Kapitel werden wir lernen,
wie man mit Hilfe der so genannten
Kreuzvalidierung auswählt, welche
Datenpunkte für das
Training und welche
für das
Testen verwendet werden
sollten.
Jetzt wissen wir über die
verschiedenen Datentypen
Bescheid und wie sie für
Training
und Tests verwendet werden
können. Was kommt als
Nächstes?
Kreuzvalidierung!!!
Kapitel 02
Kreuzvalidierung: Grundideen
Das Problem: Bislang wurde dir
einfach gesagt, welche Punkte die
Trainingsdaten sind, …
… und welche
Punkte die
Testdaten sind.
1
Normalerweise sagt uns jedoch
niemand, was zum
Training und
was zum
Test verwendet wird.
?
?
?
2
Wie wählen wir die Punkte für
das
Training und die Punkte
für den
Test am besten aus?
Eine Lösung: Wenn uns nicht gesagt wird,
welche Daten zum
Training und welche zum
Test verwendet werden sollen, können wir die
Kreuzvalidierung verwenden, um auf
unvoreingenommene Weise herauszufinden,
welche Daten die richtigen sind.
Anstatt sich zu viele Gedanken darüber zu machen,
welche spezifischen Punkte am besten für das
Training
und welche am besten für den Test geeignet sind,
werden bei der Kreuzvalidierung alle Punkte iterativ,
d. h. schrittweise, für beide Aufgaben verwendet.
Test Daten #1Test Daten #2Test Daten #3
BÄM!!!
22
23
Kreuzvalidierung: Details Teil 1
1
… und weil wir einen Trend
sehen, dass Menschen mit
höherem Gewicht tendenziell
größer sind, wollen wir das
Gewicht zur Vorhersage der
Körpergröße verwenden, ...
3
Eine schreckliche Idee wäre es,
alle Daten für das
Training zu
verwenden, …
… und dann genau dieselben
Daten für den
Test erneut zu
verwenden, …
TERMINOLOGIE-ALARM!!!
Die Verwendung derselben Daten für
Training und Test wird auch als
Datenleck (engl. Data Leakage)
bezeichnet und führt in der Regel dazu,
dass du glaubst, dass die Machine
Learning Methode besser abschneidet,
als es der Fall ist, da sie
überangepasst ist.
Stell dir vor, wir hätten diese 6
Paare von Gewichts- und
Größenmessungen
gesammelt, ...
Gewicht
Größe
… denn die einzige Möglichkeit, um
festzustellen, ob eine Machine-
Learning-Methode an die
Trainingsdaten überangepasst wurde,
besteht darin, sie an neuen Daten zu
testen, die sie noch nicht gesehen hat.
… also beschließen wir, eine Gerade mittels
linearer Regression an die Daten anzupassen
(Details im Kapitel 4). Wir wissen jedoch nicht,
welche Punkte für das
Training und welche für den
Test verwendet werden sollen.
??????
2
Eine etwas bessere Idee ist es, nach dem
Zufallsprinzip einige Daten auszuwählen, die
nur für den
Test verwendet werden, und den
Rest für das
Training zu nutzen.
4
Die Kreuzvalidierung löst das Problem, dass man nicht weiß,
welche Punkte für den
Test am besten geeignet sind, indem alle
Punkte iterativ verwendet werden.
Der erste Schritt besteht darin, die Daten nach dem Zufallsprinzip
verschiedenen Gruppen zuzuordnen. In diesem Beispiel teilen wir die
Daten in 3 Gruppen ein, wobei jede Gruppe aus 2 Punkten besteht.
5
So wird ein Datenleck
vermieden, aber woher
wissen wir, dass wir die
besten Daten für den
Test
ausgewählt haben?
In der ersten Iteration der
Kreuzvalidierung werden wir die
Gruppen 1 und 2 für das
Training
verwenden …
Gruppe 1Gruppe 2Gruppe 3
6
… und Gruppe 3 für den Test.
7
Iteration Nr. 1:
Fehler der
schwarzen
Gerade
Dann können wir, wie zuvor, die
Fehler für jeden Punkt in den
Testdaten messen, ...
… jedoch hören wir hier im
Gegensatz zu früher nicht auf,
sondern setzen die Iteration fort,
sodass die Gruppen 1 und 2
auch für den
Test verwendet
werden.
Kreuzvalidierung: Details Teil 2
24
25
HINWEIS: Da bei
jeder Iteration eine
andere
Kombination für
das
Training
verwendet wird,
führt jede Iteration
zu einer etwas
anders
angepassten
Gerade.
Eine andere angepasste
Gerade in Verbindung mit
der Verwendung
verschiedener Daten im
Test führt in jeder Iteration
zu verschiedenen
Vorhersagefehlern.
8
Da wir 3 Gruppen von Datenpunkten ha-
ben, führen wir 3 Iterationen durch und
stellen sicher, dass jede Gruppe für den
Test verwendet wird. Da hier drei Itera-
tionen durchgeführt werden, handelt es
sich um eine 3-fache Kreuzvalidierung.
Gruppe 1
Gruppe 3
Gruppe 2
Iteration #1
Iteration #2
Iteration #3
Dies sind nun die
3 Iterationen des
Trainings …
Du kannst diese Fehler
mitteln, um ein
allgemeines Gefühl
dafür zu bekommen,
wie gut dieses Modell
bei zukünftigen Daten
funktionieren wird, …
… oder du kannst die
Fehler mit den Fehlern
anderer Methoden
vergleichen.
Gruppen 2 und 3Gruppe 1
Gruppen 1 und 3Gruppe 2
Gruppen 1 und 2
Gruppe
3
10
9
… und das sind die
3 Iterationen der
Tests.
Kreuzvalidierung: Details Teil 3
Zur Erinnerung:
Dies sind die
ursprünglichen 3
Gruppen.
11
Du kannst z. B. die 3-fache
Kreuzvalidierung verwenden, um die
Fehler der schwarzen Gerade mit den
Fehlern des
grünen Schnörkels zu
vergleichen.
Iteration #1
Iteration #2
Iteration #3
Training
12
13
Test
Gruppen 2 und 3Gruppe 1
Gruppen 1 und 3Gruppe 2
Gruppen 1 und 2Gruppe 3
Da bei jeder Iteration
eine andere
Kombination von
Daten zum
Training
verwendet wird, …
… führt jede
Iteration zu einer
etwas anders
angepassten
Gerade und
Schnörkeln.
Gesamt-
fehler
schwarze
Gerade
Gesamt-
fehler
grüner
Schnörkel
Hier zeigen alle 3
Iterationen der 3-fachen
Kreuzvalidierung, dass die
schwarze Gerade bessere
Vorhersagen als der
grüne
Schnörkel
macht.
BÄM!!!
Durch die Verwendung der
Kreuzvalidierung kannst du
dich darauf verlassen, dass
die schwarze Gerade mit
neuen Daten besser
abschneiden wird, ohne
dass du dir Gedanken
darüber machen musst, ob
die besten Daten für das
Training und die besten
Daten für den
Test
ausgewählt wurden.
HINWEIS: In diesem Beispiel
hat die schwarze Gerade
durchweg besser abge-
schnitten als der
grüne
Schnörkel, aber das ist
normalerweise nicht der Fall.
Wir werden später noch
darüber sprechen.
Gruppe 1
Gruppe 3
Gruppe 2
Zur Erinnerung: Dies
sind die ursprünglichen
3 Gruppen.
Kreuzvalidierung: Details Teil 4
26
vs.
vs.
vs.
27
4
5
3
2
1
9
10
8
7
6
Bei einer großen Datenmenge wird
üblicherweise die 10-fache
Kreuzvalidierung verwendet.
4
5
3
2
1
9
10
8
7
6
Dann
trainieren wir
mit den ersten
9 Blöcken …
9
Anschließend wird jeder Block zum
Test verwendet.
8
7
6
5
4
3
2
1
14
Um eine 10-fache
Kreuzvalidierung
durchzuführen, werden
die Daten zunächst in
eine neue, zufällige
Reihenfolge gebracht
und dann in 10 gleich
große Blöcke aufgeteilt.
Stell dir vor, dass diese
graue Spalte viele
Datenzeilen repräsentiert.
… und testen
mit dem 10.
Block.
Kreuzvalidierung: Details Teil 5
BÄÄM!!!
Eine andere oft benutzte Form der Kreuzvalidierung
ist das sogenannte Leave-One-Out.
15
Die Leave-One-Out-Kreuzvalidierung
verwendet alle Punkte bis auf einen
zum
Training …
… und nutzt den einen
verbleibenden Punkt für den
Test,…
… und iteriert dann so lange, bis jeder
Punkt für den
Test verwendet wurde.
Kreuzvalidierung: Details Teil 6
Hallo Norm, wie
entscheide ich, ob ich eine
10-fache oder eine Leave-
One-Out-Kreuzvalidierung
verwenden soll?
Einige Experten
empfehlen bei großen
Datensätzen die 10-fache
Kreuzvalidierung und bei
sehr kleinen Datensätzen
Leave-One-Out.
29
Wenn man die Kreuzvalidierung
verwendet, um Methoden des Machine
Learnings zu vergleichen, z. B. wenn du
eine schwarze Gerade mit einem
grünen
Schnörkel
vergleichen möchtest,…
16
vs.
… so funktioniert die
schwarze Gerade manchmal
besser als der
grüne
Schnörkel
, …
vs.
… aber manchmal schneidet
die schwarze Gerade
schlechter ab als der
grüne
Schnörkel
.
Nachdem wir alle Iterationen
durchgeführt haben, erhalten wir eine
Vielzahl von Ergebnissen, von denen
einige zeigen, dass die schwarze
Gerade besser ist, …
… und einige zeigen, dass der
grüne Schnörkel besser ist.
Iteration #1
Iteration #2
Iteration #3Iteration #4
Iteration #5Iteration #6
Wenn die Ergebnisse uneinheitlich sind, wie können wir dann
entscheiden, welche Methode besser ist? Nun, eine Möglichkeit,
diese Frage zu beantworten, ist die Verwendung von Statistik.
Darüber sprechen wir im nächsten Kapitel.
Kreuzvalidierung: Details Teil 7
BÄÄÄM!!!
vs.
vs.
vs.
vs.
Grundlegende
Konzepte der
Statistik!!!
Kapitel 03
31
Eine Lösung: Statistik stellt uns eine Reihe von Instrumenten zur
Verfügung, mit denen man Schwankungen, die man überall findet,
quantifizieren kann. Im Machine Learning hilft Statistik, Vorhersagen
zu treffen und zu quantifizieren, wie sicher wir bei diesen
Vorhersagen sein können.
Statistik: Grundideen
Oder wenn wir ein neues Medikament haben, das
einigen Menschen hilft, anderen aber schadet, …
LECKER!!!
Pommes-Tagebuch
Montag: 21 Pommes frites
Dienstag: 24 Pommes frites
Mittwoch: 19 Pommes frites
Donnerstag: ???
… kann Statistik helfen, vorherzusagen, wem das Medikament
hilft und wem es schadet, und sie sagt uns, wie sicher wir bei
dieser Prognose sein können. Diese Information kann helfen,
Entscheidungen darüber zu treffen, wie Menschen zu
behandeln sind.
Wenn wir z. B. vorhersagen, dass das Medikament helfen wird,
wir aber nicht sehr sicher sind, dass diese Vorhersage zutrifft,
empfehlen wir das Medikament vielleicht nicht und verwenden
eine andere Therapie, um dem Patienten zu helfen.
Hurra!!!Oje.
Der erste Schritt bei der Erstellung von Vorhersagen
besteht darin, Trends in den gesammelten Daten zu
erkennen. Wie dies mit einem Histogramm möglich
ist, besprechen wir jetzt.
1
Das Problem: Die Welt ist ein
interessanter Ort, und die Dinge
sind nicht immer gleich.
2
3
… und Statistik kann uns dabei helfen,
vorherzusagen, wie viele Pommes frites
wir bei der nächsten Bestellung
bekommen und wie sicher wir uns bei
dieser Vorhersage sein können.
Wenn wir z. B. Pommes frites
bestellen, bekommen wir nicht
immer genau die gleiche Anzahl
an Pommes frites.
Lecker!
vs.
LECKER!!!
Wenn wir z. B. feststellen, dass wir nicht immer
genau die gleiche Anzahl an Pommes frites
bekommen, können wir die Anzahl der Pommes
frites, die wir an den verschiedenen Tagen
bekommen, aufzeichnen, …
Histogramme: Grundideen
1
Kleiner
Größer
2
Kleiner
Größer
KleinerGrößer
Anstatt Messungen zu stapeln, die genau
gleichsind, unterteilen wir den Wertebereich
in Klassen (engl. Bins) …
KleinerGrößer
… und stapeln die
Messungen, die in
dasselbe Bin fallen, …
Stell dir z. B. vor, dass wir die Körpergröße von
so vielen Menschen gemessen haben, dass sich
die Daten, die durch
grüne Punkte dargestellt
werden, überschneiden und einige
grüne
Punkte
völlig verdeckt sind.
… aber exakt gleiche
Messungpunkte sind
selten, und viele der
grünen Punkte sind
immer noch verdeckt.
Wir könnten versuchen, die verdeckten
Messergebnisse leichter zu erkennen,
indem wir alle, die genau gleich sind,
übereinander legen, …
… und schon
haben wir ein
Histogramm!!!
Eine Lösung: Histogramme sind einfache, aber sehr
nützliche statistische Werkzeuge, um Einblicke in die
gesammelten Daten zu gewinnen.
Anhand des Histogramms lassen sich Trends in
den Daten leicht erkennen. In diesem Fall sehen
wir, dass die meisten Personen eine annähernd
durchschnittliche Körpergröße hatten.
BÄM!!!
Das Problem: Wir haben viele Messungen und wollen
Einblicke in deren verborgene Trends gewinnen.
:(
32
33
Histogramme: Details
1
KleinerGrößer
Je höher der Stapel innerhalb eines
Bins, desto mehr Messungen haben wir
vorgenommen, die in dieses Bin fallen.
2
Kleiner
Größer
Anhand des Histogramms können
wir die Wahrscheinlichkeit künftiger
Messergebnisse abschätzen.
Da die meisten
Messungen
innerhalb dieser
roten Box liegen,
könnten wir darauf
wetten, dass die
nächste Messung,
die wir vornehmen,
irgendwo in diesem
Bereich liegen wird.
Extrem kleine oder große Werte sind
seltener und werden in Zukunft seltener
vorkommen.
3
Kleiner
Größer
HINWEIS: Eskann schwierig sein, zu
bestimmen, wie breit die Bins sein
sollen.
KleinerGrößer
… sind die Bins zu schmal, dann sind
sie auch keine große Hilfe, …
Sind die Bins zu breit,
so sind sie keine große
Hilfe, …
KleinerGrößer
… also muss man manchmal eine
Reihe von verschiedenen Bin-Breiten
testen, um ein klares Bild zu
bekommen.
BÄM!
In Kapitel 7werdenwir
Histogramme nutzen, um mittels des
Naive-Bayes-Algorithmus
Klassifizierungen vorzunehmen.
Sei neugierig!!
35
4
Kleiner
Größer
Wenn wir die
Wahrscheinlichkeit
abschätzen wollen, dass die
nächste Messung in dieser
roten Box liegt, …
0
19
… dividieren durch die
Gesamtanzahl der
Messungen, 19, …
… und erhalten 0. Das ist die
Mindestwahrscheinlichkeit und
bedeutet theoretisch, dass wir nie eine
Messung in dieser Box erhalten werden.
Es könnte jedoch sein, dass der einzige
Grund, warum die Box leer war, nur
darin besteht, dass wir einfach nicht
genug Personen gemessen haben.
Wenn wir mehr Menschen messen, finden wir
entweder jemanden, der in dieses Bin fällt,
oder wir sind sicherer, dass es leer sein
sollte. Manchmal kann es jedoch teuer sein
oder viel Zeit in Anspruch nehmen, mehr
Messungen vorzunehmen oder beides. Das
ist ein Problem!!!
3
KleinerGrößer
Um die Wahrscheinlichkeit
abzuschätzen, dass die nächste
Messung in einer
roten Box liegt, die
sich über alle Daten erstreckt, …
19
19
… dividieren durch
die Gesamtzahl
der Messungen,
19, …
… und das Ergebnis, 1, sagt uns,
dass es eine 100%ige Chance gibt,
dass die nächste Messung in das
Kästchen fallen wird. Mit anderen
Worten, die maximale
Wahrscheinlichkeit ist 1.
Gute Nachricht: Dieses Problem kann mit der
Wahrscheinlichkeitsverteilung gelöst werden. Bäm!
Histogramme: Wahrscheinlichkeiten Schritt für Schritt berechnen
… zählen wir die Anzahl
der Messungen in der Box,
19, …
… zählen wir die Anzahl
der Messungen in der
Box, 0, …
Kleiner
Größer
Wahrscheinlichkeitsverteilungen: Grundideen
1
2
Kleiner
Größer
Das Problem: Wenn wir
wenige Daten haben,
können wir mit einem
Histogramm keine sehr
genauen Schätzungen der
Wahrscheinlichkeiten
vornehmen, …
… aber das Sammeln von Tonnen
von Daten, um genaue Schätzungen
zu machen, kann zeitaufwändig und
teuer sein. Gibt es einen anderen
Weg?
JA!!!
Eine Lösung: Wir können zur Annäherung an ein
Histogramm eine Wahrscheinlichkeitsverteilung
verwenden, die in diesem Beispiel durch eine
blaue,
glockenförmige Kurve
dargestellt wird.
Kleiner
Größer
5
HINWEIS: Da wir
diskrete und kontinuierliche
Daten haben, …
… gibt es diskrete und
kontinuierliche
Wahrscheinlichkeits-
verteilungen.
… können wir die
Fläche unter der Kurve
benutzen, um die
Wahrscheinlichkeit zu
schätzen, dass ein Wert
in diesem Bereich
gemessen wird.
4
Auch wenn wir nie jemanden
gemessen haben, dessen Wert in
diesen Bereich fällt, …
Diese blaue, glockenförmige Kurve
sagt uns dieselben Dinge wie das
Histogramm.
3
KleinerGrößer
Die relativ große Fläche
unter der Kurve in dieser
roten Box zeigt uns zum
Beispiel, dass die
Wahrscheinlichkeit, dass
wir jemanden messen,
dessen Wert in diesen
Bereich fällt, relativ hoch
ist.
Beginnen wir damit, diskrete
Wahrscheinlichkeitsverteilungen näher zu
betrachten.
36
Kleiner
Größer
37
Diskrete Wahrscheinlichkeitsverteilungen: Grundideen
1
Das Problem: Histogramme sind technisch gesehen
diskrete Verteilungen, d. h. dass Daten in diskrete
Bins eingeteilt werden können und wir diese nutzen
können, um Wahrscheinlichkeiten zu schätzen.
Sie erfordern, dass wir viele Daten sammeln.
Und es ist nicht immer klar, was wir mit
leeren Bins machen sollen.
2
Eine Lösung: Wenn wir diskrete Daten haben, müssen wir nicht
erst Unmengen von Daten sammeln, um ein Histogramm zu
erstellen, sondern können die ganze harte Arbeit von
mathematischen Gleichungen erledigenlassen.
Kleiner
Größer
3
Eine der am häufigsten verwendeten
diskreten Wahrscheinlichkeits-
verteilungen ist die Binomialverteilung.
Wie du siehst, handelt es sich um eine mathematische
Gleichung, die nicht vom Sammeln von tonnenweisen
Daten abhängt, aber zumindest für StatSquatch sieht
sie sehr beängstigend aus!!!
Die gute Nachricht ist, dass die
Binomialverteilung im Grunde genommen
ganzeinfach ist. Bevor wir sie jedoch Schritt
für Schritt durchgehen, sieh dir an, wieso
diese Gleichungen so nützlich sind.
Bei der
Binomialverteilung
würde ich am
liebsten weglaufen.
Keine Angst, Squatch.
Wenn du weiterliest, wirst
du feststellen, dass es gar
nicht so schlimm ist.
p(x
|
n,p)=
(
n!
x!(n−x)!
)
p
x
(1−p)
n−x