Big Data smart mit Excel analysieren - So holen Sie das Beste aus Ihren Kundendaten heraus - John W. Foreman - E-Book

Big Data smart mit Excel analysieren - So holen Sie das Beste aus Ihren Kundendaten heraus E-Book

John W. Foreman

0,0
31,99 €

-100%
Sammeln Sie Punkte in unserem Gutscheinprogramm und kaufen Sie E-Books und Hörbücher mit bis zu 100% Rabatt.
Mehr erfahren.
Beschreibung

Welche Produkte kann ich meinen Kunden aufgrund ihrer vorherigen Käufe noch anbieten? Wie kann ich meine Absätze vorhersagen oder Kosten optimieren? Wie kann ich Kundenmails automatisch analysieren? Wenn Sie sich diese oder ähnliche Fragen stellen, finden Sie in diesem Buch die passenden Antworten. Es richtet sich an alle, die eine gewisse Menge Daten haben und ahnen, dass darin wertvolle Erkenntnisse schlummern, die aber nicht wissen, wie sie sie herauskitzeln können. Data-Science-Spezialist John Foreman zeigt Ihnen, wie auch kleinere Unternehmen von Big-Data-Ansätzen profitieren und dass Sie dafür nicht mehr benötigen als grundlegende Mathekenntnisse und ein Tabellenkalkulationsprogramm wie Microsoft Excel oder LibreOffice Calc. Nach ein paar nützlichen allgemeinen Hinweisen zu Excel lernen Sie an realistischen Businessbeispielen, mit welchen Verfahren Sie Kunden clustern, Dokumente klassifizieren, Investitionen und Gewinne optimieren, Prognosen über zukünftige Abverkäufe treffen und wichtige Ausreißer identifizieren. Alle Verfahren sind genauso verständlich wie unterhaltsam erklärt und damit Sie sie direkt selbst ausprobieren können, finden Sie alle Beispieldaten zum Download auf der Website des Verlags. Wenn Sie im Anschluss daran noch tiefer in die Datenanalyse einsteigen möchten, zeigt Ihnen ein kurzer Ausblick auf die Programmiersprache R, was noch alles möglich ist. So sind Sie optimal gerüstet und holen in Zukunft das Beste aus Ihren Daten heraus!

Sie lesen das E-Book in den Legimi-Apps auf:

Android
iOS
von Legimi
zertifizierten E-Readern

Seitenzahl: 521

Veröffentlichungsjahr: 2015

Bewertungen
0,0
0
0
0
0
0
Mehr Informationen
Mehr Informationen
Legimi prüft nicht, ob Rezensionen von Nutzern stammen, die den betreffenden Titel tatsächlich gekauft oder gelesen/gehört haben. Wir entfernen aber gefälschte Rezensionen.



Bibliografische Information der Deutschen Nationalbibliothek

Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.d-nb.de abrufbar.

1. Auflage 2015

© 2015 WILEY-VCH Verlag GmbH & Co. KGaA, Weinheim

All rights reserved including the right of reproduction in whole or in part in any form. This translation published by arrangement with John Wiley and Sons, Inc.

Copyright der englischsprachigen Originalausgabe »Data Smart« © 2014 by John Wiley and Sons, Inc.

Alle Rechte vorbehalten inklusive des Rechtes auf Reproduktion im Ganzen oder in Teilen und in jeglicher Form. Diese Übersetzung wird mit Genehmigung von John Wiley and Sons, Inc. publiziert.

Wiley, das Wiley-Logo und das Sybex-Logo sind Marken oder eingetragene Marken von John Wiley & Sons, Inc., USA, Deutschland und in anderen Ländern und dürfen nicht ohne schriftliche Genehmigung genutzt werden. Alle anderen Marken sind Eigentum ihrer jeweiligen Inhaber. John Wiley & Sons, Inc. und WILEY-VCH Verlag GmbH & Co. KGaA stehen in keiner Verbindung zu den in diesem Buch erwähnten Produkten und Herstellern.

Das vorliegende Werk wurde sorgfältig erarbeitet. Dennoch übernehmen Autoren und Verlag für die Richtigkeit von Angaben, Hinweisen und Ratschlägen sowie eventuelle Druckfehler keine Haftung.

Wir möchten Sie mit diesem Buch optimal unterstützen und freuen uns daher über Ihre Anregungen und Verbesserungsvorschläge. Notwendige Korrekturen veröffentlichen wir im Interesse aller Leser umgehend unter www.sybex.de und berücksichtigen sie bei der nächsten Auflage. Herzlichen Dank für Ihre Unterstützung!

Ihr Sybex-Lektoratsteam

[email protected]

Print ISBN 978-3-527-76060-2

ePub ISBN: 978-3-527-69224-8

mobi ISBN: 978-3-527-69223-1

Coverfoto © Kumbabali – Fotolia.com

Umschlaggestaltung Torge Stoffers Grafik-Design, Leipzig

Korrektur Petra Heubach-Erdmann und Jürgen Erdmann, Düsseldorf

Satz inmedialo Digital- und Printmedien UG, Plankstadt

Über den Autor

John W. Foreman ist der Chief Data Scientist von MailChimp.com. Davor hat er als Managementberater nicht nur in großen Unternehmen (wie Coca-Cola, Royal Caribbean, Intercontinental Hotels), sondern auch für die US-Regierung (wie das Verteidigungsministerium, die Bundessteuerbehörde, das Ministerium für innere Sicherheit DHS und das FBI) als Analytiker gearbeitet. John W. Foreman ist ein gern gehörter Redner, wenn es darum geht, über die Möglichkeiten und Probleme zu informieren, die die Einrichtung von Analysesoftware in Unternehmen mit sich bringen kann.

Wenn er nicht gerade mit Daten herumspielt, verbringt er seine Zeit mit Wandern, dem Abhängen vor dem Fernseher, dem Verputzen richtig ungesunder Nahrungsmittel und dem Aufziehen von drei prima Jungen.

Inhaltsverzeichnis

Über den Autor

Einführung

Was mache ich hier?

Eine brauchbare Definition von Data Science

Was hat es denn mit Big Data auf sich?

Wer bin ich?

Wer sind Sie?

Nichts geht über eine Tabellenkalkulation

Aber Tabellenkalkulationen sind doch aus der Mode!

Verwenden Sie Excel oder LibreOffice

Konventionen

Los geht’s

Kapitel 1 Alles, was Sie jemals über Tabellenkalkulationen wissen wollen, sich aber nicht zu fragen getraut haben

1.1 Beispieldaten

1.2 Sich schnell mit der Steuerungstaste bewegen

1.3 Formeln und Daten schnell kopieren

1.4 Zellen formatieren

1.5 Inhalte einfügen

1.6 Diagramme hinzufügen

1.7 Die Menüs »Suchen« und »Ersetzen«

1.8 Formeln für das Auffinden und Entnehmen von Werten

1.9 SVERWEIS verwenden, um Daten zusammenzuführen

1.10 Filtern und sortieren

1.11 Pivot-Tabellen verwenden

1.12 Array-Formeln verwenden

1.13 Probleme mit dem Solver lösen

1.14 OpenSolver: Ich wünschte, wir würden ihn nicht benötigen.   Dem ist aber nicht so

1.15 Zusammenfassung

Kapitel 2 Clusteranalyse Teil I: Die Kundenbasis mit k-Means aufteilen

2.1 Mädchen tanzen mit Mädchen, und Jungens kratzen sich   am Kopf

2.2 Es wird ernst: k-Means-Clusterbildung bei Abonnenten   eines E-Mail-Marketings

2.2.1 Joey Bag O’ Donuts Weinhandel

2.2.2 Die Ausgangsdaten

2.2.3 Festlegen, was zu bewerten ist

2.2.4 Mit vier Clustern beginnen

2.2.5 Euklidischer Abstand: Abstandsmessung auf kürzestem Weg

2.2.6 Abstände und Clusterzuweisungen für jedermann

2.2.7 Clusterzentren bestimmen

2.2.8 Aus den Ergebnissen schlau werden

2.2.9 Die Top-Verkäufe je Cluster erhalten

2.2.10 Die Silhouette: Ein guter Weg, um es unterschiedliche k-Werte    unter sich ausfechten zu lassen

2.2.11 Was halten Sie von fünf Clustern?

2.2.12 Eine Lösung für fünf Cluster

2.2.13 Die Top-Verkäufe der fünf Cluster erhalten

2.2.14 Die Silhouette für die 5-Means-Clusterbildung berechnen

2.3 K-Medians-Clusterbildung und asymmetrische   Abstandsmessungen

2.3.1 Die k-Medians-Clusterbildung

2.3.2 Eine geeignetere Abstandsmetrik erhalten

2.3.3 Bringen Sie das alles in Excel unter

2.3.4 Die Top-Verkäufe der 5-Medians-Cluster

2.4 Zusammenfassung

Kapitel 3 Naives Bayes und wie unglaublich leicht es ist, ein Idiot zu sein

3.1 Wenn Sie ein Produkt »Mandrill« nennen, erhalten Sie   Signale und Nebengeräusche

3.2 Die kürzeste Einführung in die Wahrscheinlichkeitsrechnung   der Welt

3.2.1 Bedingte Wahrscheinlichkeiten summieren

3.2.2 Die Verbundwahrscheinlichkeit, die Kettenregel   und die Unabhängigkeit

3.2.3 Was geschieht in einer abhängigen Situation?

3.2.4 Die Bayes-Regel

3.3 Die Bayes-Regel verwenden, um ein KI-Modell zu erstellen

3.3.1 Klassenwahrscheinlichkeiten auf hohem Niveau werden oft   miteinander gleichgesetzt

3.3.2 Und noch ein paar Kleinigkeiten

3.4 Auf geht’s mit Excel

3.4.1 Für die Sache irrelevante Interpunktion entfernen

3.4.2 An Leerzeichen auftrennen

3.4.3 Token zählen und Wahrscheinlichkeiten berechnen

3.4.4 Wir haben ein Modell! Nutzen wir es!

3.5 Zusammenfassung

Kapitel 4 Optimierungsmodellierung: Weil der »frisch gepresste« Orangensaft sich nicht selbst herstellt

4.1 Warum sollten Data Scientists wissen, was Optimierung   bedeutet?

4.2 Mit einem einfachen Zielkonflikt geht es los

4.2.1 Das Problem als Polytop darstellen

4.2.2 Lösen durch Verschieben der Niveaumenge

4.2.3 Das Simplex-Verfahren: in den Ecken herumstöbern

4.2.4 Mit Excel arbeiten

4.2.5 Am Ende dieses Kapitels wartet ein Monster

4.3 Frisch vom Baum in Ihr Glas … mit einem kurzen Boxenstopp   fürs Mischen

4.3.1 Sie verwenden für das Mischen ein Modell

4.3.2 Beginnen wir mit ein paar Spezifikationen

4.3.3 Zurück zum gleichbleibenden Geschmack

4.3.4 Die Daten in Excel eintragen

4.3.5 Das Problem in Solver eingeben

4.3.6 Die Standards herabsetzen

4.3.7 Ein totes Eichhörnchen loswerden: der Minimax-Ansatz

4.3.8 Wenn-Dann- und die Big-M-Bedingung

4.3.9 Variablen vervielfachen: das Volumen bis auf 11 hochtreiben

4.4 Modellierungsrisiko

4.4.1 Normal verteilte Daten

4.5 Zusammenfassung

Kapitel 5 Clusteranalyse Teil II: Netzwerkdiagramme und die Entdeckung der Community

5.1 Was ist ein Netzwerkdiagramm?

5.2 Einen einfachen Graphen darstellen

5.3 Eine kurze Einführung in Gephi

5.3.1 Die Installation von Gephi und die Vorbereitung der Dateien

5.3.2 Den Graphen gestalten

5.3.3 Rangfolge von Knoten

5.3.4 Drucken

5.3.5 Dem Graphen an die Daten gehen

5.4 Aus den Daten des Weinhandels einen Graphen bilden

5.4.1 Eine Kosinus-Ähnlichkeitsmatrix erstellen

5.4.2 Einen r-Nachbarschaftsgraphen entwickeln

5.5 Wie viel ist eine Kante wert? Normale Punkte und Penaltys   bei der Modularität von Graphen

5.5.1 Was ist ein Punkt und woraus besteht ein Penalty?

5.5.2 Das Arbeitsblatt für die Bewertungen einrichten

5.6 Lassen Sie uns Cluster bilden!

5.6.1 Aufteilung Nummer 1

5.6.2 Aufteilung 2: Electric Boogaloo

5.6.3 Und … Aufteilung 3: Aufteilung mit Vergeltung

5.6.4 Die Communitys decodieren und analysieren

5.7 Einmal hin und wieder zurück: eine Gephi-Tabelle

5.8 Zusammenfassung

Kapitel 6 Der Großvater der betreuten künstlichen Intelligenz – die Regression

6.1 He, was bist du? Schwanger?

6.2 Machen Sie sich nicht selbst verrückt

6.3 Die Schwangerschaft von Kundinnen bei RetailMart mithilfe   der linearen Regression vorhersagen

6.3.1 Welche Funktionen benötigt werden

6.3.2 Die Trainingsdaten zusammenstellen

6.3.3 Dummy-Variablen erzeugen

6.3.4 Backen wir uns unsere eigene lineare Regression

6.3.5 Statistiken und lineare Regression: R-Quadrat, F-Test und t-Tests

6.3.6 Vorhersagen anhand neuer Daten tätigen und die Leistungsfähigkeit   messen

6.4 Mit einer logistischen Regression Schwangerschaften in   Kundenhaushalten vorhersagen

6.4.1 Als Erstes benötigen Sie eine Verknüpfungsfunktion

6.4.2 Die logistische Funktion einbinden und alles neu optimieren

6.4.3 Eine echte logistische Regression zusammenbauen

6.4.4 Modellauswahl – die Leistungsfähigkeit des linearen mit der des    logistischen Modells vergleichen

6.5 Wenn Sie mehr wissen wollen

6.6 Zusammenfassung

Kapitel 7 Ensemble-Modelle: eine Menge mieser Pizza

7.1 Die Daten aus Kapitel 6 verwenden

7.2 Bagging: zufällig anordnen, trainieren, wiederholen

7.2.1 Decision Stump ist keine sehr sexy Bezeichnung für eine blöde   Vorhersage

7.2.2 Das sieht für mich gar nicht mal so dumm aus!

7.2.3 Das Modell untersuchen

7.3 Boosting: Wenn das Ergebnis falsch ist, verstärken Sie es   und versuchen es auf ein Neues

7.3.1 Das Modell trainieren – jedes Merkmal wird angesprochen

7.3.2 Das verstärkte Modell auswerten

7.4 Zusammenfassung

Kapitel 8 Prognosen: Atmen Sie tief durch, Sie können nicht gewinnen

8.1 Der Handel mit Schwertern stottert

8.2 Mit Zeitreihen vertraut werden

8.3 Langsam Fahrt aufnehmen mit einer einfachen   exponentiellen Glättung

8.3.1 Prognosen mit der einfachen exponentiellen Glättung einrichten

8.4 Es könnte ein Trend vorliegen

8.5 Die lineare exponentielle Glättung nach Holt

8.5.1 Die lineare exponentielle Glättung nach Holt in einem Arbeitsblatt   einrichten

8.5.2 Sind Sie nun fertig? Einen Blick auf Autokorrelationen werfen

8.6 Die multiplikative Glättung nach Holt-Winters

8.6.1 Die Anfangswerte für Niveau, Trend und Saisonabhängigkeit   festlegen

8.6.2 Die Prognose ins Rollen bringen

8.6.3 Optimieren!

8.6.4 Bestätigen Sie mir jetzt bitte, dass wir fertig sind

8.6.5 Um die Prognose einen Vorhersagebereich legen

8.6.6 Für die Galerie: Ein Fan-Chart anlegen

8.7 Zusammenfassung

Kapitel 9 Die Entdeckung von Ausreißern: Nur weil sie sonderbar sind, heißt das nicht, dass sie auch unwichtig sind

9.1 Auch Ausreißer sind nur (schlechte?) Menschen

9.2 Der faszinierende Fall von Hadlum gegen Hadlum

9.2.1 Tukey-Begrenzungen

9.2.2 Tukey-Begrenzungen in einem Arbeitsblatt anwenden

9.2.3 Die Grenzen dieser einfachen Vorgehensweise

9.3 In nichts wirklich schlecht, aber auch nirgends wirklich gut

9.3.1 Daten für einen Graphen vorbereiten

9.3.2 Einen Graphen erstellen

9.3.3 Die k nächsten Nachbarn erhalten

9.3.4 Methode 1 zum Entdecken von Ausreißern in einem Graphen:   Verwenden Sie einfach den Indegree

9.3.5 Methode 2 zum Entdecken von Ausreißern in einem Graphen:   Differenzierte Ergebnisse mit k-Abstand erhalten

9.3.6 Methode 3 zum Entdecken von Ausreißern in einem Graphen:   Local Outlier Factors sind dort, wo die Musik spielt

9.4 Zusammenfassung

Kapitel 10 Von der Tabellenkalkulation zu R wechseln

10.1 Mit R loslegen

10.1.1 Ein paar einfache Fingerübungen

10.1.2 Daten in R einlesen

10.2 Sich aktiv mit Data Science beschäftigen

10.2.1 Ein paar Zeilen sphärisches k-Means für Wein-Daten

10.3 Mit den Schwangerschaftsdaten ein KI-Modell entwickeln

10.3.1 Prognosen in R tätigen

10.3.2 Sich um das Entdecken von Ausreißern kümmern

10.4 Zusammenfassung

Stichwortverzeichnis

Einführung

Was mache ich hier?

Möglicherweise sind Sie in den Medien, in Büchern, die sich mit unternehmensbezogenen Themen beschäftigen, in Zeitschriften oder auf Konferenzen schon einmal über den Begriff Data Science gestolpert. Data Science (oder – grob übersetzt – die Wissenschaft von den Daten) ist in der Lage, Präsidentschaftswahlkämpfe in Hektik zu versetzen, mehr über Ihre Kaufgewohnheiten aufzudecken, als Sie von sich selbst wissen, und präzise Auskunft darüber zu geben, seit wie vielen Jahren diese ausgesprochen leckeren Käse-Cracker für Ihren Cholesterinspiegel verantwortlich sind. Data Scientists, die »Datenwissenschaftler«, die gleichzeitig die Elite derer bilden, die die Kunst der Data Science praktizieren, sind in einem Artikel im Harvard Business Review sogar schon als »sexy« bezeichnet worden. Dies sollten Sie nicht zu ernst nehmen, denn der Stellenwert dieser Behauptung lässt sich mit dem Stellenwert von Aussagen wie der vergleichen, dass ein Einhorn sexy sei. Dieser Teil des Artikels kann im Moment nicht bestätigt werden, aber wenn Sie mich dabei beobachten könnten, wie ich dieses Buch schreibe, mit zerwühlten Haaren und den müden Augen eines Vaters von drei Jungen, können Sie sich sicherlich vorstellen, dass sexy ein wenig übertrieben ist.

Aber ich schweife ab. In Wirklichkeit geht es darum, dass heutzutage ziemlich viel Wirbel um Data Science gemacht wird, was wiederum ziemlich viel Druck auf bestimmte Geschäftszweige ausübt. Wenn Sie sich nicht um Data Science kümmern, hängt Sie der Wettbewerb ab. Irgendjemand bringt ein neues Produkt mit dem Namen »BlahBlahBlahBigDataGraphDing« auf den Markt und macht damit Ihr Unternehmen kaputt.

Atmen Sie ganz tief durch.

Die Wahrheit sieht so aus, dass die meisten Menschen falsche Vorstellungen von Data Science haben. Das beginnt damit, dass sie sich die entsprechenden Werkzeuge kaufen und Berater anheuern. Sie geben ihr ganzes Geld aus, bevor sie überhaupt wissen, was sie wollen, weil heute in vielen Unternehmen schon ein Kaufauftrag mit Erfolg gleichgesetzt wird.

Wenn Sie dieses Buch lesen, bekommen Sie diesen Spaßvögeln gegenüber einen großen Vorteil, weil Sie hier genau erfahren, was es mit den Techniken der Data Science auf sich hat und wie Sie sie anwenden können. Wenn dann die Zeit der Planung, des Anheuerns von Beratern und des Einkaufens gekommen ist, wissen Sie bereits, wie Sie herausfinden können, was in Ihrer Organisation an Data Science möglich ist.

Dieses Buch hat den Sinn, Ihnen die Data-Science-Praxis auf angenehme Weise und unterhaltsam vorzustellen. Wenn Sie das Buch durchgelesen haben, hoffe ich, dass viele Ängste, die mit Data Science zu tun haben, durch Neugier und Ideen darüber ersetzt worden sind, was Sie mit Daten machen können, um Ihr Unternehmen weiter nach vorn zu bringen.

Eine brauchbare Definition von Data Science

Der Ausdruck Data Science dient in gewisser Weise auch als Synonym für Begriffe wie Business Analytics (betriebswirtschaftliche Auswertungen), Operations Research(Unternehmensforschung), Business Intelligence (mit diesem Begriff werden Verfahren und Prozesse zur systematischen Analyse von Daten bezeichnet; er wird auch als BI abgekürzt), Competitive Intelligence (was mit Wettbewerbsforschung oder -analyse übersetzt werden könnte), Data Analysis And Modeling (Datenanalyse und Datenmodellierung) und Knowledge Extraction (das Extrahieren von Erkenntnissen, was auch Knowledge DiscoveryIn Databases oder KDD genannt wird). Letztendlich handelt es sich bei Data Science nur um eine neue Bezeichnung für etwas, das in Unternehmen schon seit Langem getan wird – und das auch im Deutschen gerne mit englischen Ausdrücken belegt wird. Diese Ausdrücke haben sich inzwischen oft zu Fachbegriffen gemausert, die wir, wie hier, zumindest einmal mit einer deutschsprachigen Entsprechung versehen und in den Index aufgenommen haben, damit Sie eine bessere Vorstellung davon bekommen, worum es geht. Nun ist aber auch im Umfeld der Datenanalyse nicht alles englisch, was glänzt. Wenn es im fachspezifischen Umfeld (womit nicht populärwissenschaftliche Artikel in Computer- und Managementzeitschriften, sondern primär Wissenschaft und Unternehmen gemeint sind, die sich hauptberuflich mit unserer Thematik beschäftigen) »normal« ist, deutschsprachig zu agieren, wird in der Übersetzung auf Denglisch insoweit verzichtet, als dass die deutschsprachigen Begriffe verwendet werden und ihre englische Entsprechung zumindest einmal als Information aufgeführt wird. Auch in diesem Fall hilft der Index dabei, sich zurechtzufinden.

Seit der Blütezeit dieser »synonymen« Begriffe hat es eine nicht unbeträchtliche technologische Weiterentwicklung gegeben. Diese Weiterentwicklungen bei der Hardware und der Software haben dafür gesorgt, dass das Sammeln, Speichern und Auswerten großer Datenmengen aus dem Vertrieb und dem Marketing, aus HTTP-Anfragen an Ihre Website, aus Daten des Kundendienstes und so weiter einfacher und kostengünstiger geworden ist. Endlich sind auch kleinere Unternehmen und nicht kommerzielle Organisationen in der Lage, sich mit Analysen zu beschäftigen, die bis dahin ausschließlich großen Unternehmen vorbehalten waren. Da der Begriff Data Science heutzutage für so gut wie alles verwendet wird, was mit einer Analyse unternehmensbezogener Daten zu tun hat, wird er häufig mit den Techniken des Data-Minings gleichgesetzt, zu denen beispielsweise die künstliche Intelligenz (KI), die Clusterbildung und das Erkennen von Ausreißern gehören. Dank der fulminanten, auf Transaktionen beruhenden Vermehrung von Unternehmensdaten haben diese rechenintensiven Techniken in den letzten Jahren einen Fuß in die Tür von Unternehmen bekommen, für die es sich bis dahin nicht gelohnt hat, so etwas produktiv zu verwenden.

Ich vertrete in diesem Buch eine sehr weit gefasste Definition des Begriffs Data Science. Sie sieht so aus:

Data Science ist die Umwandlung von Daten mithilfe der Mathematik undstatistischer Methoden in wertvolle Erkenntnisse, Entscheidungen und Produkte.

Dies ist eine unternehmensbezogene Definition. Dort geht es um ein nützliches und wertvolles Endergebnis, das aus Daten abgeleitet wird. Warum? Mir geht es hier weder um Marktforschung noch glaube ich, dass Daten ästhetische Werte aufweisen. Ich kümmere mich um Data Science, damit mein Unternehmen besser funktioniert und Werte hervorbringt. Und ich kann mir vorstellen, dass es Ihnen ähnlich ergeht.

Dieses Buch nimmt obige Definition als Grundlage und behandelt zentrale Analysetechniken, zu denen nicht nur Optimierung, Prognosen und Simulationen, sondern auch »heißere« Themen wie künstliche Intelligenz, Netzwerkdiagramme, Clusterbildung und das Entdecken von Ausreißern gehören.

Einige dieser Techniken sind Jahrzehnte alt. Andere wurden erst in den letzten fünf Jahren entwickelt. Und Sie werden sehen, dass Alter nichts mit Problemen oder Nutzen zu tun hat. Alle vorgestellten Techniken sind unabhängig davon, wie aktuell sie gerade sind, im richtigen Unternehmensumfeld gleich nützlich.

Damit kennen Sie auch schon den Grund dafür, warum Sie verstehen müssen, wie diese Techniken funktionieren, wie Sie die für ein Problem geeignete Technik auswählen und damit erste Schritte unternehmen können. Dort draußen gibt es viele Typen, die sich zwar mit einer oder zwei dieser Techniken auskennen, die aber den Rest nicht auf ihrem Radar haben. Wenn es in meiner Werkzeugkiste nur einen Hammer gibt, neige ich – wie mein zweijähriger Sohn – dazu, alle Probleme dadurch zu lösen, dass ich hart zuschlage.

Da ist es doch wohl besser, ein paar zusätzliche Werkzeuge zur Auswahl zu haben.

Was hat es denn mit Big Data auf sich?

Höchstwahrscheinlich sind Sie öfter über Big Data als über Data Science gestolpert. Handelt dieses Buch von Big Data?

Das hängt davon ab, wie Sie Big Data definieren. Wenn Sie unter Big Data das Berechnen einfacher, zusammenfassender Statistiken anhand unstrukturierter Daten verstehen, die in riesigen, horizontal skalierbaren Datenbanken liegen, die nichts mit SQL zu tun haben, dann hat dieses Buch nichts mit Big Data zu tun.

Wenn Sie Big Data aber als Umwandlung geschäftlicher Daten in Entscheidungen und Erkenntnisse definieren, wobei für diese Umwandlung (ohne Rücksicht darauf, wo die Daten gespeichert sind) innovative Analysemethoden verwendet werden, dann handelt dieses Buch auch von Big Data.

Dieses Buch beschäftigt sich nicht mit Datenbanktechnologien wie MongoDB oder HBase. Dieses Buch behandelt auch keine Projekte zur Data-Science-Kodierung wie Mahout, NumPy, die verschiedenen R-Bibliotheken und so weiter. Um diese Themen kümmern sich andere Bücher.

Und das ist auch gut so. Dieses Buch ignoriert die Werkzeuge, die Speicherung und den Code. Stattdessen konzentriert es sich so weit wie möglich auf die Techniken. Dort draußen gibt es viele Menschen, die glauben, dass Big Data nichts als Datenspeicherung und Datenabfrage ist, wobei die Daten ein wenig bereinigt und zusammengefasst werden.

Sie irren. Dieses Buch bringt Sie auf eine Ebene, die über dem liegt, was Sie von den Verkäufern von Big-Data-Software und von Bloggern zu hören bekommen, und es zeigt Ihnen, was Sie wirklich aus Ihren Daten herausholen können. Und das Beste daran ist, dass der Umfang Ihrer Daten für die meisten dieser Techniken keine Rolle spielt. Sie müssen nicht erst über ein Petabyte an Daten verfügen und die entsprechenden Kosten bewältigen, bevor Sie sich mit den Interessen Ihrer Kunden auseinandersetzen dürfen. Wenn Sie einen großen Datenbestand haben, ist das prima, aber genauso gibt es Unternehmen, die so etwas nicht aufweisen, nicht benötigen und niemals haben werden. Wie das zum Beispiel bei meinem Metzger der Fall ist. Das bedeutet aber noch lange nicht, dass sein E-Mail-Marketing nicht von einem Würstchen-im-Vergleich-mit-Schinken-Cluster profitieren könnte.

Wenn Bücher über Data Science Trainingsunterlagen wären, hätten Sie es nur mit Lockerungsübungen zu tun – keine Gewichte, nichts Ergometrisches. Wenn ein Buch aber weiter geht und Sie verstanden haben, wie Sie die Techniken nur mit einem Grundstock an Werkzeugen implementieren können, sind Sie auch in der Lage, diese Implementierungen in einer Vielzahl von Technologien vorzunehmen, auf ihnen problemlos etwas aufzubauen, bei Beratern die richtigen Data-Science-Produkte zu erwerben, Ihren Entwicklern die richtige Vorgehensweise an die Hand zu geben und so weiter.

Wer bin ich?

Gönnen Sie mir eine kurze Unterbrechung, um Ihnen etwas über mich zu erzählen. Es würde zu weit gehen, Ihnen zu erklären, warum ich Data Science so lehre, wie ich das tue. Bis vor einigen Jahren war ich Unternehmensberater. Ich beschäftigte mich bei Organisationen wie dem FBI, dem US-amerikanischen Verteidigungsministerium, der Coca-Cola Company, der Intercontinental Hotels Group und der Royal Caribbean International mit Analyseproblemen. Und jedes Mal, wenn ich irgendwo wegging, verstärkte sich das Gefühl, dass viel mehr Menschen als nur die, die hauptberuflich als Data Scientists arbeiten, Data Science verstehen sollten.

Ich habe mit Managern zusammengearbeitet, die Simulationen gekauft haben, obwohl sie Optimierungsmodelle benötigten. Ich habe mit Analysten zusammengearbeitet, die ausschließlich mit Gantt-Diagrammen umgehen konnten, weshalb alles über Gantt-Diagramme gelöst werden musste. Ein Berater konnte leicht einen Kunden mit einer alten Publikation und einer gekonnt gemachten PowerPoint-Präsentation beeindrucken, der KI nicht von BI unterscheiden kann.

In diesem Buch geht es darum, ein größeres Publikum in die Lage zu versetzen, Data-Science-Techniken zu verstehen und zu implementieren. Ich habe nicht die Absicht, aus Ihnen gegen Ihren Willen einen »Datenwissenschaftler« zu machen. Ich möchte nur die Rolle, die Sie bisher im Unternehmen spielen, um die Fähigkeiten erweitern, mit Data Science umzugehen.

Wer sind Sie?

Keine Angst, aber ich habe nicht vor, Sie mithilfe von Data Science auszuspionieren. Ich habe keine Ahnung, wer Sie sind, aber vielen Dank dafür, dass Sie für dieses Buch Geld ausgegeben haben. Vielleicht unterstützen Sie aber auch Ihre örtliche Bibliothek. Das wäre auch gut.

Hier ein paar Archetypen (oder Personas, wie sie in Marketingkreisen genannt werden), die in meinem Kopf herumspukten, als ich dieses Buch schrieb. Vielleicht sind Sie:

Die stellvertretende Leiterin der Marketingabteilung, die die Daten der geschäftlichen Transaktionen strategischer als bisher für die Preisgestaltung und die Einteilung der Kunden nutzen möchte. Aber Sie verstehen die Vorgehensweise Ihrer Entwickler und der überbezahlten Berater nicht.

Die Person, die Bedarfsprognosen untersucht und die weiß, dass sich in den Verkaufsdaten des letzten Quartals mehr über die Kunden des Unternehmens verbirgt als nur eine Vorschau für das nächste Quartal. Aber Sie wissen nicht, wie Sie an diese verborgenen Schätze gelangen können.

Die Geschäftsführerin eines Online-Start-ups, die auf der Basis der letzten Einkäufe eines Kunden vorhersagen möchte, ob dieser Kunde auch am Kauf eines anderen Artikels interessiert sein könnte.

Der für die Business Intelligence zuständige Analyst, der zusieht, wie viel Geld für Infrastrukturmaßnahmen und die Lieferkette des Unternehmens sinnlos ausgegeben wird, der aber nicht weiß, wie kostensparende Entscheidungen systematisch gefällt werden.

Der Fachmann für Onlinemarketing, der mehr mit den E-Mail- oder Facebook- und Twitter-Reaktionen von Kunden anfangen möchte, als sie nur zu lesen und abzuspeichern.

Ich stelle mir vor, dass Sie ein Leser sind, der direkten Nutzen daraus zieht, mehr über Data Science zu wissen, der es aber bisher noch nicht geschafft hat, einen Fuß in die Tür zu diesen Techniken zu bekommen. Sinn dieses Buches ist es, alle Irritationen zu beseitigen, die sich um Data Science ranken (den Code, die Werkzeuge und den ganzen Rummel), und Ihnen die entsprechenden Techniken beizubringen. Dabei verwende ich Fallstudien, die jeder verstehen kann, der sich in der Schule zumindest grundsätzlich mit linearer Algebra oder Infinitesimalrechnung beschäftigt hat. Sollte das bei Ihnen nicht der Fall sein, lesen Sie einfach langsamer und greifen Sie auf Wikipedia zu.

Nichts geht über eine Tabellenkalkulation

Dies ist kein Buch über das Codieren. Ich bin sogar bereit, dies (mit der kleinen Ausnahme von Kapitel 10) zu garantieren. Warum?

Ganz einfach: Ich habe kein Interesse daran, zu Beginn dieses Buches hundert Seiten damit zu vergeuden, mich mit Git abzugeben, Umgebungsvariablen einzurichten und den Spagat zwischen Emacs und Vi zu wagen.

Vielleicht laufen bei Ihnen nur Windows und Microsoft Office. Oder Sie sind bei einer Organisation beschäftigt, die es nicht zulässt, dass Sie auf Ihrem Computer irgendwelches Open-Source-Zeugs herunterladen und installieren. Und selbst wenn Ihnen in der Schule schon Ihr Taschenrechner eine Heidenangst einjagen konnte, müssen Sie sich keine Sorgen machen.

Sollten Sie wissen, wie Code geschrieben wird, um die meisten der hier vorgestellten Techniken in eine automatisierte, produktive Form zu bringen? Unbedingt! Auf jeden Fall müssen Sie mindestens jemanden kennen, der mit Code umgehen kann und Speichertechnologien beherrscht.

Müssen Sie wissen, wie Code geschrieben wird, um diese Techniken zu verstehen, sie zu unterscheiden und auf sie aufbauen zu können? Natürlich nicht!

Aus diesem Grund behandele ich jede Technik mithilfe einer Tabellenkalkulation.

Okay, in meinen Aussagen ist eine kleine Lüge versteckt. Das letzte Kapitel dieses Buches handelt von der auf Data Science ausgerichteten Programmiersprache R. Es soll denen unter Ihnen als Sprungbrett dienen, die sich intensiver mit Dingen dieser Art beschäftigen wollen.

Aber Tabellenkalkulationen sind doch aus der Mode!

Tabellenkalkulationen sind nicht gerade das aufregendste Werkzeug, das man sich vorstellen kann. Letztendlich gehören sie sogar zu den langweiligsten Analysewerkzeugen auf dieser Erde. Aber sie erlauben Ihnen, die Daten zu sehen und zu berühren (oder wenigstens anzuklicken). Wenn es darum geht, die entsprechenden Techniken kennenzulernen, benötigen Sie etwas Unspektakuläres, etwas, das jeder versteht und mit dem Sie gleichzeitig parallel zu Ihrem Lernfortschritt schnell und ohne großen Aufwand weiterkommen. Und genau das geht prima mit einer Tabellenkalkulation.

Tabellenkalkulationen sind ein erstklassiges Werkzeug, wenn es um das Entwickeln von ersten Ansätzen geht. Sie werden wohl kaum für Ihren Online-Vertrieb ein produktives KI-Modell aus Excel heraus ablaufen lassen, was aber nicht heißt, dass Sie sich in diesem Programm keine Verkaufsdaten anschauen können, nicht mit Funktionen herumspielen sollten, die das Interesse an Produkten vorhersagen können, und nicht in der Lage sind, Zielvorgaben festzulegen. Um so etwas zu tun, bietet eine Tabellenkalkulation den perfekten Rahmen.

Verwenden Sie Excel oder LibreOffice

Alle Beispiele, die Sie durcharbeiten, setzen in diesem Buch Excel voraus. Auf der Webseite zu diesem Buch (www.wiley-vch.de/publish/dt/books/ISBN3-527-76060-1) können Sie zu den einzelnen Kapiteln Arbeitsmappen herunterladen, die Bestandteil einer großen Demodatei sind und die Ihnen leichter machen, die Aufgaben zu verfolgen. Wenn Sie dann vielleicht die Abenteuerlust packt, können Sie in den Arbeitsblättern alles bis auf die Anfangsdaten löschen und die gesamte Übung selbstständig nachvollziehen. Das Buch ist kompatibel zu Excel 2007, 2010, 2011 für den Mac und 2013. Kapitel 1 geht genau auf die Unterschiede der einzelnen Versionen ein.

Die meisten von Ihnen haben Zugriff auf Excel, und vielleicht nutzen Sie es schon, um auf der Arbeit Berichte zu erstellen oder Daten festzuhalten. Wenn Sie aber aus irgendeinem Grund kein Excel besitzen, sollten Sie diese Software erwerben oder auf LibreOffice(www.libreoffice.org) zugreifen.

Hinweis
Was ist mit Google Drive?
Vielleicht denken einige von Ihnen darüber nach, Google Drive zu verwenden. Dies ist eine verlockende Möglichkeit, da sich Google Drive in der Cloud befindet und auch von Ihren mobilen Geräten aus erreichbar ist. Aber das, was wir hier vorhaben, funktioniert dort nicht.
Google Drive eignet sich gut für einfache Arbeitsblätter einer Tabellenkalkulation, aber dort, wo Sie sich hinbegeben, kann Google nicht folgen. Das Hinzufügen von Zeilen und Spalten ist in Drive eine mehr als nervige Sache, die Einbindung von Solver ist haarsträubend, und die Diagramme besitzen noch nicht einmal Trendlinien. Ich wünsche mir, es wäre anders.

Bei LibreOffice handelt es sich um kostenlose Open-Source-Software, die über fast dieselben Funktionen wie Excel verfügt. Ich bin sogar der Meinung, dass der Solver von LibreOffice dem von Excel vorzuziehen ist. Wenn Sie diesen Weg einschlagen wollen, hindert Sie nichts daran.

Konventionen

Damit Sie das meiste aus dem Text herausholen und den Geschehnissen auf der Spur bleiben können, verwende ich in diesem Buch einige Konventionen.

Hinweis
Informationen wie die gerade zu Google Drive beziehen sich in der Regel auf Themen auf der aktuellen Seite und ergänzen diese Themen.
Warnung
Warnungen enthalten wichtige Informationen, die Sie nicht vergessen dürfen, und die für den unmittelbar benachbarten Text von Bedeutung sind.
Tipp
Anmerkungen dieser Art enthalten Tipps, Hinweise, Tricks und Randbemerkungen, die zum aktuellen Thema gehören.

Ich verweise im Text so auf Codestückchen:

=VERKETTEN("Dies ist Text";"in Excel!")

Neue und/oder wichtige Begriffe werden bei ihrer ersten Verwendung optisch hervorgehoben. Dateinamen, Bezeichnungen von Verzeichnissen weisen ebenfalls diese kursive Formatierung auf, während auf URLs so hingewiesen wird: www.wiley-vch.de

Wenn es im Text um eine Formel wie =SUMME(A4:T32) oder um Funktionen oder Bezeichnungen geht, wird ebenfalls die »Formelschriftart« verwendet.

Los geht’s

Im ersten Kapitel möchte ich weiße Flecken bei Ihren Excel-Kenntnissen mit Leben füllen. Danach geht es sofort mit Fallstudien los. Am Ende dieses Buches kennen Sie nicht nur die folgenden Techniken, sondern Sie wissen auch, wie sie von Grund auf eingerichtet werden:

Lineare und ganzzahlige Optimierung

Arbeiten mit Zeitreihen, Erkennen von Trends und saisonbedingten Mustern und Erstellen von Prognosen mithilfe von exponentiellen Glättungen

Der Einsatz der Monte-Carlo-Simulation für Optimierungs- und Prognoseszenarien, um Risiken zu bewerten und zu adressieren

Künstliche Intelligenz, indem Sie das generelle lineare Modell, logische Verknüpfungsfunktionen, Ensemble-Methoden und naives Bayes verwenden

Entfernungen zwischen Kunden berechnen, indem Kosinus-Ähnlichkeit verwendet, kNN-Diagramme erstellt, Modularität berechnet und Kunden geclustert werden

Ausreißer mit Tukey-Tests in einer einzelnen Dimension oder in mehreren Dimensionen mit lokalen Ausreißerfaktoren entdecken

R-Pakete verwenden und anderen Analytikern beim Durchführen der Aufgaben »turmhoch überlegen« sein

Wenn Sie an diesen Punkten Interesse finden könnten, lesen Sie weiter. Sollte der eine oder andere Punkt Sie erschrecken, verspreche ich, dass ich die Dinge so klar und lesbar wie möglich halte.

Tatsächlich ist es so, dass ich Klarheit mathematischer Genauigkeit vorziehe. Sollten Sie ein akademischer Leser sein, kommt es bestimmt ab und an dazu, dass es besser ist, wenn Sie Ihre Augen schließen und an den letzten Urlaub denken. Machen wir uns nun ohne weiteres Trara an das Verspeisen des Zahlensalats.

Kapitel 1 Alles, was Sie jemals über Tabellenkalkulationen wissen wollen, sich aber nicht zu fragen getraut haben

Dieses Buch vertraut darauf, dass Sie mit einer Tabellenkalkulation umgehen können, und ich gehe davon aus, dass Sie sich mit den entsprechenden Grundlagen auskennen. Wenn Sie bisher in Ihrem Leben noch keine Formeln verwendet haben, müssen Sie hier mit einem leichten Gegenwind klarkommen. In diesem Fall empfehle ich, dass Sie eines der »… für Dummies«-Bücher für Excel oder eine einfache Einführung in dieses Programm lesen, bevor Sie tiefer in dieses Buch hier eintauchen.

Abgesehen davon sieht es so aus, dass in diesem Buch Funktionen auftauchen, die selbst Sie als erfahrener Excel-Veteran normalerweise nie zu Gesicht bekommen haben. Dinge dieser Art sind nicht besonders kompliziert, aber mir ist aufgefallen, dass sie nicht jedem Excel-Benutzer bekannt sind. In diesem Kapitel wird ein breites Spektrum an kleinen, aber feinen Funktionen behandelt, was dazu führt, dass das zu diesem Kapitel gehörende Beispiel ein wenig zerfahren aussieht. Aber Sie erfahren hier alles, was Sie benötigen, und wenn Sie dann später in diesem Buch auf solch einen (im Moment unklaren) Punkt stoßen, können Sie kurz hierher zurückkehren und dieses Kapitel als Referenz verwenden.

Wie schon Samuel L. Jackson in Jurassic Park sagt: »Alle Mann festhalten …«

Hinweis
Die unterschiedlichen Excel-Versionen
In der Einführung zu diesem Buch wird bereits darauf hingewiesen, dass die Beispiele in den Kapiteln mit Excel 2007, 2010, 2013, 2011 für den Mac und mit LibreOffice funktionieren. Leider hat Microsoft bei jeder Excel-Version Menüpunkte verschoben.
So befinden sich zum Beispiel in der Version 2011 Dinge auf der Registerkarte SEITENLAYOUT, die Sie in anderen Versionen auf der Registerkarte ANSICHT suchen müssen. Solver ist in den Versionen 2010 und 2013 identisch, aber sein Leistungsverhalten ist in den Versionen 2007 und 2011 besser als in der 2013er Variante. Dafür kann die Solver-Oberfläche der Version 2007 einfach nur als Katastrophe bezeichnet werden.
Die Screenshots in diesem Buch sind mit Excel 2010 gemacht worden. Wenn Sie mit einer älteren oder mit einer neueren Version von Excel arbeiten, sieht Ihr Bildschirm ab und an ein wenig anders aus – meistens dann, wenn es um Dinge geht, die die Menüleiste betreffen. Ich werde mich bemühen, rechtzeitig auf diese Unterschiede hinzuweisen. Wenn Sie etwas nicht finden können, steht Ihnen die Hilfe-Funktion von Excel und Google mit Rat und Tat zur Seite.
Die gute Nachricht ist, dass die Arbeitsweise dann, wenn Sie sich erst einmal auf dem Arbeitsblatt selbst bewegen, in allen Versionen identisch ist.
Wenn Sie sich entschlossen haben, das Open-Source-Produkt LibreOffice zu verwenden, unterstelle ich, dass Sie zu denen gehören, die sich selbst alles beibringen. Ich verweise in diesem Buch nicht explizit auf die LibreOffice-Oberfläche. Sie werden es überleben, denn dieses Programm könnte glatt als Excel durchgehen.

1.1 Beispieldaten

Tipp
Die Excel-Arbeitsmappen Imbiss.xls und Imbissstand.xls, die in diesem Kapitel verwendet werden, können Sie als Bestandteil der gepackten Beispieldatei von der Webseite dieses Buches unter www.wiley-vch.de/publish/dt/books/ISBN3-527-76060-1 herunterladen.

Stellen Sie sich vor, dass Sie in Ihrem Leben ziemlich erfolglos waren und nun als Erwachsener immer noch zu Hause bei Mama wohnen. Während der Baseball-Saison dürfen Sie an Ihrer alten Highschool den Imbissstand führen. (Ich schwöre, dass das nicht ganz der autobiografischen Wahrheit entspricht.)

Sie besitzen ein Arbeitsblatt mit den Verkäufen vom letzten Abend, das wie Abbildung 1.1 aussieht.

Abb. 1.1 Verkäufe

Abbildung 1.1 zeigt die zu verkaufenden Waren an und enthält zu jedem Artikel die Kategorie, zu der er gehört, seinen Preis und den Gewinn in Prozent, der mit einem Artikel gemacht wird.

1.2 Sich schnell mit der Steuerungstaste bewegen

Wenn Sie die Datensätze durchsehen wollen, können Sie das Arbeitsblatt mit dem Rollrad Ihrer Maus, dem Trackpad oder der Taste mit dem nach unten zeigenden Pfeil durchlaufen. Wenn Sie nun scrollen, kann es hilfreich sein, die Zeile mit den Überschriften oben auf dem Arbeitsblatt daran zu hindern, einfach zu verschwinden – schließlich wollen Sie ständig wissen, was jede Spalte bedeutet. Um dies zu erreichen, wählen Sie auf der Registerkarte ANSICHT den Menüpunkt FENSTER EINFRIEREN, um dann auf OBERSTE ZEILE FIXIEREN zu klicken (siehe Abbildung 1.2). Auf dem Mac verwenden Sie zu diesem Zweck die Registerkarte LAYOUT.

Abb. 1.2 Die oberste Zeile einfrieren

Wenn Sie schnell an das Ende des Arbeitsblatts gelangen wollen, um herauszufinden, wie viele Transaktionen (Verkäufe) Sie getätigt haben, wählen Sie in einer der Spalten einen Wert aus und drücken dann + (auf dem Mac + ). Sie springen sofort zur letzten mit einem Inhalt versehenen Zelle der Spalte. Bei unserem Beispiel hier handelt es sich um die Zeile 200. Beachten Sie auch, dass Sie sich mit / und den entsprechenden Pfeiltasten auf die gleiche Weise im gesamten Arbeitsblatt auch von links nach rechts und umgekehrt bewegen können.

Wenn Sie wissen wollen, wie der durchschnittliche Preis der an diesem Abend verkauften Artikel aussieht, können Sie unter der Spalte mit dem Preis die folgende Formel eingeben:

=MITTELWERT(C2:C200)

Der durchschnittliche Preis beträgt 2,83 EUR, weshalb Sie sich noch nicht sobald auf Reichtum gebettet aus dem Berufsleben zurückziehen können. Alternativ zur manuellen Eingabe der Formel können Sie auch die letzte Zelle der Spalte, die Zelle C200, auswählen und die Tastenkombination + + drücken, um die gesamte Spalte zu markieren. Sie sehen dann unten rechts auf dem Bildschirm in der Statusleiste des Arbeitsblatts den vom Programm berechneten Mittelwert (siehe Abbildung 1.3). Wenn Sie diesen Wert unter Windows nicht zu Gesicht bekommen, klicken Sie die Statusleiste mit der rechten Maustaste an und wählen in dem Kontextmenü, das sich daraufhin öffnet, MITTELWERT aus. Wenn Ihre Statusleiste auf dem Mac ausgeblendet ist, klicken Sie das Menü ANSICHT an und wählen STATUSLEISTE aus, um sie einzublenden.

Abb. 1.3 Der Mittelwert der Preis-Spalte in der Statusleiste

1.3 Formeln und Daten schnell kopieren

Vielleicht möchten Sie Ihren aktuellen Gewinn lieber in Euro als in Prozent anzeigen. Sie können der Spalte E eine Überschrift hinzufügen, zum Beispiel Aktueller Gewinn. Nun müssen Sie in E2 nur noch die Spalten Preis und Gewinn miteinander multiplizieren:

=C2*D2

Das Ergebnis für Bier beträgt 2 EUR. Sie müssen nun diese Formel nicht in jeder Zelle der Spalte separat eingeben. Stattdessen schnappen Sie sich die rechte untere Ecke der Zelle und ziehen die Formel bis zur letzten Zelle, die die Formel enthalten soll (in unserem Fall am besten nach unten). Dabei werden die Adressen-Zellen der Spalten C und D so aktualisiert, dass sie jeweils ihrer neuen Zieladresse entsprechen. Wenn, wie im Fall der Imbiss-Daten, die linke Spalte vollständig ausgefüllt ist, können Sie die rechte untere Ecke der Zelle auch doppelt anklicken, damit Excel die Spalte vollständig mit Leben füllt (siehe Abbildung 1.4). Probieren Sie diesen Doppelklick aus. Ich verwende ihn im gesamten Buch, und wenn Sie sich erst einmal daran gewöhnt haben, ersparen Sie sich viel Kummer.

Abb. 1.4 Eine Formel durch Ziehen an der rechten unteren Ecke kopieren

Was aber, wenn Sie nicht wollen, dass sich die Zellen in der Formel relativ zum Ziel ändern, wenn sie gezogen oder kopiert werden? Wenn Sie verhindern wollen, dass etwas geändert wird, fügen Sie davor einfach ein $ ein.

Ändern Sie zum Beispiel die Formel in E2 in:

=C$2*D$2

Wenn Sie nun die Formel nach unten kopieren, verweist die Formel nur noch auf die Zeile 2.

Wenn Sie die Formel nach rechts kopieren, wird C zu D, D zu E und so weiter. Wenn Sie dieses Verhalten nicht haben wollen, setzen Sie vor den Verweis auf die Spalte ebenfalls ein $. Dies wird dann im Gegensatz zur relativen Referenz absolute Referenz oder absolute Adressierung genannt.

1.4 Zellen formatieren

Excel bietet für die Formatierung von Werten sowohl statische als auch dynamische Formatierungen an. Schauen Sie sich einmal Spalte E an, die Spalte Aktueller Gewinn, die Sie gerade angelegt haben. Markieren Sie diese Spalte, indem Sie auf die grau unterlegte Spatenbezeichnung E klicken. Klicken Sie dann die Markierung mit der rechten Maustaste an und wählen Sie ZELLEN FORMATIEREN.

Sie können Excel im Dialogfeld ZELLEN FORMATIEREN mitteilen, was für eine Art von Zahlen die Spalte E enthält. In unserem Fall ist es eine WäHRUNG. Und Sie können hier festlegen, wie viele Nachkommastellen eine Zahl in dieser Spalte haben soll. Behalten Sie zwei Nachkommastellen bei (siehe Abbildung 1.5). Sie finden im Dialogfeld ZELLEN FORMATIEREN auch Optionen, um die Schriftfarbe, die Ausrichtung des Textes, die Hintergrundfarbe, Ränder und so weiter zu ändern.

Abb. 1.5 Das Dialogfeld »Zellen formatieren«

Frage: Was machen Sie, wenn Sie nur die Zellen formatieren wollen, in denen ein bestimmter Wert oder ein bestimmter Wertebereich steht? Und wie erreichen Sie es, dass sich diese Formatierung abhängig vom aktuellen Wert ändert?

Sie setzen etwas ein, das bedingte Formatierung genannt wird. Dieses Buch nutzt diese Art der Formatierung weidlich aus.

Verlassen Sie das Dialogfeld ZELLEN FORMATIEREN und wechseln Sie auf die Registerkarte START. Im Abschnitt FORMATVORLAGEN befindet sich die Schaltfläche BEDINGTE FORMATIERUNG (siehe Abbildung 1.6). Klicken Sie diesen Menüpunkt an, und es öffnet sich ein Dropdownmenü mit Auswahlmöglichkeiten. Die bedingte Formatierung, die in diesem Text in der Regel verwendet wird, heißt FARBSKALEN. Wählen Sie eine Skala für Spalte E aus und beachten Sie, wie jede Zelle dieser Spalte abhängig davon, ob sich ein hoher oder ein niedriger Wert darin befindet, eine dementsprechende Hintergrundfarbe erhält.

Abb. 1.6 Eine bedingte Formatierung zuweisen

Um eine bedingte Formatierung wieder zu entfernen, verwenden Sie im Dropdownmenü BEDINGTE FORMATIERUNG den Eintrag REGELN LöSCHEN.

1.5 Inhalte einfügen

Oft haben Sie ein Interesse daran, dass in Zellen keine Formeln wie in Abbildung 1.4 herumliegen. Wenn Sie zum Beispiel die Formel ZUFALLSZAHL() verwenden, um einen Zufallswert zu erzeugen, ändert sich dieser Wert jedes Mal, wenn das Arbeitsblatt automatisch neu berechnet wird. Obwohl so etwas eigentlich nicht schlecht ist, kann es in bestimmten Situationen ziemlich lästig sein. Als Lösung bietet sich in diesem Fall an, die Zellen zu kopieren und dann nur die Werte wieder in sie zurückzuschreiben.

Wenn Sie aus Formeln einfache Werte machen möchten, kopieren Sie eine Spalte, die Formeln enthält (zum Beispiel die Spalte E), und fügen Sie sie mit der Option INHALTE EINFüGEN wieder ein. (Unter Windows finden Sie diese Option auf der Registerkarte START im Bereich EINFüGEN. Abhängig von der eingesetzten Excel-Version enthält das Dropdownmenü EINFüGEN sofort die Option WERTE EINFüGEN, oder Sie müssen den Umweg über das Dialogfeld INHALTE EINFüGEN gehen, das Abbildung 1.7 zeigt. Beachten Sie, dass es INHALTEEINFüGEN ermöglicht, Daten beim Einfügen von einer vertikalen in eine horizontale Ausrichtung und umgekehrt zu transponieren. Sie werden diese Funktion in späteren Kapiteln verwenden.

Abb. 1.7 Das Dialogfeld »Inhalte einfügen«

1.6 Diagramme hinzufügen

Die Arbeitsmappe mit den Verkäufen des Imbissstands enthält auch ein Arbeitsblatt mit dem Namen Kalorien, das eine kleinere Tabelle mit Angaben darüber enthält, wie viele Kalorien die einzelnen Artikel haben, die am Imbissstand verkauft werden. Daten dieser Art lassen sich in Excel problemlos auch grafisch darstellen. Auf der Registerkarte EINFüGEN (DIAGRAMME auf dem Mac) gibt es einen Bereich DIAGRAMME, der eine Reihe von grafischen Darstellungsmöglichkeiten wie Balkendiagramme, Liniendiagramme und Tortendiagramme zur Verfügung stellt.

Tipp
Wir verwenden in diesem Buch fast immer Balkendiagramme, Liniendiagramme und Punktdiagramme. Lassen Sie sich niemals mit einem Tortendiagramm erwischen. Und verwenden Sie erst recht nicht die 3D-Tortendiagramme, die Excel anbietet, oder mein Geist wird sogar aus meinem Grab heraus noch hinter Ihnen her sein. Sie sind hässlich, sie stellen Daten nicht besonders verständlich dar, und der 3D-Effekt hat weniger ästhetischen Wert als die Strandfotos, die im Wartezimmer meines Zahnarztes hängen.

Markieren Sie auf dem Arbeitsblatt KALORIEN die Spalten A und B. Klicken Sie dann im Menü SäULE auf GRUPPIERTE SäULE, um die Daten grafisch darzustellen. Spielen Sie mit dem Diagramm ein wenig herum. Sie können dort Bereiche mit der rechten Maustaste anklicken, um Formatierungsmenüs erscheinen zu lassen. Wenn Sie beispielsweise die Balken mit der rechten Maustaste anklicken, können Sie DATENREIHENFORMATIEREN auswählen, um dann die Füllfarbe zu ändern und aus dem standardmäßig von Excel verwendeten Blau zum Beispiel Schwarz machen, weil Ihnen das besser gefällt.

Es gibt keinen Grund, die standardmäßig vorhandene Legende beizubehalten. Markieren Sie sie und drücken Sie die Taste , um die Legende verschwinden zu lassen. Natürlich können Sie auch einzelne Bereiche des Diagramms auswählen, um die Größe der Schriftart zu ändern (das entsprechende Menü dafür befindet sich auf der Registerkarte START). Vielleicht sieht dann Ihr Diagramm so aus wie das in Abbildung 1.8.

Abb. 1.8 Ein gruppiertes Balkendiagramm einfügen

1.7 Die Menüs »Suchen« und »Ersetzen«

Sie werden in diesem Buch des Öfteren auf die Menüs SUCHEN und ERSETZEN zugreifen. Unter Windows können Sie entweder die Tastenkombination + drücken, um das Dialogfeld SUCHEN zu öffnen (ERSETZEN starten Sie mit + ), oder Sie verwenden im Abschnitt BEARBEITEN der Registerkarte START im Menüpunkt SUCHEN UND AUSWäHLEN die Schaltfläche SUCHEN. Auf dem Mac gibt es in der rechten oberen Ecke des Arbeitsblatts ein Suchfeld (drücken Sie dort die Taste mit dem nach unten zeigenden Pfeil, um das Menü ERSETZEN anzuzeigen), oder Sie drücken + , um das Menü SUCHEN UND ERSETZEN einzublenden.

Probieren Sie das einmal aus und öffnen Sie auf dem Arbeitsblatt Kalorien das Menü ERSETZEN. Sie können jedes auf dem Arbeitsblatt vorhandene Kalorien durch Energie ersetzen (siehe Abbildung 1.9), indem Sie die Begriffe in die entsprechenden Felder von SUCHEN UND ERSETZEN eingeben und die Schaltfläche ALLE ERSETZEN anklicken.

Abb. 1.9 »Suchen und Ersetzen«ausführen

1.8 Formeln für das Auffinden und Entnehmen von Werten

Wenn ich nicht davon ausginge, dass Sie wenigstens einige Excel-Formeln (wie SUMME, MIN, MAX und so weiter) kennen, müssten wir hier noch den ganzen Tag weitermachen. Ich möchte aber so schnell wie möglich richtig loslegen. Nichtsdestotrotz gibt es noch ein paar Formeln, die des Öfteren in diesem Buch verwendet werden und die Sie bisher wohl nur dann benötigt haben, wenn Sie wirklich tief in die wunderbare Welt der Tabellenkalkulationen eingedrungen sind. Diese Formeln haben damit zu tun, einen Wert in einem Wertebereich zu suchen und seinen Ort zurückzugeben beziehungsweise eine Position in einem Wertebereich aufzusuchen und deren Wert zurückzugeben.

Ich möchte einige dieser Formeln auf dem Arbeitsblatt Kalorien behandeln.

Ab und an kommt es vor, dass Sie wissen wollen, an welcher Position einer Spalte oder Zeile ein Element zu finden ist. Ist es das erste, das zweite, das dritte Element? Die entsprechende Aufgabe übernimmt die Formel VERGLEICH() gerne für Sie. Tragen Sie in die Zelle A18 die Bezeichnung Vergleich ein. In der Zelle daneben, in B18, geben Sie die Formel ein, um herauszufinden, ob und wo in der Artikelliste das Wort Hamburger auftaucht. Damit diese Formel funktioniert, müssen Sie ihr einen zu suchenden Wert, einen Suchbereich und eine 0 mitgeben, um sie zu zwingen, Ihnen die Position des Schlüsselwortes zurückzugeben:

=VERGLEICH(ʺHamburgerʺ;A2:A15;0)

Das Ergebnis ist eine 6, weil Hamburger an der sechsten Position des vorgegebenen Wertebereichs steht (siehe Abbildung 1.10).

Kümmern wir uns nun um INDEX(). Tragen Sie in die Zelle A19 die Bezeichnung Index ein. Die Formel enthält einen Wertebereich und jeweils als Zahl eine Zeile und eine Spalte. Sie gibt den Wert zurück, der sich im Wertebereich an der angegebenen Position befindet. Sie können zum Beispiel die Formel INDEX auf die Kalorientabelle A1:B15 anwenden, um die Kalorienzahl herauszufinden, die der Artikel Wasser enthält; der entsprechende Wert steht in Zeile 3 der Spalte 2:

=INDEX(A1:B15;3;2)

Als Ergebnis wird 0 zurückgegeben. Ein Blick auf die Tabelle in Abbildung 1.10 zeigt, dass Wasser keine Kalorien hat.

Eine andere Formel, die ich im Buch gerne verwende, ist BEREICH.VERSCHIEBEN(). Tragen Sie in die Zelle A20 Bereich verschieben ein, und verwenden Sie B20, um mit der Formel herumzuspielen.

Sie sorgen mit dieser Formel für einen Bereich, der wie ein Cursor fungiert, der sich anhand von Zeilen- und Spaltenadressen bewegt. (Dies funktioniert wie bei INDEX, bei dem es um einen einzelnen Wert geht und dabei die Zählung mit null beginnt.) Versorgen Sie für ein Beispiel die Formel BEREICH.VERSCHIEBEN mit einer Referenz auf die oberste linke Zelle des Arbeitsblatts, A1, und lassen Sie den Wert zurückgeben, der sich drei Zellen weiter unten in Spalte 0 befindet.

=BEREICH.VERSCHIEBEN(A1;3;0)

Dies gibt den Namen des dritten Elements in der Liste zurück: Schokoladenriegel (siehe Abbildung 1.10).

Die letzte Formel, die ich in diesem Abschnitt vorstellen möchte, ist KKLEINSTE(das mit KGRÖSSTE ein auf die gleiche Weise funktionierendes Gegenstück besitzt). Wenn Sie eine Liste mit Werten haben und zum Beispiel den drittkleinsten Wert zurückgeben wollen, erledigt KKLEINSTE diesen Job für Sie. Wenn Sie diese Aussage nachprüfen wollen, tragen Sie in die Zelle A21 die Bezeichnung K-Kleinster ein und füttern Sie KKLEINSTE in B21 mit der Liste der Kalorien und einem Index von 3:

=KKLEINSTE(B2:B15;3)

Zurückgegeben wird 150, weil dies (nach 0 (für Wasser) und 120 (für Limonade) der drittkleinste Wert in der Kalorienliste ist, wie Abbildung 1.10 zeigt.

Abb. 1.10 Formeln, die Sie kennen sollten

Um Verweise auf Werte zu erhalten, gibt es eine Formel, bei der es sich um eine Art von VERGLEICH für Steroide handelt: SVERWEIS (diese Formel besitzt ein waagerechte arbeitendes Gegenstück WVERWEIS. Für diese Formel gibt es einen eigenen Abschnitt, weil sie ein Biest ist.

1.9 SVERWEIS verwenden, um Daten zusammenzuführen

Weiter geht’s. Wechseln Sie zum Arbeitsblatt Verkäufe. Sie können hier problemlos eine Zelle aus dem vorherigen Arbeitsblatt Kalorien heraus ansprechen, indem Sie einfach den Namen des Arbeitsblatts und ein Ausrufezeichen (!) vor eine Zelle setzen, deren Inhalt Sie auslesen wollen. So ist zum Beispiel Kalorien!B2 eine Referenz auf die Kalorien von Bier, und zwar unabhängig davon, auf welchem Arbeitsblatt Sie gerade arbeiten.

Wie sieht das nun aus, wenn Sie wollen, dass die Kalorienwerte auch in einer Spalte auf dem Arbeitsblatt mit den Verkäufen erscheinen, und zwar so, dass neben jedem verkauften Artikel die entsprechende Kalorienzahl steht? Für diese Aufgabe gibt es eine Formel, die SVERWEIS heißt.

Geben Sie als Überschrift für Spalte F Kalorien ein. Die Zelle F2 soll die Kalorienzahl des ersten Bierverkaufs aufnehmen, die für Bier auf dem Arbeitsblatt Kalorien hinterlegt worden ist. Zu diesem Zweck müssen Sie der Formel die Artikelbezeichnung aus der Zelle A2, eine Referenz auf die Tabelle Kalorien!$A$1:$B$15 und die relative Adresse der Spalte angeben, aus der der Rückgabewert ausgelesen werden soll (in unserem Beispiel ist dies die zweite Spalte):

=SVERWEIS(A2;Kalorien!$A$1:$B$15;2;FALSE)

Das FALSE am Ende der Formel SVERWEIS bedeutet, dass Sie Bier nur in genau dieser Schreibweise akzeptieren. Wenn die Formel Bier nicht in der Kalorientabelle findet, soll sie eine Fehlermeldung zurückgeben.

Wenn Sie die Formel eingeben, sehen Sie, dass aus dem Arbeitsblatt Kalorien 200 Kalorien übernommen werden. Da Sie vor die Tabellenreferenz ein $ platziert haben, können Sie die Formel in die gesamte Spalte kopieren, indem Sie auf der rechten unteren Ecke der Zelle einen Doppelklick ausführen. Abbildung 1.11 zeigt das Ergebnis dieser Aktion.

Abb. 1.11 Kalorienwerte mit »SVERWEIS«übernehmen

1.10 Filtern und sortieren

Nachdem das Arbeitsblatt nun auch die Kalorienwerte enthält, möchten Sie vielleicht nur die Transaktionen sehen, die mit Gefrorenes zu tun haben. Zu diesem Zweck müssen Sie das Arbeitsblatt filtern. Um dies zu erreichen, markieren Sie zunächst die Daten im Bereich A1:F200. Sie setzen den Cursor in die Zelle A1 und drücken + + , dann . Einfacher noch ist es, den Spaltenkopf A anzuklicken, die Maustaste gedrückt zu halten und den Mauszeiger bis auf den Spaltenkopf F zu ziehen, um alle sechs Spalten zu markieren.

Um dann für alle sechs Spalten das automatische Filtern einzuschalten, klicken Sie auf der Registerkarte DATEN auf die Schaltfläche FILTERN, die wie ein großer Trichter aussieht (siehe Abbildung 1.12).

Abb. 1.12 Automatisches Filtern einrichten

Wenn das automatische Filtern erst einmal eingerichtet worden ist, können Sie auf das Dropdownmenü klicken, das in der Zelle B1 erscheint, und sich nur die Transaktionen einer bestimmten Kategorie (in unserem Fall Gefrorenes) anzeigen lassen (siehe Abbildung 1.13).

Abb. 1.13 Nach einer Kategorie filtern

Wenn Sie das Filtern eingeschaltet haben, erhalten Sie in Excel über die Statusleiste zusammengefasste Informationen für die Zellen, die noch angezeigt werden. Nachdem Sie nach Gefrorenem gefiltert haben, können Sie zum Beispiel die Spalte E markieren und auf die Schnelle erkennen, wie viel Umsatz mit Eis gemacht worden ist (siehe Abbildung 1.14).

Abb. 1.14 Die Summe einer gefilterten Spalte

Das automatische Filtern erlaubt es Ihnen auch, zu sortieren. Wenn Sie zum Beispiel nach dem Gewinn sortieren wollen, klicken Sie das Filtermenü in der Zelle Gewinn (D1) an und wählen NACH GRöSSE SORTIEREN (AUFSTEIGEND) oder die entsprechende absteigende Option (siehe Abbildung 1.15).

Abb. 1.15 Aufsteigend sortieren

Um die gesamte Filterung wieder zu entfernen, öffnen Sie entweder erneut das Filtermenü der Spalte Kategorie und aktivieren das Kontrollkästchen vor (ALLES AUSWäHLEN), oder Sie schalten im Menüband die Schaltfläche FILTERN wieder aus, indem Sie sie erneut anklicken. Sie werden nun feststellen, dass Excel die Sortierung von Gefrorenes in der Spalte Gewinn beibehält, obwohl es keine Filterung mehr gibt und alle anderen Daten wieder sichtbar sind.

Wenn Sie komplexere Sortierungen vornehmen wollen, als das automatische Filtern anbietet, gibt es in Excel das Dialogfeld SORTIEREN. Wenn Sie diese Funktion nutzen wollen, markieren Sie die Daten, die sortiert werden sollen, (schnappen Sie sich wieder die Spalten A bis F) und klicken Sie in Excel auf der Registerkarte DATEN auf die Schaltfläche SORTIEREN. Dies öffnet das Dialogfeld SORTIEREN. Um auf dem Mac an dieses Fenster zu gelangen, müssen Sie im SORTIEREN-Menü auf den nach unten zeigenden Pfeil klicken und die benutzerdefinierte Sortierung auswählen.

Falls Ihre Spalten Überschriften haben, werden diese im Dialogfeld SORTIEREN angezeigt (siehe Abbildung 1.16). Wenn das wie in unserem Beispiel der Fall ist, können Sie anhand der Namen die Spalten auswählen, die sortiert werden sollen.

Abb. 1.16 Das Dialogfeld »Sortieren«

Einer der interessantesten Bestandteile des Sortierens verbirgt sich hinter der Schaltfläche OPTIONEN dieses Dialogfelds. Hier können Sie zum Beispiel festlegen, dass Daten nicht spalten-, sondern zeilenweise (von links nach rechts) sortiert werden. So etwas ist über die automatische Filterung nicht zu erreichen. Sie werden im Verlauf dieses Buches sowohl Spalten als auch Zeilen sortieren müssen, und hier ist der Ort, an dem Sie dies einstellen. Brechen Sie für jetzt das Sortieren ab, weil sich die Daten bereits in der Reihenfolge befinden, in der Sie sie haben wollen.

1.11 Pivot-Tabellen verwenden

Was ist, wenn Sie von jedem Artikel wissen wollen, wie viel Sie davon verkauft haben? Oder wenn Sie für jeden Artikel wissen wollen, welche Einnahmen Sie damit erzielt haben?

Diese Fragen entsprechen Abfragen wie AGGREGATE oder GROUP BY, die Sie in einer herkömmlichen SQL-Datenbank absetzen. Aber Ihre Daten liegen nicht in einer Datenbank vor. Sie befinden sich auf dem Arbeitsblatt einer Tabellenkalkulation. Das ist der Punkt, an dem die Pivot-Tabellen ins Spiel kommen.

Sie beginnen, wie beim Filtern von Daten, damit, dass Sie die Daten markieren, mit denen Sie arbeiten wollen – in diesem Fall die Verkaufsdaten im Bereich A1 bis F200. Sie klicken auf der Registerkarte EINFüGEN (DATEN auf dem Mac) auf die Schaltfläche PIVOTTABLE und weisen Excel an, ein neues Arbeitsblatt mit einer Pivot-Tabelle zu erstellen. Auch wenn einige Excel-Versionen es zulassen, eine PivotTable auf einem vorhandenen Arbeitsblatt anzulegen, hat es sich in der Praxis bewährt, ein neues Arbeitsblatt zu erstellen – außer Sie haben einen wirklich guten Grund für die Alternative.

Am rechten Rand des neuen Arbeitsblatts befindet sich der Pivot-Assistent mit der PivotTable-Feldliste  (die auf dem Mac ein schwebendes Fenster ist). Die Feldliste ermöglicht es Ihnen, auf die Spalten der ursprünglich ausgewählten Daten zuzugreifen und sie als Filter für Berichte, als Beschriftung für gruppierte Spalten und Zeilen der neuen Pivot-Tabelle oder für den Wertebereich zu verwenden. Ein Berichtsfilter funktioniert so ähnlich wie einer der Filter, die im vorherigen Abschnitt beschrieben werden – er erlaubt es Ihnen, mit einer Teilmenge wie Gefrorenes zu arbeiten. Dabei sorgen die Spalten- und die Zeilenbeschriftungen für eindeutige Werte, die aus den ausgewählten Spalten stammen und die Substanz des PivotTable-Berichts bilden.

Unter Windows sehen Sie zunächst nichts von einer Pivot-Tabelle, da der Basisbereich vollständig leer ist, während die Tabelle auf dem Mac häufig schon mit Werten vorbelegt ist, die aus der ersten der ausgewählten Spalten die Zeilen und aus der zweiten der ausgewählten Spalten die Spalten der Pivot-Tabelle bilden. Wenn Sie einen Mac benutzen, deaktivieren Sie als Erstes in der PivotTable-Feldliste alle gesetzten Häkchen, um ebenfalls eine leere Tabelle zu erhalten.

Gehen wir nun davon aus, dass Sie wissen wollen, welche Einkünfte Sie mit den einzelnen Artikeln erzielt haben. Aktivieren Sie zu diesem Zweck im Pivot-Assistenten das Feld Artikel, um es in die ZEILENBESCHRIFTUNG zu übernehmen. Aktivieren Sie danach in der Feldliste das Feld Preis, um es in den Bereich WERTE des Pivot-Assistenten zu übernehmen. Bei einigen Excel-Versionen müssen Sie diese Aufgaben dadurch erledigen, dass Sie die beiden Felder aus der Feldliste an die dementsprechend beschrifteten Positionen links im Arbeitsblatt ziehen. Sie haben damit die Einnahmen der einzelnen Artikel gruppiert.

Standardmäßig wird eine Pivot-Tabelle so angelegt, dass Werte summiert werden. Es kommt aber auch vor, dass eine Pivot-Tabelle nach ihrer Einrichtung zunächst nur aussagt, wie oft ein Element vorkommt (in unserem Beispiel ist Bier zwanzigmal verkauft worden, wie Abbildung 1.17 zeigt).

Abb. 1.17 Der Pivot-Assistent und die Anzahl von Verkäufen je Artikel

Sie müssen aus dem Zählen ein Summieren machen, wenn Sie erfahren wollen, was Sie je Artikel eingenommen haben. Öffnen Sie zu diesem Zweck im Pivot-Assistenten das Dropdownmenü im Abschnitt WERTE rechts neben Artikel und wählen Sie WERTFELDEINSTELLUNGEN. (Klicken Sie auf dem Mac auf die Schaltfläche mit dem kleinen i.) Wählen Sie dann unter den verschiedenen Optionen SUMME aus und klicken Sie auf OK.

Abb. 1.18 Einnahmen je Artikel und Kategorie

Wie können Sie es nun erreichen, die Summierung auch noch nach Kategorien vorzunehmen? Ziehen Sie zu diesem Zweck Kategorie aus der Feldliste in den Abschnitt SPALTENBESCHRIFTUNG des Pivot-Assistenten. Dies ergibt dann eine Tabelle, wie sie Abbildung 1.18 zeigt. Beachten Sie, dass die Pivot-Tabelle Zeilen und Spalten automatisch zu Gesamtergebnissen zusammenfasst.

Und wenn Sie etwas aus der Tabelle wieder herausnehmen wollen, deaktivieren Sie es einfach oder schnappen Sie sich den entsprechenden Eintrag im Pivot-Assistenten und ziehen ihn dort wieder heraus. Machen Sie dies jetzt mit dem Eintrag Kategorie.

Wenn Sie den gewünschten Bericht als Pivot-Tabelle aufgebaut haben, können Sie seine Werte markieren und auf einem anderen Arbeitsblatt einfügen, um sie weiter zu bearbeiten. Kopieren Sie die Werte und fügen Sie nur deren Inhalte auf einem neuen Arbeitsblatt ein. Geben Sie diesem Arbeitsblatt den Namen Einnahmen je Artikel (siehe Abbildung 1.19).

Abb. 1.19 Das Arbeitsblatt »Einnahmen je Artikel«, das durch das Kopieren von Werten aus einer Pivot-Tabelle erstellt wurde

Scheuen Sie sich nicht, so lange mit den Zeilen und Spalten der Pivot-Tabelle herumzuspielen, bis Sie genau wissen, was dabei passiert. Versuchen Sie zum Beispiel, eine Pivot-Tabelle anzulegen, die anzeigt, wie viele Kalorien je Kategorie verkauft worden sind.

1.12 Array-Formeln verwenden

In der Arbeitsmappe mit den Transaktionen des Imbissstandes gibt es ein Arbeitsblatt mit dem Namen Provision. Es hat sich herausgestellt, dass Sie von Coach O’Shaughnessy nur dann die Genehmigung zur Führung des Imbissstandes bekommen, wenn Sie ihm dafür eine Provision zahlen (um vielleicht seine Socken-Kaufsucht zu subventionieren). Das Arbeitsblatt Provision enthält in Prozent pro Artikel das, was der Coach beim Verkauf eines Artikels kassiert.

Wie viel schulden Sie ihm nun für das Spiel vom letzten Abend? Um diese Frage zu beantworten, müssen Sie die Summe der Einkünfte der einzelnen Artikel aus der zuletzt angelegten Pivot-Tabelle mit den Prozentsätzen multiplizieren, die der Coach erhält, und die Ergebnisse dann summieren.

Für diese Operation gibt es eine fantastische Formel, die das Multiplizieren und Summieren in einem Rutsch vornimmt. Als sie getauft wurde, hat man sich wenig Mühe mit der Namensgebung gemacht und sie einfach nur SUMMENPRODUKT genannt. Geben Sie auf dem Arbeitsblatt Einnahmen je Artikel in Zelle E1 die Bezeichnung Zahlung an den Coach ein und fügen Sie der Zelle E2 diese Formel hinzu:

=SUMMENPRODUKT(B2:B15;Provision!B2:O2)

Upsi! Da muss irgendetwas schiefgelaufen sein; die Zelle gibt nur #WERT! aus. Was hat da nicht geklappt?

Auch wenn Sie zwei Bereiche gleicher Größe ausgewählt und in SUMMENPRODUKT eingetragen haben, erkennt die Formel nicht, dass diese Bereiche gleich sind, weil der eine vertikal und der andere horizontal verläuft.

Glücklicherweise kennt Excel eine Funktion, um Arrays in die richtige Richtung zu »drehen«. Sie heißt MTRANS. Sie müssen die Formel deshalb abändern:

=SUMMENPRODUKT(B2:B15;MTRANS(Provision!B2:O2))

Das war wohl wieder nichts! Die Fehlermeldung ändert sich nicht.

Der Grund dafür, dass Sie immer noch mit einer Fehlermeldung zu kämpfen haben, ist eine Besonderheit von Excel: Standardmäßig gibt jede Formel dieses Programms nur einen einzigen Wert zurück. Selbst MTRANS gibt nur den ersten Wert des umgruppierten Arrays zurück. Wenn Sie wollen, dass das gesamte Array zurückgegeben wird, müssen Sie aus SUMMENPRODUKT eine »Array-Formel« machen. Dieser Begriff bedeutet genau das, was Sie sich darunter vorstellen: Array-Formeln geben Arrays und nicht nur einzelne Werte zurück.

Sie müssen nichts daran ändern, wie Sie Ihr SUMMENPRODUKT schreiben, um aus der Formel eine Array-Formel zu machen. Alles was Sie tun müssen, ist, nach dem Schreiben statt die Tastenkombination + + zu drücken. Auf dem Mac verwenden Sie + .

Sieg! Wie Abbildung 1.20 zeigt, ergibt die Berechnung 57,60 Euro. (Ich schlage vor, diesen Betrag auf 50 Euro abzurunden. Wie viele Socken benötigt der Coach denn noch?)

Abb. 1.20 Über eine Array-Formel ein »SUMMENPRODUKT«erhalten

1.13 Probleme mit dem Solver lösen

Viele der Techniken, um die es in diesem Buch geht, laufen auf Optimierungsmodelle hinaus. Bei einem Optimierungsproblem handelt es sich um ein Problem, bei dem Sie die beste Entscheidung fällen müssen (die besten Investitionen auswählen, die Kosten Ihres Unternehmens minimieren, die Vorlesungen herausfinden, die niemals morgens stattfinden, und so weiter). Bei Optimierungsmodellen stoßen Sie oft auf die Begriffe »minimieren« und »maximieren«, wenn es um Zielvorgaben geht.

In der Data Science bestehen viele Methoden wie künstliche Intelligenz, Data-Mining und Prognosen aus nichts anderem als aus einer Aufbereitung von Daten, die um einen Modellierungsschritt erweitert wird, bei dem es sich um ein Optimierungsmodell handelt. Aus diesem Grund wäre es sinnvoll, Ihnen zuerst einmal etwas über Optimierung zu erzählen. Es wäre nun aber extrem schwierig, auf der Stelle alles über Optimierung zu lernen, was Sie wissen müssten. Deshalb beschäftigen Sie sich in Kapitel 4 intensiv mit diesem Thema, nachdem Sie in den Kapiteln 2 und 3 auf angenehmere Weise Probleme des maschinellen Lernens gelöst haben. Aber um die Lücke wenigstens etwas zu füllen, sollen Sie hier ein wenig Erfahrung im Umgang mit Optimierungen sammeln. Nennen Sie es Schnupperkurs.

Optimierungsprobleme werden in Excel mit einem Add-In gelöst, das Solver heißt.

Unter Windows kann es passieren, dass Sie Solver manuell aktivieren müssen, indem Sie auf D

ATEI

(beziehungsweise in Windows 2007 auf die linke obere Windows-Schaltfläche) klicken. Dann wählen Sie O

PTIONEN

|

A

DD

-I

NS

und im Dropdownmenü V

ERWALTEN

den Punkt E

XCEL

-A

DD

-I

NS

. Klicken Sie nun auf die Schaltfläche G

EHE ZU

und überprüfen Sie das Kontrollkästchen vor S

OLVER

. Klicken Sie auf OK.

Auf dem Mac wird Solver hinzugefügt, indem Sie zu E

XTRAS

|

A

DD

-I

NS

gehen und im Menü S

OLVER

.

XLAM

auswählen.

In jeder Excel-Version erscheint spätestens jetzt im Abschnitt ANALYSE der Registerkarte DATEN die Schaltfläche SOLVER.

Nachdem nun Solver installiert ist, darf endlich auch ein Optimierungsproblem auftauchen: Sie erfahren, dass Sie am Tag 2.499 Kalorien benötigen. Welches ist die kleinste Anzahl an Artikeln, die Sie am Imbissstand kaufen müssen, um diesen Kalorienwert zu erreichen? Es ist offensichtlich, dass Sie diesen Wert mit dem Kauf von zehn Portionen Eiscreme-Sandwich erreichen, die jeweils 240 Kalorien haben, aber gibt es vielleicht eine Alternative, die das Ergebnis mit weniger Artikeln erreicht?

Legen Sie als Erstes eine Kopie des Arbeitsblatts KALORIEN an. Wenn Sie nicht wissen, wie Sie in Excel ein Arbeitsblatt kopieren: Klicken Sie die Registerkarte des Arbeitsblatts, das Sie kopieren wollen, mit der rechten Maustaste an und wählen Sie VERSCHIEBEN ODERKOPIEREN. Geben Sie dem Arbeitsblatt einen neuen Namen (zum Beispiel Kalorien-Solver) und vergessen Sie nicht, das Kontrollkästchen vor KOPIE ERSTELLEN zu aktivieren, bevor Sie das Dialogfeld durch Klicken auf OK wieder verlassen. Dadurch erhalten Sie ein Arbeitsblatt wie das in Abbildung 1.21.

Abb. 1.21 Das kopierte Arbeitsblatt »Kalorien-Solver«

Um Solver ans Arbeiten zu bekommen, müssen Sie dem Add-In einen Zellenbereich angeben, der als Grundlage für die Entscheidungsfindung dienen soll. In diesem Fall muss Solver entscheiden, wie viele Exemplare welcher Artikel gekauft werden sollen. Beschriften Sie deshalb Zelle C1 mit Wie viele? oder so, wie es Ihnen gefällt.

Excel geht davon aus, dass leere Zellen 0 enthalten, weshalb Sie in solche Zellen nichts eintragen müssen.

Summieren Sie in Zelle C16 die Anzahl an Artikeln, die Sie kaufen müssen:

=SUMME(C2:C15)

In der Zelle darunter können Sie die Kalorien dieser Artikel summieren (was insgesamt 2.400 ergeben sollte). Sie verwenden hierfür die Formel SUMMENPRODUKT:

=SUMMENPRODUKT(B2.B15;C2:C15)

Damit erhalten Sie ein Arbeitsblatt wie das in Abbildung 1.22.

Abb. 1.22 Die Vorbereitungen für das Zählen der Artikel und der Kalorien sind abgeschlossen.

Jetzt sind Sie so weit, das Modell aufzubauen. Starten Sie das Solver-Fenster, indem Sie auf der Registerkarte DATEN die Schaltfläche SOLVER anklicken.

Hinweis
Das Solver-Fenster von Excel 2010, das Abbildung 1.23