Handbuch Data Science und KI - Stefan Papp - E-Book

Handbuch Data Science und KI E-Book

Stefan Papp

0,0

Beschreibung

- Umfassender Überblick über die verschiedenen Anwendungsbereiche der Datenwissenschaft
- Fallbeispiele aus der Praxis machen die beschriebenen Konzepte greifbar
- Praktische Beispiele helfen Ihnen, einfache Datenanalyseprojekte durchzuführen
- Ihr exklusiver Vorteil: E-Book inside beim Kauf des gedruckten Buches

Data Science, Big Data und künstliche Intelligenz gehören derzeit zu den Konzepten, über die in Industrie, Regierung und Gesellschaft am meisten geredet wird, die aber auch am meisten missverstanden werden. Dieses Buch klärt diese Konzepte und vermittelt Ihnen praktisches Wissen, um sie anzuwenden.

Das Buch nähert sich dem Thema Data Science von mehreren Seiten. Es zeigt Ihnen, wie Sie Datenplattformen aufbauen sowie Data Science Tools und Methoden anwenden. Auf dem Weg dorthin hilft es Ihnen zu verstehen - und den verschiedenen Interessengruppen zu erklären - wie Sie aus diesen Techniken einen Mehrwert generieren können, z. B. indem Sie Data Science einsetzen, um Unternehmen dabei zu helfen, schnellere Entscheidungen zu treffen, Kosten zu senken und neue Märkte zu erschließen.

In einem zweiten Teil werden die grundlegenden Konzepte der Datenwissenschaft beschrieben, einschließlich mathematischer Grundlagen, Verfahren maschinellen Lernens inklusive Frameworks sowie Text-, Bild- und Sprachverarbeitung. Abgerundet wird das Buch durch rechtliche Überlegungen und praktische Fallstudien aus verschiedenen Branchen.

Das Autor:innenteam besteht aus Datenexpert:innen aus der Wirtschaft und aus dem akademischen Umfeld. Das Spektrum reicht von strategisch ausgerichteten Führungskräften über Data Engineers, die Produktivsysteme erstellen, bis hin zu Data Scientists, die aus Daten Wert generieren. Alle Autor:innen sind im Vorstand oder Mitglieder der Vienna Data Science Group (VDSG). Diese NGO hat sich zum Ziel gesetzt, eine Plattform für den Wissensaustausch zu etablieren.

AUS DEM INHALT //
- Grundlagen der Mathematik: ML-Algorithmen verstehen und nutzen
- Machine Learning: Von statistischen zu neuronalen Verfahren; von Transformers und GPT-3 bis AutoML
- Natural Language Processing: Werkzeuge und Techniken zur Gewinnung von Erkenntnissen aus Textdaten und zur Entwicklung von Sprachtechnologien
- Computer Vision: Erkenntnisse aus Bildern und Videos gewinnen
- Modellierung und Simulation: Modellierung des Verhaltens komplexer Systeme, z. B. der Ausbreitung von COVID-19. Was-wäre-wenn-Analysen
- ML und KI in der Produktion: Vom Experiment zum Data-Science-Produkt
- Ergebnisse präsentieren: Grundlegende Präsentationstechniken für Data Scientists

Sie lesen das E-Book in den Legimi-Apps auf:

Android
iOS
von Legimi
zertifizierten E-Readern

Seitenzahl: 1029

Das E-Book (TTS) können Sie hören im Abo „Legimi Premium” in Legimi-Apps auf:

Android
iOS
Bewertungen
0,0
0
0
0
0
0
Mehr Informationen
Mehr Informationen
Legimi prüft nicht, ob Rezensionen von Nutzern stammen, die den betreffenden Titel tatsächlich gekauft oder gelesen/gehört haben. Wir entfernen aber gefälschte Rezensionen.

Beliebtheit




Stefan Papp, Wolfgang Weidinger, Katherine Munro, Bernhard Ortner, Annalisa Cadonna, Georg Langs, Roxane Licandro, Mario Meir-Huber, Danko Nikolić, Zoltan Toth, Barbora Vesela, Rania Wazir, Günther Zauner

Handbuch Data Science und KI

Mit Machine Learning und Datenanalyse Wert aus Daten generieren

Alle in diesem Buch enthaltenen Informationen, Verfahren und Darstellungen wurden nach bestem Wissen zusammengestellt und mit Sorgfalt getestet. Dennoch sind Fehler nicht ganz auszuschließen. Aus diesem Grund sind die im vorliegenden Buch enthaltenen Informationen mit keiner Verpflichtung oder Garantie irgendeiner Art verbunden. Autor:innen und Verlag übernehmen infolgedessen keine juristische Verantwortung und werden keine daraus folgende oder sonstige Haftung übernehmen, die auf irgendeine Art aus der Benutzung dieser Informationen – oder Teilen davon – entsteht.Ebenso übernehmen Autor:innen und Verlag keine Gewähr dafür, dass beschriebene Verfahren usw. frei von Schutzrechten Dritter sind. Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem Buch berechtigt deshalb auch ohne besondere Kennzeichnung nicht zu der Annahme, dass solche Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei zu betrachten wären und daher von jedermann benutzt werden dürften.

Bibliografische Information der Deutschen Nationalbibliothek:Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.d-nb.de abrufbar.

Dieses Werk ist urheberrechtlich geschützt.Alle Rechte, auch die der Übersetzung, des Nachdruckes und der Vervielfältigung des Buches, oder Teilen daraus, vorbehalten. Kein Teil des Werkes darf ohne schriftliche Genehmigung des Verlages in irgendeiner Form (Fotokopie, Mikrofilm oder ein anderes Verfahren) – auch nicht für Zwecke der Unterrichtsgestaltung – reproduziert oder unter Verwendung elektronischer Systeme verarbeitet, vervielfältigt oder verbreitet werden.

© 2022 Carl Hanser Verlag München, www.hanser-fachbuch.deLektorat: Sylvia HasselbachCopy editing: Sandra Gottmann, WasserburgUmschlagdesign: Marc Müller-Bremer, München, www.rebranding.deUmschlagrealisation: Max KostopoulosTitelmotiv: © gettyimages.de/ValeryBrozhinsky

Print-ISBN:        978-3-446-46947-1E-Book-ISBN:   978-3-446-47245-7E-Pub-ISBN:     978-3-446-47410-9

Inhalt

Titelei

Impressum

Inhalt

Geleitwort

Vorwort

1 Einführung

1.1 Was sind Data Science, Machine Learning und Künstliche Intelligenz?

1.2 Datenstrategie

1.3 Von der Strategie zu den Anwendungsfällen

1.3.1 Datenteams

1.3.2 Daten und Plattformen

1.3.3 Modellierung und Analyse

1.4 Implementierung von Anwendungsfällen

1.4.1 Iterative Erkundung von Anwendungsfällen

1.4.2 End-to-End-Datenverarbeitung

1.4.3 Datenprodukte

1.5 Beispiele für reale Anwendungsfälle

1.5.1 Digitalisierung der Wertschöpfungskette

1.5.2 Marketing-Segment-Analyse

1.5.3 360°-Sicht auf den Kunden

1.5.4 Anwendungsfälle für NGOs und Nachhaltigkeit

1.6 Ergebnisse liefern

1.7 Kurz und bündig

2 Infrastruktur

2.1 Einführung

2.2 Hardware

2.2.1 Verteilte Systeme

2.2.2 Hardware für KI-Anwendungen

2.3 Linux Essentials für Datenexperten

2.4 Terraform

2.5 Cloud

2.5.1 Basisdienste

2.5.2 Cloud-native Lösungen

2.6 Kurz und bündig

3 Datenarchitektur

3.1 Übersicht

3.1.1 Maslowsche Bedürfnishierarchie für Daten

3.1.2 Anforderungen an die Datenarchitektur

3.1.3 Die Struktur einer typischen Datenarchitektur

3.1.4 ETL (Extrahieren, Transformieren, Laden)

3.1.5 ELT (Extrahieren, Laden, Transformieren)

3.1.6 ETLT

3.2 Datenerfassung und -integration

3.2.1 Datenquellen

3.2.2 Traditionelle Dateiformate

3.2.3 Moderne Dateiformate

3.2.4 Zusammenfassung

3.3 Data Warehouses, Data Lakes und Lakehouses

3.3.1 Data Warehouses

3.3.2 Data Lakes und das Lakehouse

3.3.3 Zusammenfassung: Vergleich zwischen Data Warehouses und Lakehouses

3.4 Datenverarbeitung und -umwandlung

3.4.1 Big Data und Apache Spark

3.4.2 Databricks

3.5 Workflow-Orchestrierung

3.6 Ein Datenarchitektur-Use-Case

3.7 Kurz und bündig

4 Data Engineering

4.1 Integration von Daten

4.1.1 Daten-Pipelines

4.1.2 Entwerfen von Data Pipelines

4.1.3 CI/CD

4.1.4 Programmiersprachen

4.1.5 Kafka als Referenz-ETL-Werkzeug

4.1.6 Entwurfsmuster

4.1.7 Automatisierung der Stufen

4.1.8 Sechs Bausteine der Data Pipeline

4.2 Verwaltung analytischer Modelle

4.2.1 Modelllieferung

4.2.2 Modell-Update

4.2.3 Modell- oder Parameter-Update

4.2.4 Modellskalierung

4.3 Feedback in die operationalen Prozesse

4.4 Kurz und bündig

5 Datenmanagement

5.1 Datenmanagement

5.1.1 Datenkatalog

5.1.2 Data Discovery

5.1.3 Datenqualität

5.1.4 Verwaltung von Stammdaten

5.1.5 Gemeinsame Nutzung von Daten

5.2 Informationssicherheit

5.2.1 Datenklassifizierung

5.2.2 Schutz der Privatsphäre

5.2.3 Verschlüsselung

5.2.4 Secrets Management

5.2.5 Defense in Depth

5.3 Kurz und bündig

6 Mathematik

6.1 Lineare Algebra

6.1.1 Vektoren und Matrizen

6.1.2 Operationen zwischen Vektoren und Matrizen

6.1.3 Lineare Transformationen

6.1.4 Eigenwerte, Eigenvektoren und Eigendekomposition

6.1.5 Andere Matrixzerlegungen

6.2 Kalkulus und Optimierung

6.2.1 Ableitung

6.2.2 Gradient und Hessian

6.2.3 Gradientenabstieg

6.2.4 Eingeschränkte Optimierung

6.3 Wahrscheinlichkeitsrechnung

6.3.1 Diskrete und kontinuierliche Zufallsvariablen

6.3.2 Erwartungswert, Varianz und Kovarianz

6.3.3 Unabhängigkeit, bedingte Verteilungen und Bayes-Theorem

6.4 Kurz und bündig

7 Statistik – Grundlagen

7.1 Daten

7.2 Einfache lineare Regression

7.3 Multiple lineare Regression

7.4 Logistische Regression

7.5 Wie gut ist unser Modell?

7.6 Kurz und bündig

8 Maschinelles Lernen

8.1 Einführung

8.2 Grundlegendes: Feature Spaces

8.3 Klassifizierungsmodelle

8.3.1 K-Nearest-Neighbor-Klassifikator

8.3.2 Support Vector Machine

8.3.3 Entscheidungsbaum

8.4 Ensemble-Methoden

8.4.1 Bias und Varianz

8.4.2 Bagging: Random Forests

8.4.3 Boosten: AdaBoost

8.5 Künstliche neuronale Netze und das Perceptron

8.6 Lernen ohne Label – Struktur finden

8.6.1 Clustering

8.6.2 Lernen von Mannigfaltigkeiten

8.6.3 Generative Modelle

8.7 Reinforcement Learning

8.8 Übergreifende Konzepte

8.9 In die Tiefe gehen ‒ Deep Learning

8.9.1 Convolutional Neural Networks

8.9.2 Training von Convolutional Neural Networks

8.9.3 Recurrent Neural Networks

8.9.4 Long Short-Term Memory

8.9.5 Autoencoder und U-Netze

8.9.6 Adversarial-Trainingsansätze

8.9.7 Generative Adversarial Networks

8.9.8 Cycle GANs und Style GANs

8.9.9 Andere Architekturen und Lernstrategien

8.10 Validierungsstrategien für maschinelle Lerntechniken

8.11 Schlussfolgerung

8.12 Kurz und bündig

9 Großartige künstliche Intelligenz erschaffen

9.1 Wie KI mit Data Science und maschinellem Lernen zusammenhängt

9.2 Eine kurze Geschichte der KI

9.3 Fünf Empfehlungen für die Entwicklung einer KI-Lösung

9.3.1 Empfehlung Nr. 1: Seien Sie pragmatisch

9.3.2 Empfehlung Nr. 2: Erleichtern Sie Maschinen das Lernen – schaffen Sie induktive Verzerrungen

9.3.3 Empfehlung Nr. 3: Analysen durchführen

9.3.4 Empfehlung Nr. 4: Hüten Sie sich vor der Skalierungsfalle

9.3.5 Empfehlung Nr. 5: Hüten Sie sich vor der Verallgemeinerungsfalle (so etwas wie ein kostenloses Mittagessen gibt es nicht)

9.4 Intelligenz auf menschlicher Ebene

9.5 Kurz und bündig

10 Natural Language Processing (NLP)

10.1 Was ist NLP, und warum ist es so wertvoll?

10.2 NLP-Datenaufbereitungstechniken

10.2.1 Die NLP-Pipeline

10.2.2 Konvertierung des Eingabeformats für maschinelles Lernen

10.3 NLP-Aufgaben und -Methoden

10.3.1 Regelbasiert (symbolisch) NLP

10.3.2 Ansätze des statistischen maschinellen Lernens

10.3.3 Neuronales NLP

10.3.4 Transferlernen

10.4 Auf dem neuesten Stand: Aktuelle Forschungsschwerpunkte für NLP

10.5 Kurz und bündig

11 Computer Vision

11.1 Was ist Computer Vision?

11.2 Ein Bild sagt mehr als tausend Worte

11.2.1 Das menschliche Auge

11.2.2 Das Bildaufnahmeprinzip

11.2.3 Digitale Dateiformate

11.2.4 Bildkomprimierung

11.3 Ich sehe was, was du nicht siehst

11.3.1 Computergestützte Fotografie und Bildmanipulation

11.4 Computer-Vision-Anwendungen und zukünftige Richtungen

11.4.1 Image-Retrieval-Systeme

11.4.2 Objekterkennung, Klassifizierung und Verfolgung

11.4.3 Medizinische Computer Vision

11.5 Menschen sehen lassen

11.6 Kurz und bündig

12 Modellierung und Simulation – Erstellen Sie Ihre eigenen Modelle

12.1 Einführung

12.2 Allgemeine Aspekte

12.3 Modellierung zur Beantwortung von Fragen

12.4 Reproduzierbarkeit und Lebenszyklus des Modells

12.4.1 Der Lebenszyklus einer Modellierungs- und Simulationsfrage

12.4.2 Parameter- und Output-Definition

12.4.3 Dokumentation

12.4.4 Verifizierung und Validierung

12.5 Methoden

12.5.1 Gewöhnliche Differentialgleichungen (ODEs)

12.5.2 Systemdynamik (SD)

12.5.3 Diskrete Ereignissimulation

12.5.4 Agentenbasierte Modellierung

12.6 Beispiele für Modellierung und Simulation

12.6.1 Dynamische Modellierung von Eisenbahnnetzen zur optimalen Wegfindung mit agentenbasierten Methoden und Reinforcement Learning

12.6.2 Strategien zur agentenbasierten Covid-Modellierung

12.6.3 Deep-Reinforcement-Learning-Ansatz für eine optimale Nachschubpolitik in einer VMI-Umgebung

12.7 Zusammenfassung und Lessons Learned

12.8 Kurz und bündig

13 Visualisierung von Daten

13.1 Geschichte

13.2 Welche Tools Sie verwenden sollten

13.3 Arten von Datenvisualisierungen

13.3.1 Streudiagramm

13.3.2 Liniendiagramm

13.3.3 Säulen- und Balkendiagramme

13.3.4 Histogramm

13.3.5 Tortendiagramm

13.3.6 Box Plot

13.3.7 Heat Map

13.3.8 Baumdiagramm

13.3.9 Andere Arten von Visualisierungen

13.4 Wählen Sie die richtige Datenvisualisierung

13.5 Tipps und Tricks

13.6 Präsentation der Datenvisualisierung

13.7 Kurz und bündig

14 Datengetriebene Unternehmen

14.1 Die drei Ebenen eines datengesteuerten Unternehmens

14.2 Kultur

14.2.1 Unternehmensstrategie für Daten

14.2.2 Die Analyse des aktuellen Stands

14.2.3 Unternehmenskultur und Organisation einer erfolgreichen Datenorganisation

14.2.4 Kernproblem: der Fachkräftemangel

14.3 Technologie

14.3.1 Die Auswirkungen von Open Source

14.3.2 Cloud

14.3.3 Auswahl des Anbieters

14.3.4 Data Lake aus der Unternehmensperspektive

14.3.5 Die Rolle der IT

14.3.6 Data Science Labs

14.3.7 Revolution in der Architektur: das Data Mesh

14.4 Business

14.4.1 Daten kaufen und teilen

14.4.2 Implementierung des analytischen Anwendungsfalls

14.4.3 Self-Service Analytics

14.5 Kurz und bündig

15 Rechtliche Grundlagen

15.1 Einführung

15.2 Rechtliche Datenkategorien

15.3 Datenschutzgrundverordnung

15.3.1 Grundsätze der Datenschutzgrundverordnung

15.3.2 Einwilligungserklärung

15.3.3 Risikofolgeabschätzung

15.3.4 Anonymisierung und Pseudo-Anonymisierung

15.3.5 Arten der Anonymisierung

15.3.6 Rechtmäßigkeit, Transparenz und Verarbeitung

15.3.7 Recht auf Datenlöschung und Korrektur

15.3.8 Privacy by Design

15.3.9 Privacy by Default

15.4 ePrivacy-Verordnung

15.5 Datenschutzbeauftragter

15.5.1 Internationaler Datenexport in Drittländern

15.6 Sicherheitsmaßnahmen

15.6.1 Datensicherheit

15.7 Datenschutz in Kalifornien im Vergleich zur DSGVO

15.7.1 Territoriale Gültigkeit

15.7.2 Opt-in versus Opt-out

15.7.3 Recht auf Datenexport

15.7.4 Das Recht, nicht diskriminiert zu werden

15.8 Kurz und bündig

15.9 Weiterführende Literatur

16 AI in verschiedenen Branchen

16.1 Automobilindustrie

16.1.1 Vision

16.1.2 Daten

16.1.3 Anwendungsfälle

16.1.4 Herausforderungen

16.2 Luftfahrt

16.2.1 Vision

16.2.2 Daten

16.2.3 Anwendungsfälle

16.2.4 Herausforderungen

16.3 Energie

16.3.1 Vision

16.3.2 Daten

16.3.3 Anwendungsfälle

16.3.4 Herausforderungen

16.4 Finanzen

16.4.1 Vision

16.4.2 Daten

16.4.3 Anwendungsfälle

16.4.4 Herausforderungen

16.5 Gesundheit

16.5.1 Vision

16.5.2 Daten

16.5.3 Anwendungsfälle

16.5.4 Herausforderungen

16.6 Regierung

16.6.1 Vision

16.6.2 Daten

16.6.3 Anwendungsfälle

16.6.4 Herausforderungen

16.7 Kunst

16.7.1 Vision

16.7.2 Daten

16.7.3 Anwendungsfälle

16.7.4 Herausforderungen

16.8 Produktion

16.8.1 Vision

16.8.2 Daten

16.8.3 Anwendungsfälle

16.8.4 Herausforderungen

16.9 Öl und Gas

16.9.1 Vision

16.9.2 Daten

16.9.3 Anwendungsfälle

16.9.4 Herausforderungen

16.10 Sicherheit am Arbeitsplatz

16.10.1 Vision

16.10.2 Daten

16.10.3 Anwendungsfälle

16.10.4 Herausforderungen

16.11 Einzelhandel

16.11.1 Vision

16.11.2 Daten

16.11.3 Anwendungsfälle

16.11.4 Herausforderungen

16.12 Anbieter von Telekommunikation

16.12.1 Vision

16.12.2 Daten

16.12.3 Anwendungsfälle

16.12.4 Herausforderungen

16.13 Transport

16.13.1 Vision

16.13.2 Daten

16.13.3 Anwendungsfälle

16.13.4 Herausforderungen

16.14 Lehre und Ausbildung

16.14.1 Vision

16.14.2 Daten

16.14.3 Anwendungsfälle

16.14.4 Herausforderungen

16.15 Die digitale Gesellschaft

16.16 Kurz und bündig

17 Mindset und Community

17.1 Data Driven Mindset

17.2 Data-Science-Kultur

17.2.1 Start-up oder Beratungsunternehmen?

17.2.2 Labs statt Konzernpolitik

17.2.3 Keiretsu statt Einzelkämpfertum

17.2.4 Agile Softwareentwicklung

17.2.5 Firmen- und Arbeitskultur

17.3 Antipatterns

17.3.1 Abwertung von Fachwissen

17.3.2 Die IT wird es schon richten

17.3.3 Widerstand gegen Veränderungen

17.3.4 Besserwisser-Mentalität

17.3.5 Schwarzmalerei

17.3.6 Pfennigfuchserei

17.3.7 Angstkultur

17.3.8 Kontrolle über die Ressourcen

17.3.9 Blindes Vertrauen in die Ressourcen

17.3.10 Das Schweizer Taschenmesser

17.3.11 Over-Engineering

17.4 Kurz und bündig

18 Vertrauenswürdige KI

18.1 Rechtlicher und Soft-Law-Rahmen

18.1.1 Normen

18.1.2 Verordnungen

18.2 KI-Stakeholder

18.3 Fairness in der KI

18.3.1 Bias

18.3.2 Fairness-Metriken

18.3.3 Unerwünschten Bias in KI-Systemen reduzieren

18.4 Transparenz von KI-Systemen

18.4.1 Dokumentieren der Daten

18.4.2 Dokumentieren des Modells

18.4.3 Explainability (Erklärbarkeit)

18.5 Schlussfolgerung

18.6 Kurz und bündig

19 Die Autor:innen

Geleitwort

„Mathematical science shows what is. It is the language of unseen relations between things. But to use and apply that language, we must be able to fully appreciate, to feel, to seize the unseen, the unconscious.“Ada Lovelace

So wie die Computerkompetenz vor einer Generation eine neue Reihe von grundlegenden Fähigkeiten darstellte, die es zu erwerben galt, so stellt die Kompetenz im Bereich der künstlichen Intelligenz (KI) für unsere heutigen Generationen und darüber hinaus das Gleiche dar. In den letzten zwei Jahrzehnten hat sich die Datenwissenschaft zur mathematischen Architektur und zu der entsprechenden Sprache entwickelt, mit der wir Systeme aufbauen und in der wir mit ihnen interagieren, die unsere Sinne und Entscheidungsfähigkeiten erweitern. Es reicht also nicht mehr aus, Befehle per Mausklick an Computer zu senden, sondern es ist von entscheidender Bedeutung, dass wir in der Lage sind, KI-gestützte Empfehlungen von Computern zu interpretieren und mit ihnen zu interagieren. Derzeit verarbeiten Maschinen, d. h. Computer, die mit Sensoren (im weitesten Sinne) gekoppelt sind, ein immer breiteres Spektrum an Daten, darunter Texte, Bilder, Videos, Audiodaten, Netzwerkdiagramme und eine Vielzahl von Informationen aus dem Internet, der Privatwirtschaft und dem öffentlichen Sektor. In Anbetracht der Datenvielfalt nähern sich die Autoren dieses Buches der Datenwissenschaft als einem grundlegenden Schlüsselthema für die Gesellschaft. Sie tun dies mit großer Einsicht, aus mehreren wichtigen Blickwinkeln und in einem unterhaltsamen Stil, der bei Anfängern und Experten gleichermaßen Anklang findet.

Aus Daten Nutzen zu ziehen ist wohl das verbindende Ziel des Wissensarbeiters des 21. Jahrhunderts. Sogar Berufsbereiche, die als klassisch datenfern galten, wie Verkauf und Kunst, haben jetzt datengetriebene Teilbereiche wie Marketingautomatisierung und Computergestaltung. Zum Nutzen der Leser bringen die Autoren Erfahrungen aus erster Hand und sorgfältige Recherchen ein, um überzeugend darzulegen, welche Rolle wir alle spielen müssen, wenn wir versuchen, Daten für bessere Ergebnisse zu nutzen. In der Tat ist die Bandbreite, die in diesem Werk vermittelt wird, beeindruckend. Sie reicht von Überlegungen zur Hardwareleistung (z. B. CPU, Netzwerk, Speicher, I/O, GPU) bis hin zu den verschiedenen Rollen von Teammitgliedern beim Aufbau von Maschinen, die Muster in Daten finden können. Darüber hinaus gehen die Autoren auf die Möglichkeiten ein, mit denen Maschinen heute sehen und lesen können, nämlich Computer Vision und Natural Language Processing, was tiefgreifende Auswirkungen auf fast alle Industriebereiche hat.

Bei der Lektüre dieses Buches möchte ich Sie ermutigen, neugierig zu sein und sich eine Reihe von Fragen zu stellen, wie Ihr beruflicher Werdegang und die Gesellschaft, wie Sie sie sehen, gegenwärtig von immer fortschrittlicheren Maschinen beeinflusst werden: von den Möglichkeiten, die Ihr Smartphone bietet, bis hin zu der Art und Weise, wie Arbeitsplätze auf dem Markt durch Automatisierungstools umgestaltet werden. Hier sind einige Fragen, die Ihnen den Einstieg erleichtern sollen:

       Wie verschiebt sich das Verhältnis der Aufgaben, mit denen Sie Ihre Zeit verbringen, mit dem Aufkommen von immer fortschrittlicheren Maschinen in Ihrem Arbeitsbereich?

       Was bedeutet es, wenn Maschinen über Wahrnehmungsfähigkeiten verfügen, die denen des Menschen entsprechen, also sehen, hören, riechen, schmecken, tasten und mehr?

       Wie gehen wir als Gesellschaft mit der Voreingenommenheit und dem Vertrauen in Daten um?

       Wie können wir den Bau und die Nutzung von Maschinen, die lernen, inklusiver gestalten?

       Welche eindeutig menschlichen Fähigkeiten können Sie hervorheben, um Organisationen, die Ihnen am Herzen liegen, zu mehr Wettbewerbsfähigkeit und Nachhaltigkeit zu verhelfen?

Ich habe mich davor gehütet, den Begriff „denkende Maschinen“ oder „künstliche allgemeine Intelligenz“ zu verwenden, um eine Übertreibung zu vermeiden. Worauf ich Ihre Aufmerksamkeit lenken möchte, ist die breite Anwendbarkeit dessen, was wir in der Forschung rund um Maschinen mit Lernfähigkeiten sehen. Aus meiner Zeit in den Labors der Universitäten Columbia und Cornell, dem Princeton Plasma Physics Laboratory, der American University of Armenia und dem von der NASA unterstützten TRISH (Translational Research Institute for Space Health), das mit TrialX zusammenarbeitet, ist mir klar, dass Maschinen in einem enorm breiten Spektrum von Bereichen Muster in Daten finden und Menschen sowohl in normalen als auch in missionskritischen Kontexten alarmieren können. Die Auswirkungen auf die menschliche Erfahrung sind also vielschichtig, und Data Scientists spielen eine wichtige Rolle bei der Entwicklung von Systemen, bei denen die menschliche Interaktion mit dem maschinellen Output eine positive Summe ergibt. Ich kann nicht genug betonen, dass ein Nullsummen-Ansatz bei der Automatisierung suboptimal ist. Unternehmer neigen jedoch dazu, einen Weg zur maximalen Summe zu finden.

Gemeinsam mit Kollegen und durch meine Arbeit beim BAJ Accelerator und Covenant Venture Capital unterstütze ich Start-ups bei einer Art Tandem-Lernen: wie ein schnell wachsendes Unternehmen eine Branche umgestalten kann, indem es Marktlücken aufspürt, und wie die Erfindung eines Unternehmens lernen und neue Fähigkeiten für Kunden bereitstellen kann. In dem leistungsstarken Technologiebereich der Computer Vision, der eine tragende Säule der Datenwissenschaft ist, stechen beispielsweise drei Unternehmen hervor, die in drei sehr unterschiedlichen Industriebereichen bahnbrechend sind: Embodied, Scylla und cognaize in den Bereichen Gesundheitswesen, Sicherheit bzw. Finanzen.

       Das Vorzeigeprodukt von Embodied, Moxie, ist ein Roboter, der das emotionale Wohlbefinden und die soziale Entwicklung von Kindern unterstützt. Um dies zu erreichen, muss Moxie die Familienmitglieder auf überzeugende Weise sehen und mit ihnen kommunizieren. Er muss den emotionalen Zustand der Menschen, mit denen er interagiert, sowohl visuell als auch durch andere Hinweise verstehen, um einen sinnvollen Dialog führen zu können. Die Gesundheitsdienstleister haben also ein neues robotisches Teammitglied, mit dem sie zusammenarbeiten können. Embodied war auf der Titelseite des TIME Magazine zu sehen.

       Scylla ermöglicht es dem Sicherheitsteam eines Unternehmens, die Sicherheit proaktiv zu verbessern. Mit Echtzeit-Erkennungsfunktionen müssen Kameranetzwerke nicht mehr passiv sein, sondern können proaktiv eingesetzt werden. Die Anwendungsmöglichkeiten sind vielfältig und reichen von der Erkennung von Ausrutschern und Stürzen in Krankenhäusern und Stadien, um die Gesundheitsergebnisse zu verbessern, bis hin zur Alarmierung von Eindringlingen in Produktionsstätten und Bürogebäuden, um die Mitarbeiter besser zu schützen. Scylla wurde bereits in Forbes vorgestellt.

       cognaize unterstützt Finanzinstitute und Versicherungsunternehmen bei der Verarbeitung einer enormen Menge unstrukturierter Daten zur Risikobestimmung. Eine wichtige Erkenntnis ist, Dokumente nicht nur als Text zu betrachten, sondern auch visuelle Informationen zu berücksichtigen: Stil, Tabellen, Struktur. Darüber hinaus verfügt cognaize über einen „Human-in-the-Loop“, bei dem Kollegen und das System insgesamt kontinuierlich lernen. cognaize wurde auf dem NASDAQ-Bildschirm am Times Square vorgestellt.

In den drei oben genannten Beispielen für aufstrebende Unicorn-Start-ups arbeiten Data Scientists eng mit Ingenieuren, Analysten, Designern, Inhaltsentwicklern, Fachleuten und Kunden zusammen, um Maschinen zu entwickeln, die lernen und auf nuancierte Weise mit Menschen interagieren. Das Ergebnis ist ein Wandel in der Art der Arbeit: Menschen werden auf die wichtigsten Dokumente oder Momente aufmerksam gemacht, und aus der menschlichen Erfahrung wird gelernt, um die Qualität zu verbessern. Dies steht stellvertretend für einen neuen Wandel, der KI-Kenntnisse voraussetzt: Arbeitsplätze in fast allen Bereichen der Wirtschaft werden Aspekte aufweisen, die eine maschinelle Interaktion erfordern: Menschen, die Korrekturen vornehmen, neue Fähigkeiten erlernen, auf Warnungen reagieren und diese interpretieren und eine schnellere Reaktionszeit haben, um anderen Menschen zu helfen, indem sie Maschinen zur Unterstützung einsetzen. In den kommenden Jahren bin ich gespannt auf die Rolle der Datenwissenschaft in der Schnittstellenforschung, auf neue Algorithmen und darauf, wie Menschen ihre Arbeit um ein Vielfaches verstärken können.

Als ich vor fast einem Jahrzehnt die erste Ausgabe von The Field Guide to Data Science mit verfasst habe, war es bemerkenswert, wie sehr sich die Disziplin weiterentwickelt hat, sowohl in Bezug auf das, was technisch erreicht wurde, als auch in Bezug auf das, was noch zu erreichen ist. Das Handbuch Data Science bringt die Disziplin in diesen beiden Dimensionen voran und trägt die Fackel weiter.

Lesen Sie weiter.

Herbst 2021

Armen R. Kherlopian, Ph.D.

Vorwort

“The job of the data scientist is to ask the right questions.”Hillary Mason

Als ich das Vorwort der ersten Ausgabe las, wurde ich das Gefühl nicht los, dass einige Trends im Wesentlichen gleich geblieben sind, während andere ganz plötzlich auftauchten und die Gesellschaft und Unternehmen wie eine Lawine überrollten.

Wenn wir mit den Veränderungen beginnen, die die Gesellschaft tiefgreifend getroffen haben, ist die Pandemie natürlich eine davon. Abgesehen von den unzähligen Folgen, die sie für unser Leben hatte und immer noch hat, möchte ich mich auf die Facetten konzentrieren, die mit dem Thema dieses Buches zu tun haben: Data Science und KI.

Vereinfacht gesagt, hatte dies zur Folge, dass ganze Gesellschaften und unsere gesamte Lebensweise im Handumdrehen datengesteuert wurden. Kennzahlen wie die siebentägige Inzidenzrate oder Prognosen auf der Grundlage von Pandemiesimulationen lenkten unseren Alltag und setzten zeitweise sogar Grundrechte wie das Recht, die Wohnung zu verlassen, außer Kraft. Dies führte zu Diskussionen und Fragen, die jedem Data Scientist mit etwas Erfahrung vertraut und ihm im Laufe seines Berufslebens immer wieder begegnet sind, beispielsweise:

       Können wir diesen Modellen und ihren Vorhersagen vertrauen?

       Ist der gewählte KPI wirklich der richtige für diesen Zweck?

       Sind die zugrundeliegenden Daten quantitativ und qualitativ gut genug?

All diese Fragen sind berechtigt und werden, wie schon vor zwei Jahren, von einem anderen Trend befeuert: der Digitalisierung. Der Motor dafür sind Daten. Darüber hinaus verfolgen Data Scientists immer noch das gleiche Ziel:

Mithilfe von Daten verständliche Antworten auf Fragen zu geben.

Trotz aller Trends bleibt dieses Ziel gleich und wird immer eine der zentralen Säulen von Data Science sein.

Aber das ist nicht der einzige Trend, der entweder gleich geblieben oder noch stärker geworden ist. Das wichtigste anhaltende Phänomen ist der immer noch massive Hype, der durch Begriffe wie „Künstliche Intelligenz“ und „Data Science“ ausgelöst wird. Obwohl diese Bereiche unglaublich wertvoll und leistungsfähig sind, wecken Diskussionen darüber leider oft falsche Versprechungen und verzerrte Erwartungen, die wiederum zu Enttäuschungen führen. Einige Unternehmen haben in der Vergangenheit bereits große ehrgeizige Initiativen gestartet, die zu enttäuschenden Ergebnissen geführt haben, weil die Erwartungen zu hoch und die Zeitvorgaben zu kurz waren. So ist beispielsweise das vollautonome Fahren ein besonders schwieriges Problem, das es zu lösen gilt.

Dennoch bleibt künstliche Intelligenz für viele Unternehmen die Hoffnung schlechthin. Investoren sehen sie als eine universell einsetzbare Technologie, die fast überall angewendet werden kann. Die Situation ist vergleichbar mit der Entwicklung in den Neunzigerjahren, als alles, was mit dem „Internet“ zu tun hatte, einen Aufschwung erlebte. Plötzlich brauchte jedes Unternehmen eine Webseite, und es wurden erhebliche Investitionen in die Ausbildung von Webprogrammierern getätigt. Ähnlich verhält es sich heute mit allem, was mit KI zu tun hat. Auch hier sind die Investitionen enorm, und es gibt eine riesige Anzahl von Kursen zu diesem Thema. Letztendlich hat die Entwicklung des „Internets“ zu einem riesigen Ökosystem von Unternehmen und Anwendungen geführt, die das Leben von Milliarden von Menschen auf tiefgreifende Weise beeinflussen, und es scheint, dass KI einen ähnlichen Weg einschlägt.

Dies erklärt zumindest teilweise einen weiteren auffälligen Trend: die weitere Spezialisierung von Data Science Rollen mit Bezeichnungen wie „Data Translator“ oder „ML Engineer“. Dies ist eine natürliche Entwicklung, da es ein Zeichen dafür ist, dass das Feld reifer wird, aber es birgt auch die Gefahr, dass die Verantwortlichkeiten im Bereich Data Science über schlecht koordinierte Organisationen verstreut sind und somit nicht ihr volles Potenzial erreichen. In den Kapiteln 14 und 17 wird dies noch ausführlicher behandelt.

Schließlich entwickelt sich die „vertrauenswürdige KI“ als eine weitere, äußerst wichtige Bewegung innerhalb von Data Science. Dabei handelt es sich um einen Forschungsbereich, der darauf abzielt, einige bisher unerfüllte Anforderungen wie Erklärbarkeit oder Fairness zu erfüllen. Aus diesem Grund wird es als eines der neuen Kapitel in dieses Buch aufgenommen (Kapitel 18).

Angesichts all dieser Trends in Data Science ist einer der Gründe für die Gründung der Vienna Data Science Group (VDSG) in den letzten zwei Jahren noch wichtiger geworden: einen neutralen Ort zu schaffen, an dem ein internationaler und interdisziplinärer Wissensaustausch zwischen allen beteiligten Experten stattfinden kann. Wir engagieren uns nach wie vor sehr stark für die Entwicklung des gesamten Data-Science-Ökosystems (Ausbildung, Zertifizierung, Standardisierung, gesellschaftliche Wirkungsforschung etc.) in Europa und darüber hinaus.

Ein Produkt des Austauschs in unserer Gemeinschaft ist die 2. Auflage dieses Buches, das erheblich erweitert wurde, um Themen wie KI (Kapitel 9), maschinelles Lernen (Kapitel 8), NLP (Kapitel 10), Computer Vision (Kapitel 11) oder Modellbildung und Simulation (Kapitel 12) eingehender zu behandeln. Um unser Ziel zu verfolgen, die Gesellschaft über Data Science und ihre Auswirkungen aufzuklären, wurde in Kapitel 12 ein sehr relevanter und aktueller Anwendungsfall aufgenommen: ein agentenbasiertes Covid-19-Modell, das einen Eindruck zu den möglichen Auswirkungen bestimmter Maßnahmen und deren Kombination auf die Ausbreitung der Krankheit liefern soll.

Um unseren Lesern eine solide Grundlage zu bieten, wurde eine Einführung in die zugrunde liegende Mathematik (Kapitel 6) und Statistik (Kapitel 7), die in Data Science verwendet werden, aufgenommen und mit einem Abschnitt über Visualisierung (Kapitel 13) abgeschlossen.

Trotz der vielen neuen Inhalte ist das Ziel dieses Buches dasselbe geblieben und sogar noch wichtiger geworden: ein realistisches Bild von Data Science zu vermitteln.

Denn trotz aller Trends bleibt auch Data Science dasselbe: eine interdisziplinäre Wissenschaft, die eine sehr heterogene Schar von Spezialisten versammelt, die sich aus drei großen Strömungen zusammensetzt:

       Informatik/IT

       Mathematik/Statistik

       Fachwissen in der Branche, in der Data Science angewendet wird.

Die Wissenschaft zielt darauf ab, neues Wissen zu generieren, und dieses wird nach wie vor genutzt, um

       bestehende Geschäftsprozesse in einem Unternehmen zu verbessern (Kapitel 16) und

       völlig neue Geschäftsmodelle zu ermöglichen.

Data Science ist auf dem Vormarsch, und ihre direkten und indirekten Auswirkungen auf die Gesellschaft nehmen rasant zu, wie die Pandemie zeigt. In einigen Bereichen ist eine gewisse Ernüchterung eingetreten, was jedoch als gesunde Entwicklung gesehen werden kann, um dem Hype entgegenzuwirken. Die Rollen innerhalb von Data Science Teams werden immer differenzierter, und immer mehr Unternehmen setzen Data Science Projekte in die Produktion um.

Data Science ist erwachsen geworden und tritt gerade in eine neue Ära ein.

Frühjahr 2022

Wolfgang Weidinger

Die Kapitel in diesem Buch wurden von mehreren Autor:innen geschrieben, von denen manche aufgrund der besseren Lesbarkeit auf eine gendergerechte Sprache verzichtet haben. Selbstverständlich sprechen wir aber alle Personen gleichermaßen an.

1Einführung

“Data really powers everything that we do.”Jeff Weiner

Fragen, die in diesem Kapitel beantwortet werden:

       Was macht die Faszination von Data Science, ML, KI und allem, was eng damit zusammenhängt, um aus Daten Werte zu generieren, aus?

       Warum brauchen Organisationen eine Strategie, um datengesteuert zu werden?

       Welche alltäglichen Anwendungsfälle gibt es in der B2B- oder NGO-Welt?

       Wie werden Datenprojekte strukturiert?

       Wie ist ein Datenteam zusammengesetzt?

Data Science und verwandte Technologien stehen seit 2010 im Mittelpunkt des Interesses. Verschiedene Veränderungen im Ökosystem haben diesen Trend ausgelöst, wie z. B.

       erhebliche Fortschritte bei der Verarbeitung einer großen Menge unstrukturierter Daten,

       erhebliche Kostensenkung bei der Plattenspeicherung,

       das Aufkommen neuer Datenquellen wie soziale Medien und Sensordaten.

Die HBR bezeichnete den Data Scientist als den attraktivsten Job des 21. Jahrhunderts und zitierte dabei Hal Varian von Google.1 Strategieberater erklärten Daten zum neuen Öl, und es gab gelegentlich „Datenrausch“, bei dem „Enthusiasten im Datenfieber“ neue Datenquellen nach noch unbekannten Schätzen durchsuchten. Dieses Buch erforscht Data Science und bezieht verschiedene Ansichten zu dieser Disziplin mit ein.

Bild 1.1Data Science und verwandte Technologien auf trends.google.com2

1.1Was sind Data Science, Machine Learning und Künstliche Intelligenz?

Es gibt viele Ansichten über Data Science, und die Beteiligten an Data-Science-Projekten können unterschiedliche Antworten darauf geben, was sie unter Data Science verstehen. Die Vertreter sprechen verschiedene Aspekte an und verwenden möglicherweise unterschiedliches Vokabular, da Unternehmen und NGOs beispielsweise unterschiedliche Erkenntnisse aus Data-Science-Anwendungen gewinnen wollen. Der einzige gemeinsame Nenner ist vielleicht dieser: Alle erwarten, dass Data Science mithilfe von Daten einen Wert schafft, der vorher nicht vorhanden war.

Tabelle 1.1 Vielfältige Ansichten über Data Science

Siehe

Beschreibung

Definition aus Wikipedia

Data Science ist ein interdisziplinäres Fachgebiet, das wissenschaftliche Methoden, Prozesse, Algorithmen und Systeme einsetzt, um Wissen und Erkenntnisse aus strukturierten und unstrukturierten Daten zu extrahieren und Wissen und verwertbare Erkenntnisse aus Daten in einem breiten Spektrum von Anwendungsbereichen anzuwenden.3

Anwendungszentrierte Sichtweise

Wir sammeln Daten und legen diese in Pandas-Dataframes oder Dataframes in R Studio ab. Wir verwenden auch Tools wie TensorFlow oder Keras. Unser Ziel ist es, diese Werkzeuge zu nutzen, um die Daten zu untersuchen.

Plattformorientierte Sichtweise

Wir schaffen Mehrwert aus den Daten, die wir auf unsere SaaS-Plattform in der Cloud geladen haben. Je nach den bereitgestellten Daten und ihren Strukturen speichern wir sie dann in verschiedenen Speichercontainern, wie Blob-Storage und verteilten Datenbanken.

Evangelistenorientierte Sichtweise

Data Science war 2015 das nächste große Ding. Jetzt sollten Sie sich mit konkreteren Anwendungen befassen. Schauen Sie sich die Gartner-Charts an und investieren Sie Ihre Zeit in die Erforschung von Spitzentrends wie neuromorphe Hardware oder Augmented Intelligence.

Managementorientierte Sichtweise

Dies sind die Arbeitsweisen, die unser Unternehmen als datengesteuertes Unternehmen ins 21. Jahrhundert bringen. Während und nach unserem Übergang werden wir neue Geschäftsmodelle erschließen und Daten als Dienstleistung monetarisieren.

Karriereorientierter Blick

Als Senior Data Scientist in einem großen Unternehmen kann ich ein sechsstelliges Jahresgehalt verdienen und in den Labors der Unternehmen interessante Bereiche erforschen.

Fallorientierte Sicht verwenden

Nennen Sie mir Ihr Geschäftsproblem, und wir erzählen Ihnen, wie wir es für einen anderen Kunden gelöst haben. Von der Betrugserkennung über die Kundenbindung bis hin zur Analyse sozialer Netzwerke ‒ werfen Sie einen Blick auf unseren Katalog möglicher Analyseanwendungen.

Unternehmerische/optimistische Sichtweise

Data Science ist eine Möglichkeit, die Welt zu verändern. Mit Data Science können wir den Klimawandel verhindern und Armut und Hunger auf globaler Ebene bekämpfen.

Pessimistische Sicht

Data Science ist eine Möglichkeit, die Welt zu verändern. Aber leider werden machtgierige Menschen sie nutzen, um uns auszuspionieren und zu unterdrücken. Big Brother wird Sie also beobachten.

Die Sicht eines Statistikers

Data Science ist nur ein Modewort. Es ist nur ein anderes Wort für Statistik. Man könnte es vielleicht auch Statistics on Steroids nennen. Aber letzten Endes ist es nur ein weiterer Marketing-Hype, um ein weiteres Schlagwort zu kreieren, um jemandem Dienstleistungen zu verkaufen.

Die Grundlagen von Data Science liegen in der Mathematik. Data Scientists wenden Statistiken an, um aus Daten neues Wissen zu gewinnen. Neben der Anwendung von Algorithmen auf Daten muss ein Data Scientist auch den wissenschaftlichen Prozess der Datenerforschung verstehen, z. B. die Erstellung reproduzierbarer Experimente und die Interpretation der Ergebnisse.

Es gibt viele verschiedene Begriffe im Zusammenhang mit Data Science. Fachleute sprechen zum Beispiel von künstlicher Intelligenz, maschinellem Lernen oder Deep Learning. Manchmal sprechen Experten auch von verwandten Begriffen wie Analytics oder Business Intelligence und Simulation. In den folgenden Kapiteln werden wir detailliert darauf eingehen, wie wir zwischen Analytik und Data Science unterscheiden. Außerdem werden wir verschiedene Data-Science-Anwendungen vorstellen, z. B. die Gewinnung von Erkenntnissen über einen Text durch natürliche Sprachverarbeitung, die Extraktion von Objekten aus Bildern durch Objekterkennung oder die Modellierung von Eisenbahnnetzen für eine optimale Wegfindung.

Data Science als Teil eines Kulturwandels

Nehmen wir an, Sie bewerben sich um eine Stelle als Data Scientist in einem Unternehmen. Stellen Sie sich vor, obwohl es unwahrscheinlich ist, dass die Personalabteilung dieses Unternehmens Sie ablehnt, weil Ihr Sternzeichen auf der Grundlage der Daten, die Sie in Ihrem Lebenslauf angegeben haben, nicht zu der Stelle passt.

Der Mensch entscheidet, was er für richtig hält. Aber leider ist das menschliche Urteilsvermögen durch Voreingenommenheit (Bias) fehlerhaft4, und wir haben Mechanismen wie Confirmation Bias, die uns versichern, dass wir uns nicht irren können. Manche Menschen glauben zum Beispiel an die Theorie der flachen Erde oder der hohlen Erde, was zeigt, wie mächtig Mechanismen wie Confirmation Bias sein können.

Für viele von uns wäre es verheerend zu erkennen, dass eine bequeme binäre Sicht der Welt, die in Schwarz und Weiß, Gut und Böse und Richtig und Falsch unterteilt ist, oft nicht funktioniert. Moderne soziologische Ideen wie der Kon­struktivismus5 haben mehr mit Data Science zu tun, als viele denken. Die Idee ist, dass jeder Mensch eine Realität konstruiert, die auf seinen Erfahrungen beruht. Innerhalb des Rahmens „unserer Realität“, einschließlich ihrer Regeln und Konventionen, treffen wir Entscheidungen. Studien zufolge ist es nicht ungewöhnlich, dass wir zutiefst davon überzeugt sind, im Recht zu sein, selbst wenn unsere Entscheidungen für andere fragwürdig sind. Nehmen wir zum Beispiel an, wir haben uns ein mentales Modell geschaffen, in dem wir davon überzeugt sind, dass die Astrologie richtig sein muss. In diesem Fall ist es logisch anzunehmen, dass Tierkreiszeichen für Personalentscheidungen den Einstellungsprozess verbessern werden. Gleichzeitig könnten Menschen mit starken religiösen Überzeugungen in Konflikte geraten, wenn sie ignorieren, was sie als Zeichen oder Botschaften Gottes bezeichnen würden. Dank der oben erwähnten Vorurteile sind unsere Glaubenssysteme oft in Stein gemeißelt.

Data Science ist nicht nur eine Methode zur Gewinnung von Werten aus Daten; sie hat auch das Potenzial, eine Methode zur Entscheidungsfindung zu sein, die menschliche Voreingenommenheit in diesem Prozess vermeidet oder reduziert. Wie in Kapitel 18 über vertrauenswürdige KI gezeigt wird, können Daten allein das Problem jedoch nicht lösen, da historische Daten und der Prozess der Modellerstellung selbst oft mit denselben Verzerrungen behaftet sind. Daher können Führungskräfte Data Science und transparente und diskriminierungsfreie Praktiken in die Unternehmenskultur integrieren, was sich erheblich auf die DNA des Unternehmens auswirken wird. Ein Unternehmen, das sich seiner Vorurteile bewusst ist, wird zum Beispiel seine Prozesse anpassen. Die Einstellung eines neuen Mitarbeiters ist ein gutes Beispiel. Viele Unternehmen vergrößern Hiring Teams, die über das Ergebnis der Bewerbergespräche entscheiden, um sicherzustellen, dass die Voreingenommenheit eines einzelnen Interviewers die Einstellungsentscheidung nicht zu sehr beeinflusst. In modernen Recruiting-Prozessen kann Data Science dazu genutzt werden, Vorhersagen über Kandidaten zu treffen, um den Entscheidungsprozess zu unterstützen. Wenn sie sorgfältig durchgeführt werden, können diese Modellvorhersagen dazu beitragen, Verzerrungen bei Einstellungsentscheidungen zu minimieren.

Am Anfang ist jedes Urteil eine Theorie. Eine Theorie ist weder richtig noch falsch, sondern nicht schlüssig, bis sie bewiesen oder widerlegt ist.

Daher wäre die positive Auswirkung der Einstellung von Personal anhand astrologischer Tierkreiszeichen nichts weiter als eine Theorie. Solange wir nicht nachweisen können, dass eine astrologische Beurteilung für einen Einstellungsprozess von Vorteil ist, ist die Aussage nicht schlüssig und daher nicht empfehlenswert zu verwenden. Wenn man die Astrologie als inklusiv und nicht als falsch bezeichnet, könnte die Diskussion mit den Astrologiegläubigen weniger emotional verlaufen.

Die Untersuchung der möglichen Auswirkungen der Astrologie mithilfe von Data Science ist eine perfekte Einführung in das Umfeld, mit dem wir bei Data-Science-Projekten konfrontiert sind. Die Astrologie behauptet, durch die Untersuchung der Bewegungen und relativen Positionen von Himmelsobjekten Informationen über menschliche Angelegenheiten und irdische Ereignisse zu erhalten. In einer vereinfachten Version reduziert die Astrologie alles auf das Sonnenzeichen, abhängig von den Geburtstagen. Anhand dieses vereinfachten Modells könnten wir Daten über vorhandene Data Scientists sammeln, um eine Korrelation zwischen Sternzeichen und Berufen zu ermitteln. Darüber hinaus könnten wir das Geburtsdatum eines großen Pools von Data Scientists erfassen. Da wir nur ein Geburtsdatum und keine anderen persönlichen Daten benötigen, wäre es sogar völlig legal, diese Datensätze von LinkedIn oder einer anderen Datenquelle zu sammeln, die die Geburtsdaten von Data Scientists enthält. Der größte Teil der Analyse wird darin bestehen, geeignete Datenquellen zu finden, die Daten aus der Datenquelle zu sammeln, sie zu anonymisieren und für die Untersuchung aufzubereiten.

Die mathematische Auswertung der gesammelten Daten lässt nicht viel Spielraum für die Interpretation der Ergebnisse. Dennoch könnten wir aufgrund der Analyse auf einen Zusammenhang zwischen Berufen und astrologischen Zeichen schließen.

Es gibt jedoch auch eine komplexere Form der Astrologie. Astrologische Horoskope enthalten alle Planeten und andere Himmelsobjekte wie Lilith, den schwarzen Mond, den es in der Astronomie nicht gibt. Darüber hinaus sind viele Konstellationen widersprüchlich. Ein Astrologe könnte eine Person als impulsiv bezeichnen, weil Venus oder Lilith im Widder stehen, oder als passiv, weil der Mars im Krebs steht. Und schließlich könnte ein Astrologe behaupten, dass die Deutungen intuitive Interpretationen erfordern, die natürlich nicht messbar sind.

Viele Data-Science-Projekte könnten mit der Einschätzung enden, dass die Daten für eine eindeutige Antwort nicht ausreichen, und dass es für viele Beteiligte unbefriedigend ist, eine Theorie weder beweisen noch widerlegen zu können. Die Erforschung von Daten trägt jedoch oft dazu bei, den Beteiligten Klarheit zu verschaffen, da zumindest viele lernen, dass es nicht so einfach ist, eine objektive Wahrheit zu finden. Daher sollten wir frei sein, von persönlichen oder subjektiven Überzeugungen abzuweichen, und bei Dingen, die wir nicht objektiv nachprüfen können, vorsichtig sein. Natürlich stehen die Chancen gut, dass wir mit unseren persönlichen Ansichten richtig liegen, wenn wir viel Zeit damit verbracht haben, ein bestimmtes Gebiet zu erforschen, auch wenn wir es nicht beweisen können. Solange wir jedoch nicht über genügend Daten verfügen, um etwas in die eine oder andere Richtung zu beweisen, ist es eine Frage der akademischen Höflichkeit, in Gesprächen mit anderen auf unzureichende Daten zu verweisen.

Bereits 20146 schrieb die New York Times über die 80/20-Regel. Diese Regel besagt, dass das Team 80 % seiner Zeit damit verbringt, Daten für Data-Science-Projekte zu finden und vorzubereiten, und nur 20 % mit Analysen. Diese Zahl kann je nach Branche stark variieren. Neben der Datenmodellierung werden wir in den folgenden Kapiteln auch auf die Aufbereitung und Verwaltung von Daten eingehen. Unser Ziel ist es, eine kompakte Einführung in Datenplattformen und -technik zu geben.

Im zweiten Teil dieses Buches gehen wir davon aus, dass alle Daten aufbereitet und bereit sind, und konzentrieren uns auf die Analytik. Wir stellen verschiedene Möglichkeiten vor, aus Daten einen Mehrwert zu generieren, und behandeln wichtige Themen wie neuronale Netze und maschinelles Lernen. Wir werden auch Grundlagen wie Statistik behandeln.

Im dritten und letzten Teil des Buches geht es um die Anwendung von Data Science. Hier behandeln wir betriebswirtschaftliche Themen und gehen auch auf das Thema Datenschutz ein.

Machine Learning und Deep Learning

Ab Kapitel 6 werden wir die Unterschiede zwischen diesen häufig diskutierten Begriffen näher erläutern. Da die Verwendung dieser Begriffe im Zusammenhang mit Data Science jedoch oft für Verwirrung sorgt, möchten wir sie hier kurz erläutern.

In den letzten Jahren haben viele Unternehmen der Verarbeitung großer Datenmengen Priorität eingeräumt. Infolgedessen wurde die wissenschaftliche Verarbeitung, wie z. B. die Formulierung der Arbeitshypothese, in den Hintergrund gedrängt. Big Data versucht, Probleme mit einer ausreichend großen Menge an Computerleistung und Daten zu lösen. Diese Tatsache führt zu einem Produktivitätsparadoxon: Mehr Daten und bessere Algorithmen machen uns nicht produktiver, sondern oft das Gegenteil, da es immer schwieriger wird, das Signal vom Rauschen zu unterscheiden. Das Signal sind die Informationen, die für eine Frage relevant sind und somit zur Beantwortung dieser Frage beitragen, während das Rauschen die irrelevanten Informationen sind.

Wir versuchen, diese Signale im wissenschaftlichen Bereich messbar zu machen, indem wir die Genauigkeit der Signalerkennung und die Häufigkeit, mit der die Algorithmen das Signal finden, messen. Der Quotient aus beiden Messungen drückt die Genauigkeit der Algorithmen aus. Wir beschreiben ihn als Prozentsatz. Ein hoher F1-Wert bedeutet eine präzise Antwort, während Werte um die 50 % ein Zufallsergebnis darstellen. Wenn ein Algorithmus also eine Genauigkeit von z. B. 90 % aufweist, bedeutet dies, dass 90 % aller Informationen korrekt verarbeitet werden.

Diese Zahl mag nach viel klingen, aber Daten mit einem großen Volumen sind die Norm bei Big Data. Nehmen wir zum Beispiel an, wir wollen Kommentare klassifizieren, um Hassreden in sozialen Medien zu finden. Nehmen wir an, dass im Jahr 2018 510 000 Kommentare pro Sekunde auf Facebook gepostet wurden. Wenn wir davon ausgehen, dass 10 % falsch klassifiziert wurden, könnten wir in 51 000 Beiträgen keine Hassrede erkennen.

Um eine solche Situation zu vermeiden, wird Deep Learning, eine Gruppe von Algorithmen für Machine Learning auf der Grundlage neuronaler Netze, derzeit als abstrakte Lösung für viele Probleme eingesetzt. Der Vorteil des Deep Learning gegenüber dem klassischen maschinellen Lernen besteht darin, dass Ersteres in der Regel besser mit der Datenmenge skaliert und somit genauere Ergebnisse liefert und auf verschiedene Probleme angewendet werden kann.

Der Nachteil einiger Methoden des maschinellen Lernens besteht darin, dass es schwierig sein kann, eine Vorhersage zu interpretieren, weil der Lösungsweg nicht unmittelbar nachvollziehbar ist. Außerdem kann eine statistisch erstellte Vorhersage richtig oder falsch sein, da die meisten Modelle in der Regel weniger als 100 % Genauigkeit aufweisen. Darüber hinaus können wir statistische Prognosen nicht verwenden, um neue Daten vorherzusagen, die noch nicht angemessen analysiert wurden oder nur begrenzt genutzt werden. Diese Aussage mag trivial erscheinen, ist aber von entscheidender Bedeutung, da die statistische Analyse in erster Linie von den Eingabedaten und damit von den Modellierungsfähigkeiten des Data Scientists abhängt. Es ist daher notwendig, das Ergebnis richtig zu interpretieren und es nicht als Wahrheit zu betrachten.

Ein hervorragendes Beispiel dafür sind numerische Wettervorhersagen wie der Wetterbericht. Wir kennen die grundlegenden physikalischen Gesetze in Differentialgleichungen, aber es kommt immer wieder zu falschen Vorhersagen aufgrund nicht vorhandener oder falscher Daten oder eines vereinfachten Modells. Ein Ergebnis der gelösten Differentialgleichung kann zum Beispiel lauten: „Morgen beträgt die Regenwahrscheinlichkeit 10 %“. Statistisch gesehen bedeutet dies, dass wir ein analytisches Modell auf der Grundlage historischer Daten erstellt haben und dass es auf der Grundlage aller von uns analysierten Daten in 10 % der Fälle, in denen die Eingabedaten übereinstimmten, geregnet hat. 10 % können also sehr viel oder sehr wenig sein; wichtig ist, dass wir eine geeignete Referenzmenge haben und diese mit der erhaltenen Menge in Beziehung setzen.

In diesem Fall bedeutet dies, dass es durchaus möglich, wenn auch nicht wahrscheinlich ist, dass es morgen regnen wird.

Bild 1.2Disziplinen im Data-Science-Umfeld (https://ai.plainenglish.io/data-sciencevs-artificial-intelligence-vs-machine-learning-vs-deep-learning-50d3718d51e5)

Künstliche Intelligenz

Wenn die Menschen an KI denken, denken sie vielleicht an Computer, die die Welt übernehmen, wie in Terminator.

Künstliche Intelligenz ist die Simulation menschlicher Intelligenzprozesse durch Maschinen, insbesondere durch Computersysteme. Es gibt Überschneidungen zwischen maschinellem Lernen und Data Science, aber KI kann noch getrennt von beiden Disziplinen gesehen werden.

In Kapitel 9 befassen wir uns eingehend mit der künstlichen Intelligenz. Wir erklären die Beziehung zu Data Science und geben einen kurzen Überblick über die Geschichte der KI. Wir erörtern auch die Probleme, auf die man stoßen kann, wenn man Data-Science-Fähigkeiten zur Entwicklung von KI einsetzt. Insbesondere geben wir fünf Ratschläge: Seien Sie pragmatisch, erleichtern Sie Maschinen das Lernen durch induktive Verzerrungen, führen Sie Analysen durch, bevor Sie eine KI-Architektur erstellen, achten Sie auf die Skalierungsfalle für Intelligenz und achten Sie auf die Verallgemeinerungsfalle. In diesem Kapitel erfahren Sie, wie Sie Fehler vermeiden und Ihre Data-Science-Tools effektiv für die Entwicklung von KI-Lösungen einsetzen können. Nach der Lektüre dieses Kapitels werden Sie gut verstehen, wo die Grenzen der KI-Technologie heute liegen und wie Sie mit diesen Grenzen umgehen können.

1.2Datenstrategie

Einige Experten sagen, dass nur Unternehmen mit einer Datenstrategie eine Zukunft haben. Man kann dieser Einschätzung zustimmen oder sie ablehnen. Jeder wird jedoch zugeben, dass nicht jedes Unternehmen den Druck verspürt, datengesteuert zu werden. Viele Abteilungen arbeiten noch mit Stift und Papier, ohne Druck, sich weiterzuentwickeln oder Prozesse zu optimieren. Die nachstehende Abbildung zeigt nur eines von vielen Modellen, die bei einer Webrecherche gefunden werden können, um die verschiedenen Stadien eines Wandels von einem nicht datengesteuerten Unternehmen zu einem vollständig datengesteuerten Unternehmen zu zeigen.

Bild 1.3Daten-Reifegrad-Modell7

Da die Datenreife in hohem Maße von externem Druck abhängt, migrieren Unternehmen oft phasenweise. Wenn der Wettbewerb härter wird, zwingt der Markt die Unternehmen zu Innovationen. Der Luxus, sich dem Wandel aufgrund des Marktdrucks zu widersetzen, kann jedoch auch zu verschiedenen Formen von Stress führen. Einige Großunternehmen stehen z. B. vor dem Problem, dass kein Anbieter die Legacy-Software unterstützt, die sie jahrzehntelang verwendet haben.

Die Einführung von Data Science in Organisationen, egal ob es sich um ein Unternehmen, eine Nichtregierungsorganisation oder eine staatliche Einrichtung handelt, beginnt in den meisten Fällen mit einem Leitbild. Für einen globalen Automobilhersteller könnte eine Strategie beispielsweise wie folgt formuliert werden:

„Unser Unternehmen will bis 2025 der Kostenführer in der globalen Supply Chain sein. Diese Maßnahme ermöglicht es uns, die Elektromobilität mit geringeren Kosten als unsere Wettbewerber auf den Massenmarkt zu bringen. Um dies zu erreichen, müssen wir die Kosten unserer Supply Chain um 20 % senken.“

Andere Unternehmen vereinfachen die Strategie, die von John F. Kennedys Rede über die Landung eines Menschen auf dem Mond und seine sichere Rückkehr zur Erde innerhalb eines Jahrzehnts inspiriert wurde.

„Noch vor Ende dieses Jahrzehnts werden alle von uns hergestellten Fahrzeuge fahrerlos sein.“

Eine NGO hat vielleicht weniger gewinnorientierte, aber nicht weniger ehrgeizige Ziele.

„Mithilfe unserer Spender werden wir Satellitenbilder verwenden, um trockene Gebiete in Ländern zu erkunden und Wasserstellen zu finden. Wir hoffen, dass wir mit dieser Technologie die Schwierigkeiten beim Zugang zu Wasser in den Entwicklungsländern verringern können.“

Die empfohlene Praxis für Unternehmen besteht darin, einen Verantwortlichen für Datenthemen zu haben. In der Regel ist dies die Rolle eines Chief Data Officers, der dafür sorgen muss, dass das Unternehmen seine Vision mithilfe der aus den Daten gewonnenen Erkenntnisse verwirklichen kann.

Viele Unternehmen haben Verfahren zur Erforschung der Vergangenheit durch Business Intelligence eingeführt. Im vielleicht klassischsten Referenzfall analysieren Einzelhandelsunternehmen beispielsweise, wie viele Produkte sie in der Vergangenheit verkauft haben. So können sie herausfinden, welche Geschäfte besser oder schlechter gearbeitet haben. Auf der Grundlage dieser Erkenntnisse kann die Unternehmensleitung dann Änderungen vornehmen, z. B. Schlüsselpersonal in Bereichen mit schlechter Leistung austauschen oder zusätzliche Anreize für Wachstum in anderen Bereichen schaffen.

Bild 1.4Das analytische Kontinuum von Gartner (Quelle: https://twitter.com/Doug_Laney/status/611172882882916352/photo/1)

Viele Unternehmen haben mit traditionellen Analysemethoden bereits ein hohes Maß an Optimierung erreicht. Und oft scheint es, als ob die herkömmlichen Methoden an ihre Grenzen stoßen.

Data Science hilft oft, neues Wissen zu schaffen. Mit anderen Worten: Anstatt Data Science zu nutzen, um mehr Produkte zu verkaufen, nutzen Unternehmen sie oft, um neue Produkte zu schaffen. Während herkömmliche Analysemethoden beispielsweise Zahlen verbessern, erhalten Sie durch Data Science neue Zahlen, mit denen Sie arbeiten können.

Sobald ein CDO eine Strategie zur Erreichung der Unternehmensziele vorgeschlagen hat, wird der Vorstand den Plan genehmigen und ein Budget zuweisen. Auf der Grundlage dieser Strategie setzt der CDO dann die verschiedenen Abteilungsleiter zusammen, um das Ziel zu erreichen. Nach einer Passform-/Lückenanalyse der aktuellen Situation erstellen sie dann Einstellungspläne und planen Projekte, um ihre Ziele zu erreichen.

Diese Position des Unternehmens verdeutlicht auch die Rolle der IT. Der CIO ist für die Bereitstellung der notwendigen Plattformen zuständig, um die Teams des CDO zu befähigen, aber die IT ist nicht Eigentümer des Data-Science-Themas selbst. Daher muss der CIO beurteilen, ob die aktuelle IT-Infrastruktur den Anforderungen der Datenstrategie entspricht, und wenn nicht, muss er einen Plan zur Schaffung der erforderlichen Plattformen erstellen.

1.3Von der Strategie zu den Anwendungsfällen

Die Umsetzung einer Strategie definiert, wie ein Unternehmen Daten und die darauf basierende Modellierung interpretiert. Auf der Grundlage der Strategie kann ein Unternehmen entscheiden, welche Fragen die Data Scientists beantworten müssen. Auf der Grundlage dieser Fragen können Solution Architects Plattformen zum Hosten der Daten entwerfen, und Data Engineers können bestimmen, aus welchen Datenquellen sie Daten extrahieren müssen.

Die meisten Unternehmen haben funktionsübergreifende Teams für Data-Science-Projekte. Diese arbeiten in einem agilen Team, um neue Anwendungsfälle und Methoden zur Anwendung von Data Science zu erforschen.

Ohne qualifizierte Fachleute kann ein Unternehmen nicht einmal ansatzweise seine ehrgeizigen Pläne umsetzen. Deshalb wollen wir uns zunächst ansehen, wie Datenteams aus der Sicht des Projekts aussehen könnten. In einer Unternehmenswelt würden viele dieser Teammitglieder einer anderen Abteilung unterstellt sein.

1.3.1Datenteams

Wir brauchen Datenexperten, um eine Data-Science-Strategie umzusetzen oder ein datengesteuertes Start-up aufzubauen. In der Welt der Daten gibt es zwei Gruppen von Experten, die sich entwickelt haben.

Die erste Gruppe, Personen mit statistischem Hintergrund, verfügt in der Regel über akademische Erfahrung und erstellt Modelle, um die Fragen der Abteilungen zu beantworten. Die zweite Gruppe besteht aus Personen mit einem technischen Hintergrund. Sie sind für die vollständige Automatisierung des Datenladens auf die Plattform und die kontinuierliche Ausführung der Daten der entwickelten Modelle in der Produktionsumgebung verantwortlich.

In Unternehmen haben diese beiden Gruppen unterschiedliche Berichtslinien: Business und IT. In den meisten Unternehmen sind die Datenagenden Teil der obersten Führungsebene. Daher sind Daten mit dem Geschäft verbunden. Einige Unternehmen richten die Rolle eines CDO ein, der direkt an den CEO und den Vorstand berichtet. Andere schaffen eine Position wie den Head of Data oder Head of Data Science. Die Autoren dieses Buches sind der Meinung, dass Daten Teil des Vorstandes sein sollten. Daher bezeichnen wir den CDO als den obersten Leiter aller Datenagenden, während wir den CIO als die Position bezeichnen, die für alle IT-Agenden verantwortlich ist.

In Bild 1.5 finden Sie viele Modelle zur Beschreibung der verschiedenen Rollen pro Aktivität und Abteilung. Bitte beachten Sie, dass wir in diesem Kapitel nicht alle Rollen im Detail behandeln. Wir behandeln dieses Thema ausführlicher in Kapitel 14.

Bild 1.5Rollenverteilung in Datenprogrammen (Quelle: https://nix-united.com/blog/data-science-team-structure-roles-and-responsibilities)

1.3.1.1Fachexperte (Domänenexperte)

Der Fachexperte ist eine wichtige Person für ein Datenprojekt. Dennoch ist diese Person oft nicht Teil von Datenteams. Ein Fachexperte versteht von innen heraus, wie das Unternehmen seine Dienstleistungen für seine Kunden erbringt, und zwar von innen nach außen. Fachexperten werden oft auch als Domänenexperten bezeichnet.

Ein Fachexperte ist eine Person, die seit langer Zeit eine alltägliche Tätigkeit ausübt. In einem Einzelhandelsunternehmen zum Beispiel könnte ein perfekter Fachexperte die Person sein, die seit mehreren Jahren in verschiedenen Funktionen in einem Supermarkt arbeitet. Sie haben schon fast alle denkbaren Szenarien gesehen und haben ein gutes Gespür dafür, was die Kunden wollen. Sie könnten auch potenzielle Nebenwirkungen von Änderungen feststellen, die jemand ohne Erfahrung in diesem Bereich nicht sehen könnte.

In einigen Branchen überschneidet sich die Rolle eines Fachexperten mit der eines Analysten. Das Finanzwesen ist ein gutes Beispiel. Ein Kreditanalyst nimmt alle Daten eines Kunden auf, der einen Kredit beantragt, und berechnet das Kreditrisiko anhand einer vorgegebenen Formel. Im Gegensatz zu Data Scientists generieren Analysten kein neues Wissen. Allerdings arbeiten Analysten mit Zahlen und haben ein tieferes Verständnis als andere Arten von Fachexperten.

In einer NGO könnte ein Fachexperte ein Entwicklungshelfer sein, der Armut und Plagen in Entwicklungsländern bekämpft oder in Flüchtlingslagern arbeitet. Daher hat ein Fachexperte einer NGO möglicherweise eine ganz andere Sicht auf das, was vor Ort fehlt und machbar ist, als jemand, der die Situation aus der Ferne beobachtet.

Außerdem sind Fachexperten aufgrund ihrer langjährigen Erfahrung oft natürliche Autoritäten auf ihrem Gebiet. Wenn ein Unternehmen beispielsweise ein neues IT-System oder neue Verfahren vor Ort einführen will, kann die Unterstützung von Fachexperten für die erfolgreiche Einführung entscheidend sein, da weniger erfahrene Mitarbeiter in diesem Bereich oft zu ihnen aufschauen.

Die konkreten Aufgaben der Fachexperten hängen also vom jeweiligen Tätigkeitsbereich ab, umfassen aber im Allgemeinen folgende Tätigkeiten:

       Einblicke in die bestehenden Herausforderungen gewähren

       Zugang zu möglichen Datenquellen gewähren

       Hilfe bei der Formulierung von Zielen

       Mitwirkung bei der Freigabe von Produkten und Überprüfung ihrer erfolgreichen Umsetzung

       Anleitung der Benutzer bei der Einführung des neuen Systems

1.3.1.2Business-Analyst

Viele Projekte brauchen einen Business-Analysten, der als Brücke zwischen Fachexperten und Data Scientists fungiert. Die entscheidende Fähigkeit eines Business-Analysten ist es, die richtigen Fragen zu stellen. Seine Aufgabe ist es herauszufinden, welche Aktivitäten aus geschäftlicher Sicht sinnvoll sind.

Bei Neugründungen hilft ein Business-Analyst bei der Formulierung des Geschäftsplans und des Wertversprechens. Zunächst muss er aufzeigen, wie das Unternehmen Gewinne erwirtschaften kann, und messen, ob wir erfolgreich sind.

Business-Analysten widmen daher ihre Zeit den folgenden Tätigkeiten.

       Geschäftspläne schreiben

       Analysieren von Geschäftsanforderungen

       Umsetzung von Geschäftsanforderungen in Arbeitspakete für das Datenteam

1.3.1.3Data Scientists

Es gibt eine Debatte darüber, wie viel Statistik ein Data Scientist verstehen sollte. Puristen behaupten, dass man nur dann ein „echter Data Scientist“ sein kann, wenn man einen Doktortitel hat und sich mit wissenschaftlichen Methoden und Statistiken in- und auswendig auskennt. Alle anderen sind demnach „falsche Data Scientists“.

Viele moderne Ansichten weichen davon ab und sehen einen Data Scientist als einen Experten, der Daten nutzt und damit etwas Neues schafft. Zum Beispiel kann er eine neue Beziehung in den Daten entdecken und Modelle erstellen. Es ist wichtig zu betonen, dass gute Kommunikations- und Programmierfähigkeiten hilfreich sind, um dies zu erreichen.

Data Scientists sollten so vielseitig sein wie die Daten, mit denen sie arbeiten, und offen dafür sein, sich in neue Bereiche einzuarbeiten und mit Experten aus verschiedenen Bereichen zusammenzuarbeiten. Die Arbeit mit und die Analyse von Bildgebungsdaten erfordert beispielsweise spezifisches Wissen in den Bereichen Computer Vision, Bildverarbeitung, Machine Learning und auch spezifisches Fachwissen über Differentialgeometrie oder Medizin. Es ist wichtig zu verstehen, wie Daten erfasst werden, welche Fehlinterpretationen möglich sind und ob ein Experte benötigt wird, um eine Basislinie zu erstellen oder die entworfenen Modelle zu bewerten (z. B. Annotationen eines bestimmten Tumorgewebes in einem Computertomografie-Scan durch einen Arzt). In Kapitel 11 erhalten Sie z. B. einen tieferen Einblick in das Gebiet der Computer Vision und wie Sie als Data Scientist mit Bilddaten arbeiten können.

Alles in allem verfügt jeder Data Scientist über ein gewisses Maß an Verständnis für Wissenschaft und Statistik. Viele Dinge können autodidaktisch erlernt werden. Häufig besteht ein Team von Data Scientists aus Personen mit unterschiedlichen Fähigkeiten. Während einige der Mitglieder erstklassige Mathematiker sind, ergänzen andere sie mit mehr Kommunikations- oder Programmierkenntnissen, tragen aber dennoch genauso viel zum Ergebnis bei wie andere.

Mathematik und Statistik

Mathematik und Statistik sind nach wie vor die Grundlage für alles, was wir tun. Deshalb widmen wir uns in den Kapiteln 5 und 6 den Themen, die die Grundlagen der Wahrscheinlichkeitstheorie rekapitulieren, ein Konfidenzintervall erklären und sagen, ob eine Idee mathematisch korrekt ist oder nicht.

Die Hauptaufgaben von Data Scientists sind spannend, manchmal herausfordernd und sehr vielfältig.

       Zunächst müssen sie ihre Daten aufbereiten – oft in Zusammenarbeit mit anderen Abteilungen – z. B. aus den Informationssystemen, und verschiedene Datenquellen harmonisieren. In vielen Unternehmen ist dies die Aufgabe des Data Engineers, vor allem, wenn diese Schritte automatisiert werden müssen und strenge SLA-Anforderungen gelten.

       Anschließend führen sie explorative statistische Analysen durch, interpretieren die Ergebnisse und nutzen diese, um Fachwissen zu gewinnen und weitere vorläufige Datenuntersuchungen durchzuführen.

       Auf der Grundlage dieser Erkenntnisse wird ein Datensatz kuratiert und mit einem Algorithmus für maschinelles Lernen gefüttert, wie den oben genannten, um ein Modell für eine bestimmte Aufgabe zu erstellen.

       Das trainierte Modell wird getestet und so weit verfeinert, dass es produktiv eingesetzt werden kann. Seine Ergebnisse, die in der Regel in Form von Vorhersagen eines bestimmten Ergebnisses bei einem unbekannten Testfall vorliegen, werden vom Data-Science-Team und von anderen Beteiligten im Unternehmen genutzt.

Natürlich ist dieser Prozess keine einmalige Angelegenheit. Daten und Modelle müssen kontinuierlich überwacht (und oft auch neu trainiert) werden, um sicherzustellen, dass die Leistung auf einem akzeptablen Niveau bleibt. Neue Forschungsprojekte müssen auf der Grundlage der Innovationspläne des Unternehmens durchgeführt werden, wodurch dieser Prozess von Neuem beginnt. Geschäftsfragen können mithilfe von Daten beantwortet werden, und Fortschritte und Ergebnisse müssen den verschiedenen Abteilungen mitgeteilt werden, oft in Form von ausgefeilten Visualisierungen und Präsentationen (siehe Kapitel 13, „Visualisierung“).

Wir werden in diesem Buch noch viele weitere Aspekte der Arbeit von Data Scientists beschreiben. Data Scientists spielen eine wesentliche Rolle bei der Entwicklung von KI-Lösungen (siehe Kapitel 9), aber auch im Bereich der Modellierung und Simulation (siehe Kapitel 12).

1.3.1.4Data Engineer

Data Engineers bauen und optimieren Datenplattformen, damit Data Scientists und Analysten Zugang zu den entsprechenden Daten haben. Darüber hinaus laden sie Daten in die Datenplattform gemäß den vom Architekten festgelegten Richtlinien.

Data Engineers setzen diese Tätigkeit mithilfe von Datenpipelines um, laden Daten aus Drittsystemen, wandeln die Daten um und speichern sie dann auf der Plattform. Eine Datenpipeline muss mit steigenden Datenmengen skalieren und robust sein. Daher muss die Pipeline über eine entsprechende Fehlertoleranz verfügen. Sie bildet somit die Grundlage, auf der Data Scientists und Analysten Wissen generieren können.

Im Gegensatz zu anderen Teammitgliedern müssen Data Engineers über solide Programmierkenntnisse verfügen. Vor allem muss ein Data Engineer die Grundsätze von verteilten Systemen verstehen und wissen, wie man Code schreibt, der skaliert werden kann. Daher spielt der Data Engineer eine grundlegende Rolle in jedem Data-Science-Team.

Zu den Hauptaktivitäten gehören:

       Aufbau verschiedener Schnittstellen, die das Lesen und Schreiben von Daten ermöglichen

       Integration von internen oder externen Daten in bestehende Pipelines

       Anwendung von Datentransformationen zur Erstellung von Analysedatensätzen

       Überwachung und Optimierung, um die kontinuierliche Qualität des Systems zu gewährleisten (und ggf. zu verbessern)

       Entwicklung eines Frameworks zum effizienten Laden von Daten

1.3.1.5DevOps

DevOps ist eine Rolle, die eine Mischung aus Entwickler- und Administratorfähigkeiten erfordert. Ihre Aufgabe ist es, die Datenplattform zu betreiben, auf der die Data Engineers und Data Scientists arbeiten.

DevOps implementieren den Architekturentwurf für ein Projekt oder System und gehen auf die Änderungswünsche der Data Engineers ein. Mit dem Aufkommen von Cloud-Systemen sind DevOps-Engineers immer wichtiger und in vielen Projekten zu einer knappen Ressource geworden.

Ihre Aktivitäten umfassen:

       die Skalierung von Datenplattformen

       Identifizierung von Leistungsproblemen in der Software

       Automatisieren von Neuverteilungen

       Überwachung und Protokollierung von Anwendungen

       Identifizierung von Ressourcenengpässen und Problemen

       Behebung von Problemen, die durch den Systembetrieb entstehen

1.3.1.6Solution Architect

Letztendlich muss jemand dafür verantwortlich sein, dass alles reibungslos läuft. Nur dann können Data Scientists ihre Arbeit tun, und die Benutzer können durch die Nutzung der während der Implementierung der Datenstrategie entwickelten Anwendungen einen geschäftlichen Mehrwert schaffen. In großen Unternehmen ist dies der Solution Architect.

Jemand muss dafür sorgen, dass die richtige Hardware-Infrastruktur vorhanden ist, dass die geeignete Datenmanagement- und Verarbeitungssoftware Daten vor Missbrauch und Diebstahl schützen kann und schließlich, dass Data Scientists und Endnutzer eines Systems ihre Arbeit erledigen können.

Viele Organisationen haben dafür mehrere Rollen:

       Ein Datenarchitekt konzentriert sich auf Daten und die Art und Weise, wie Daten gespeichert werden. Darüber hinaus kümmert sie sich um die Verwaltung von Metadaten und die Definition von Prozessen zum Laden von Daten in Datenverwaltungssoftware wie Datenbanken oder Objektspeicher.

       Ein System- oder Infrastrukturarchitekt konzentriert sich auf Server und Hardware und stellt sicher, dass die Hardware verfügbar ist. Wenn das Unternehmen die Lösung in der Cloud hostet, wird diese Rolle als „Cloud-Architekt“ bezeichnet.

       Ein Data Steward oder Datenmanager ist dafür verantwortlich, dass das Projekt den entsprechenden Unternehmensrichtlinien entspricht.

       Ein Sicherheitsarchitekt schützt das System vor Hackern und anderen Einbruchsversuchen.

In der Realität ist es schwierig, diese technischen Rollen voneinander abzugrenzen. Eine Datenplattform muss mehreren Zwecken dienen und mehrere funktionale und nichtfunktionale Anforderungen erfüllen. Ohne die Software zu kennen, kann man keine Hardware-Entscheidung treffen, und zahlreiche Datenplattformen haben spezifische Hardware-Anforderungen. Daher muss es einen Generalisten geben, der alles versteht und andere Architekten anleiten kann, kostengünstige, skalierbare, robuste und schnelle Lösungen zu entwickeln.

In großen Unternehmen leitet ein CIO alle Ströme, um Standards für jedes Projekt zu schaffen. Große Unternehmen verfügen über eigene Frameworks oder Business Units, die anderen Abteilungen Plattformen zur Verfügung stellen. Ein Solution Architect muss oft auch die Unternehmenspolitik als weiteren Faktor beim Aufbau der besten Plattform für sein Projekt berücksichtigen. In kleinen Unternehmen gibt es in der Regel weniger Beschränkungen und mehr Möglichkeiten, mit einer falschen Strategie zu scheitern. Kapitel 17, „Mindset und Community“, befasst sich auch mit einem Risiko, das als „Schweizer Armeemesser“ bekannt ist und auf einen Solution Architect in einem kleinen Unternehmen zutreffen kann: In vielen kleinen Unternehmen ist am Ende eine Person der einzige Experte für mehrere technische Bereiche.

In vielen Unternehmen läuft es oft darauf hinaus, dass eine Person mit vielfältigen Fähigkeiten und breitem Wissen die volle Verantwortung für die Realisierung der Lösung trägt. Je nach Größe des Projekts oder des Unternehmens kann sie zwar Aufgaben delegieren, muss aber in anderen Szenarien mehrere Rollen abdecken und wird so häufig zum Engpass.

Typische Aufgaben von Solution Architects:

       Als Verantwortlicher für die Lösung entscheiden sie über alle Parameter oder leiten den Entscheidungsprozess. Zu den Parametern gehören u. a. Hardware, Betriebssysteme, Datenverwaltungssoftware, Datenverarbeitung, Benutzerfreundlichkeit, Skalierbarkeit und Kosteneffizienz.

       Sie stellen sicher, dass das Projekt alle Anforderungen erfüllt und dass das Projektteam über alle Voraussetzungen verfügt, um die Lösung für die Endnutzer zu erstellen.

       Leitung anderer Architekten und Engineers bei der Implementierung der Lösung.

       Sicherstellen, dass alle Lösungen den Unternehmensstandards für alle Projekte entsprechen, z. B. den Datenschutzstandards.

1.3.1.7Andere Rollen

BI-Engineers und Business Data Owners haben wir hier nicht behandelt. In agilen Teams wird oft ein Scrum Master in das Team aufgenommen.

Wir werden in Kapitel 16 darlegen, dass Datenteams in verschiedenen Branchen mit ganz unterschiedlichen Anforderungen konfrontiert sein können. Auch haben kleine Unternehmen oder Start-ups andere Anforderungen als große Unternehmen. Diese Vielfalt bedeutet, dass es keine eindeutige Definition dafür gibt, wie ein Datenteam strukturiert sein muss. In einem Team werden verschiedene Rollen existieren, in einem anderen nicht.

Datenteams in großen Unternehmen, vor allem mit gesetzlichen Anforderungen, enthalten auch Rollen wie Datenmanager, Sicherheitsexperte, Data Steward und weitere.

1.3.1.8Teambildung

Die Struktur des Teams und das Betriebsmodell hängen stark vom Reifegrad der Daten des Unternehmens ab. In vielen Fällen müssen einige Teammitglieder erst Altsysteme „ausmisten“, bevor sie etwas Neues schaffen können. In einigen Unternehmen teilen die Führungskräfte einzelne Mitarbeiter mehreren Teams zu.

Der Erfolg von Teams hängt auch stark von der Unternehmenskultur ab. Darauf gehen wir in Kapitel 17, „Mindset und Community“, näher ein. Der Aufbau einer datengetriebenen Organisation ist der Schwerpunkt von Kapitel 14.

1.3.2Daten und Plattformen

Unternehmensdaten liegen derzeit in den meisten Unternehmen horizontal, in verschiedenen Abteilungen, oder vertikal, fragmentiert und gekoppelt an verschiedene Funktionen und Silos vor. Hinzu kommt, dass der Anteil kritischer Informationen, die außerhalb der üblichen Prozesse generiert werden, wächst. Teil einer Datenstrategie ist es daher, einen Prozess zu schaffen, der mit verschiedenen Datenformaten umgehen und sie in ein strukturiertes und verarbeitbares Format umwandeln kann. Bei diesem Prozess können wir vier verschiedene Eigenschaften untersuchen:

       Volume: Beschreibt die Datenmenge, die in Unternehmen durch die täglichen Geschäftsprozesse gesammelt wird. Das Volumen ist eine Größenordnung wie Gigabyte, Terabyte oder Petabyte.

       Velocity: Beschreibt die Geschwindigkeit der während einer Sitzung oder Transaktion erzeugten Daten. Sensordaten haben in der Regel eine sehr hohe Geschwindigkeit, da sie oft sofort verarbeitet werden müssen. Wenn Sie z. B. mit Sensoren Probleme in der Produktion feststellen, wollen Sie innerhalb weniger Minuten reagieren.

       Veracity: Dieser Wert beschreibt die Vertrauenswürdigkeit oder Genauigkeit der Daten. Wir können zum Beispiel die Data Lineage verwenden, um die einzelnen Schritte und Ströme der Datenverarbeitung nachzuvollziehen. Die entsprechenden Signaturmechanismen können vertrauenserhöhende Maßnahmen sein. Darüber hinaus können wir ein Wasserzeichen einfügen, um festzustellen, welcher Benutzer die Dokumente das letzte Mal geöffnet hat.

       Variety: Beschreibt die verschiedenen Datenformate und Datentypen auf einer Plattform. So muss die gesamte Plattform unterschiedliche Daten verarbeiten, wie z. B. Sprachdaten oder Textdaten. Darüber hinaus muss sie über Standardkonnektoren zu den einzelnen im Unternehmen verwendeten Schnittstellen verfügen, um die benötigten Daten effizient bereitzustellen.

Daten und Plattformen enthalten auch bewährte Verfahren für die Automatisierung der Erstellung von Plattformen in der Cloud oder vor Ort. Es gibt viele nichtfunktionale Anforderungen wie Haltbarkeit oder Verfügbarkeit. Eine wichtige Aufgabe eines Solution Architects ist es, eine Lösung zu finden, die all diese Anforderungen erfüllt.

Die Kapitel 2 bis 5 behandeln Infrastruktur und Datenarchitektur, Datentechnik und Datenmanagement. In Kapitel 2 werden wir uns mit Topologien und Hardware befassen. Dies umfasst auch DevOps-bezogene Aspekte, wie Datenplattformen aufgebaut werden können.

In Kapitel 3 befassen wir uns mit Datenarchitekturen im Allgemeinen. Wir sehen uns Lösungen an, wie wir Daten speichern können, damit wir effizient auf sie zugreifen können. Während wir in Kapitel 2 untersucht haben, welche Hardware wir benötigen und wie wir die Erstellung von Plattformen automatisieren können, geht es in Kapitel 3 darum, welche Anwendungsplattformen Software zur Verfügung stellen, um Daten bestmöglich zu verarbeiten.

Kapitel 4 befasst sich mit wesentlichen Aspekten der Datenentwicklung. Genauer gesagt, wie man Daten aus Quellen extrahiert und sie auf die Plattform lädt.

In