Data Science Management - Marcel Hebing - E-Book

Data Science Management E-Book

Marcel Hebing

0,0

Beschreibung

Der umfassende Leitfaden für das Managen von Data-Science-Projekten für Studium und Beruf - Themenspektrum: Designen von Projekten, Datenverarbeitung, Analysemethoden, Rolle und Aufgaben von Data Science Manager:innen, Kommunikation mit Stakeholdern, Automatisierung, MLOps, Governance - Inklusive konkreter Toolsets wie z.B. Softwarepakete, Checklisten, Projekt-Canvases sowie Übersichten über bewährte Methoden - Die Autoren sind Professoren für Data Science bzw. Data Science Management an der Digital Business University of Applied Sciences und Startup-Gründer Viele Data-Science-Vorhaben scheitern an organisatorischen Hürden: Oftmals ist die Rolle des Managements in diesen Projekten nicht klar definiert, zudem gibt es unterschiedliche Vorstellungen, wie gutes Projektmanagement für Data-Science-Produkte aussehen muss. Dieser praxisorientierte Leitfaden unterstützt Sie beim erfolgreichen Management von Data-Science-Projekten jeder Größe. Sie erfahren zunächst, wie Datenanalysen durchgeführt werden und welche Tools hierfür infrage kommen. Marcel Hebing und Martin Manhembué zeigen dann Wege auf, wie Sie Projekte entlang des Data-Science-Lifecycles planen und eine datengetriebene Organisationskultur implementieren. Dabei wird die Rolle von Data-Science-Managerinnen und -Managern im Kontext eines modernen Leaderships beleuchtet und der Aufbau von Datenanalyse-Teams beschrieben. Jeder Themenbereich wird ergänzt durch Hands-on-Kapitel, die Toolsets und Checklisten für die Umsetzung in die Praxis enthalten. Themen des Buchs: - Data-Science-Grundlagen: Designen von Projekten, Datenformate und Datenbanken, Datenaufbereitung, Analysemethoden aus Statistik und Machine Learning - Management von Data-Science-Projekten: Grundlagen des Projektmanagements, typische Fallstricke, Rolle und Aufgaben des Managements, Data-Science-Teams, Servant und Agile Leadership, Kommunikation mit Stakeholdern - Infrastruktur und Architektur: Automatisierung, IT-Infrastruktur, Data-Science-Architekturen, DevOps und MLOps - Governance und Data-driven Culture: Digitale Transformation, Implementierung von Data Science im Unternehmen, Sicherheit und Datenschutz, New Work, Recruiting

Sie lesen das E-Book in den Legimi-Apps auf:

Android
iOS
von Legimi
zertifizierten E-Readern
Kindle™-E-Readern
(für ausgewählte Pakete)

Seitenzahl: 467

Veröffentlichungsjahr: 2024

Das E-Book (TTS) können Sie hören im Abo „Legimi Premium” in Legimi-Apps auf:

Android
iOS
Bewertungen
0,0
0
0
0
0
0
Mehr Informationen
Mehr Informationen
Legimi prüft nicht, ob Rezensionen von Nutzern stammen, die den betreffenden Titel tatsächlich gekauft oder gelesen/gehört haben. Wir entfernen aber gefälschte Rezensionen.



Copyright und Urheberrechte:

Die durch die dpunkt.verlag GmbH vertriebenen digitalen Inhalte sind urheberrechtlich geschützt. Der Nutzer verpflichtet sich, die Urheberrechte anzuerkennen und einzuhalten. Es werden keine Urheber-, Nutzungs- und sonstigen Schutzrechte an den Inhalten auf den Nutzer übertragen. Der Nutzer ist nur berechtigt, den abgerufenen Inhalt zu eigenen Zwecken zu nutzen. Er ist nicht berechtigt, den Inhalt im Internet, in Intranets, in Extranets oder sonst wie Dritten zur Verwertung zur Verfügung zu stellen. Eine öffentliche Wiedergabe oder sonstige Weiterveröffentlichung und eine gewerbliche Vervielfältigung der Inhalte wird ausdrücklich ausgeschlossen. Der Nutzer darf Urheberrechtsvermerke, Markenzeichen und andere Rechtsvorbehalte im abgerufenen Inhalt nicht entfernen.

Data Science Management

Vom ersten Konzept bis zur Governancedatengetriebener Organisationen

Marcel Hebing, Martin Manhembué

Marcel Hebing, Martin Manhembué

Lektorat: Alexandra Follenius

Korrektorat: Sibylle Feldmann, www.richtiger-text.de

Satz: III-satz, www.drei-satz.de

Herstellung: Stefanie Weidner

Umschlaggestaltung: Karen Montgomery, Michael Oréal, www.oreal.de

Bibliografische Information der Deutschen Nationalbibliothek

Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.d-nb.de abrufbar.

ISBN:

Print978-3-96009-214-8

PDF978-3-96010-808-5

ePub978-3-96010-809-2

1. Auflage 2024

Copyright © 2024 dpunkt.verlag GmbH

Wieblinger Weg 17

69123 Heidelberg

Dieses Buch erscheint in Kooperation mit O’Reilly Media, Inc. unter dem Imprint »O’REILLY«.

O’REILLY ist ein Markenzeichen und eine eingetragene Marke von O’Reilly Media, Inc. und wird mit Einwilligung des Eigentümers verwendet.

Schreiben Sie uns:

Falls Sie Anregungen, Wünsche und Kommentare haben, lassen Sie es uns wissen: [email protected].

Die vorliegende Publikation ist urheberrechtlich geschützt. Alle Rechte vorbehalten. Die Verwendung der Texte und Abbildungen, auch auszugsweise, ist ohne die schriftliche Zustimmung des Verlags urheberrechtswidrig und daher strafbar. Dies gilt insbesondere für die Vervielfältigung, Übersetzung oder die Verwendung in elektronischen Systemen.

Es wird darauf hingewiesen, dass die im Buch verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken- oder patentrechtlichem Schutz unterliegen.

Alle Angaben und Programme in diesem Buch wurden mit größter Sorgfalt kontrolliert. Weder Autoren noch Verlag können jedoch für Schäden haftbar gemacht werden, die in Zusammenhang mit der Verwendung dieses Buches stehen.

Inhalt

Einleitung: Ein Handbuch zum Management von Data Science

Teil I: Data-Science-Grundlagen

1Eine Einführung in Data Science aus Projektsicht

Verlauf eines Data-Science-Projekts (Prozessmodell)

Von einfachen Analysen zur Automatisierung (Analytics Continuum)

Welche Kompetenzen brauchen wir in einem Data-Science-Projekt?

2Wie wir über Daten sprechen

Strukturierte Daten

Semistrukturierte Daten

Unstrukturierte Daten

Skalenniveaus und besondere Datenformate

Verschiedene Aspekte der Qualität von Daten

Big Data und Smart Data

3Datenbeschaffung und -aufbereitung

Datenquellen und Datenerhebung

Datenzugriff ist nicht nur eine technische Angelegenheit

Integration und Aufbereitung verschiedener Datenquellen

Trainings- und Testdaten für das Training von Machine-Learning-Algorithmen

Feature Engineering

4Deskriptive Analysen

Univariate Basisstatistiken und Kennzahlen

Bivariate Darstellungen und Korrelationen

Visualisierung von Daten

Explorative Datenanalyse (EDA)

5Modellbildung in der klassischen Statistik

Grundgesamtheiten und Stichproben

Die Regressionsanalyse als Beispiel für ein erklärendes Modell

Wie funktioniert eine Regressionsanalyse aus mathematischer Sicht?

Die Flexibilität der Regressionsanalyse

Spezielle Anwendungsfälle: Zeitreihenanalyse und Vorhersagen

6Vorhersagen im Machine Learning

Supervised Learning

Regressionsanalyse

Entscheidungsbäume

K-Nearest-Neighbors

Datenqualität und verwandte Herausforderungen

Unsupervised Learning

Dimensionsreduktion

Clusteranalyse

Deep Learning, Reinforcement Learning und neuronale Netze

Predictive, Prescriptive, Automation

7Aufbereitung der Ergebnisse für die weitere Verwendung

Dokumentation, Wiederverwendung und Replizierbarkeit

Reporting

Statischer Report

Dashboards

Storytelling und visuelle Kommunikation mit Daten

Mehrwert von Daten im Unternehmen

Impact, Evaluation und Feedback

8Aspekte einer Basisinfrastruktur

Datenformate und Datenbanken

Plain Text

Binary Files

SQL-Datenbanken

NoSQL

Datenverarbeitung und Analyse

Collaboration und Arbeit in der Cloud

9Hands-on: Beispielprojekt

Studiendesign

Datenbeschaffung und -aufbereitung

Analyse der Daten

Dokumentation und Reporting

Handlungsempfehlung (Impact)

Teil II: Data-Science-Management

10Fallstricke für Data-Science-Projekte

Fallstricke in Technologie und Infrastruktur

Data Engineering wird unterschätzt

Datensilos

Fallstricke in der Modellierung

Zu komplexe Modelle

Fluch der Dimensionalität

Ausreißer

Fallstricke im Management

Law of Instrument

Zu viel, zu früh

Unklare Ziele

Ein Projekt ist keine produktive Anwendung

Fehlende Skills und Data-Science-Kultur

11Grundlagen des Projektmanagements

Klassisches Anforderungsmanagement

Agiles Management und Lean Mindset

Mehrwert und Kundenzentrierung

Kollaboration

Iteratives und inkrementelles Vorgehen

Kontinuierliche Verbesserung

Dezentralität und Selbstorganisation

PoC und MVP

Agiles Mindset

Erkenntnisse aus der agilen Praxis

Agiles Anforderungsmanagement

Zeit- und Ressourcenmanagement

Finanzielle Ressourcen

Zeitliche Ressourcen

Infrastrukturelle Ressourcen

Daten

Kontextualisierung und Kommunikation

Team-Bubble

12Data-Science-Teams

Funktionen von Teams

Teamstrukturen

Team of Teams und New Work

Verortung von Data-Science-Teams

Rollen und deren Aufgaben in Data-Science-Teams

Rollenverständnis nach methodischer Tiefe

Rollenverständnis nach Ausbildung und Interessen

Rollenverständnis nach Aufgaben

Rollen von Data Scientists

Data Scientists

Data Engineers

Fachexpertinnen und -experten

Software Engineers und DevOps Engineers

Machine Learning Engineers und MLOps Architects

Model-Risk-Managerinnen und -Managern

Softwarearchitektinnen und -architekten

Analystinnen und Analysten

Herausforderungen und Konflikte in Teams

Digitales Arbeiten und Remote Work

Zusammenarbeit und Kommunikation

13Data-Science-Managerinnen und -Manager

Aufgaben und Fähigkeiten

Modernes Leadership

Servant Leadership

Agile Leadership

Shared Leadership

Impact durch Leadership

Coaching und Mentoring von Data Scientists

14Hands-on: Empfohlenes Toolkit für das Data-Science-Management

Scrum

Kanban

Scrum oder Kanban nutzen?

Team Health Checks

AI Project Canvas

Checkliste Anforderungsmanagement

Problemfelder benennen

Herausforderungen ermitteln

Mehrwert beschreiben

Teil III: Infrastruktur und Architektur

15Automatisierung und Operationalisierung im kybernetischen Regelkreis

Das wissenschaftliche Vorgehen: Wissen iterativ weiterentwickeln und vertiefen

Proof-of-Concept-Projekte und Design Thinking

Operationalisierung und Evaluation von Zielen in laufenden Projekten

Der kybernetische Regelkreis

Cross Industry Standard Process for Data Mining (CRISP-DM)

16Grundlagen der IT-Infrastruktur

Bausteine einer Softwareanwendung

Hardware: eigene Rechner vs. Cloud

Container und Microservices

Platform-as-a-Service (PaaS) und Serverless

Software- und Data-Science-as-a-Service (SaaS/DSaaS)

17Data-Science-Architekturen

Data Lake

Data Warehouse (DWH)

Weitere Optionen wie das Analytics Lab

Interaktive Visualisierung, EDA und Business Intelligence

Data Mesh

18DevOps und MLOps: Entwicklung und Betrieb

Versionierung und Versionskontrolle

Continuous Integration and Delivery

Microservices und Application Programming Interfaces (APIs)

Testing und Monitoring

Betrieb von Machine-Learning-Modellen (DevOps und MLOps)

19Hands-on: Modellierung von Software und Infrastruktur

Bestandsaufnahme im Event-Storming

Weiterentwicklung in der Business Process Model and Notation (BPMN)

Modellierung einer technischen Infrastruktur

Modellierung einer (relationalen) Datenbank

Regelkonformität

Teil IV: Data Science Governance und Data-driven Culture

20Digitale Transformation der Unternehmen

Strategischer Einsatz von Daten

Wettbewerbsvorteile durch Data Science

As-a-Service-Modelle

21Implementierung im Unternehmen

Schritt 1: Ideenfindung

Wie findet man geeignete Anwendungsfälle?

Schritt 2: Proof-of-Concept

Schritt 3: Technische Implementierung

Schritt 4: Implementierung auf Bereichsebene

Schritt 5: Skalierung auf Unternehmensebene

Schritt 6: Verstetigung

Change Management

Datenmanagement

IT-Management

22Sicherheit und Datenschutz

Safety

Security

Governance, Compliance und rechtliche Aspekte

Ethische Aspekte und Corporate Responsibility

Digitalpolitik

23Digitale Kompetenzen und Data-Science-Kultur

New Work

Flexibilisierung der Arbeitsorganisation

Diversität und Kreativität

Netzwerkorganisationen und Leadership

Achtsamkeit und Gesundheit

Recruiting

Upskilling und Reskilling

Entrepreneurship, Intrapreneurship und Innovation

Literacy, Enablement und Citizen Data Science

Grundpfeiler einer kreativen Umgebung

24Hands-on: Toolkit für Strategie und Governance

Business Model Canvas

AI Canvas

Datenstrategie-Designkit

25Schlüsselfaktoren für erfolgreiches Data-Science-Management

Data Scientists als Individuen

Wirtschaftlichkeit

Governance

Kultur

Infrastruktur

Projekte und Teams

Wirtschaftlichkeit

Governance

Kultur

Infrastruktur

Unternehmen und Strategie

Wirtschaftlichkeit

Governance

Kultur

Infrastruktur

Index

Einleitung: Ein Handbuch zum Management von Data Science

Ein typisches Szenario: Ein mittelständisches Unternehmen mit Milliardenumsatz vollzieht die digitale Transformation. Die Zukunft des Unternehmens liegt in einer effektiven und effizienten Nutzung von Daten, das ist allen Beteiligten klar. Erste Schritte werden unternommen, es wird investiert, Ziele werden gesteckt, und es vergehen einige Monate. Doch dann kommt der Prozess ins Stocken.

In den Abteilungen des Unternehmens finden sich bereits Menschen, die Datenanalysen durchführen. Dies sind Menschen mit einem Studium in Betriebswirtschaftslehre oder Wirtschaftsinformatik. Es soll wohl auch einen promovierten Physiker geben, der sehr gut in Statistik ist. Man hat vor einiger Zeit alle Mitarbeitenden mit entsprechenden Kompetenzen zusammengezogen und in der IT-Abteilung gebündelt. Die dortige Leitung weiß aber nicht so recht, welche Ziele verfolgt werden sollen, die das Unternehmen voranbringen könnten. Die Verortung in diese Abteilung scheint zwar nicht verkehrt, da man sich auf kurzem Dienstweg Zugang zu Datenbanken und anderen IT-Ressourcen verschaffen kann, aber es bleibt unklar, woran man nun konkret arbeiten soll. Es gibt viele Ideen, aber keine konkreten Projekte, die wertstiftende Ergebnisse liefern.

Das Management des Unternehmens wird langsam unruhig, hatte man doch schon vor Monaten eine Strategie verabschiedet, die das Unternehmen in eine datengetriebene Zukunft führen sollte. Nach einigen Gesprächen mit der IT-Abteilung kristallisiert sich heraus, dass sich Ziele und Mission der Datenanalystinnen und -analysten sowie der Data Scientists klar an der Strategie des Unternehmens orientieren müssen. Da die Entwicklung von Strategien zum Bereich der Geschäftsführung gehören, werden die Data Scientists organisatorisch hier verortet. Die Sprache, die Art der Kommunikation und das hierarchische Gefälle ändern sich schlagartig. Es wird klar, wohin es langfristig gehen soll. Doch leider bleibt über Wochen unklar, was konkret umgesetzt werden soll. Die Reiseziele kennen nun zwar alle, aber das Transportmittel bleibt ungewiss.

Das Unternehmen hat nun also eine Strategie, kompetente Mitarbeitende, eine technische Infrastruktur und sicherlich auch schon umfangreiche Datenschätze aus den operativen Systemen der Fachabteilungen – und doch führen die Bemühungen nicht zu den gewünschten Erfolgen. Es fehlt etwas, das die verschiedenen Komponenten zusammenhält und gleichzeitig entsprechende Prozesse in Gang bringt und antreibt. Zum einen fehlt es an einer klaren Rolle für die Steuerung dieses Prozesses, die weder vom Topmanagement noch von der Leitung der IT-Abteilung oder einer anderen Fachabteilung wahrgenommen werden kann. Zum anderen fehlt ein Management- und Prozessmodell, um entsprechende Datenanalyseprojekte auch über längere Zeiträume hinweg planen und kalkulieren zu können – es werden zwar viele kleine Projekte angefangen, konnten bisher aber nie in größere, nachhaltige und gewinnbringende Anwendungen überführt werden.

Und es fehlt noch eine Zutat, die im Englischen oft als Secret Sauce bezeichnet wird: eine Kultur, die datengetriebene Entscheidungen ermöglicht und Mitarbeitende kollaborativ an Datenanalysen arbeiten lässt.

Das hier dargestellte Beispiel ist zwar fiktiv, basiert aber auf den Erfahrungen, die wir in den letzten zehn Jahren in verschiedenen Rollen als Berater, Data Scientists, Projektmanager und Professoren in der Zusammenarbeit mit Technologie-Start-ups, klassischem deutschem Mittelstand, öffentlich finanzierten Forschungsinstituten und Großkonzernen mit vielen Subunternehmen sammeln durften. Es ließen sich immer wieder zwei Hürden identifizieren, an denen viele Projekte scheitern: das Fehlen einer dezidierten Rolle für das Management von Data-Science-Projekten und unterschiedliche Vorstellungen davon, wie solche Projekte organisatorisch zu gestalten sind.

Für wen ist dieses Buch besonders geeignet?

Um Unternehmen für die oben geschilderten Herausforderungen zu wappnen, haben wir das Konzept für dieses Buch entwickelt. Hier lernen Sie und lernt ihr, was Daten sind und wie man mit ihnen umgeht, wie Datenanalysen durchgeführt werden und welche Werkzeuge hierfür heutzutage infrage kommen. Wir schauen uns den Prozess der Datenwertschöpfung von Anfang bis Ende an und analysieren, wie mit Daten ein Mehrwert für das Unternehmen generiert werden kann. Dabei nehmen wir Sie und euch mit auf eine Reise durch die Datenmodellierung und -verarbeitung und zeigen Best-Practice-Ansätze. Schließlich präsentieren wir Wege, wie man Data-Science-Projekte organisieren kann und als Unternehmen in diesem Bereich erfolgreich wird und bleibt. Zusammengefasst, bietet dieses Buch Folgendes:

eine Einführung in das Management von Data-Science-Projekten aller Größenordnungen bis hin zur Data Science Governance von Unternehmen,

einen umfassenden Überblick über konkrete Vorgehen in Data-Science-Projekten,

einen Einblick in die Schritte zur Automatisierung und Operationalisierung für produktive Data-Science-Anwendungen,

ein Schritt-für-Schritt-Vorgehen im Data-Science-Lifecycle sowie

Techniken für den Umgang mit Daten und Stakeholdern für eine erfolgreiche Datenmodellierung.

Wir wollen mit diesem Buch Individuen und Unternehmen in die Lage versetzen, zu verstehen, was Data Science ausmacht und welcher Methoden man sich bedienen kann, um die Komplexität zu managen. Dabei steht für uns im Vordergrund, die Methoden aus dem Bereich Data Science einzuführen, aber nicht erschöpfend zu diskutieren. Für einen umfassenden Überblick über den Bereich Data Science und mögliche Anwendungsfelder empfehlen wir »Data Science für Unternehmen« von Foster Provost und Tom Fawcett (mitp 2017). Entsprechendes statistisches Grundwissen vorausgesetzt, gibt es außerdem sehr gute praktische Einführungen, beispielsweise Datenanalyse mit Python von Wes McKinney (O’Reilly 2023) oder Praxiseinstieg Machine Learning mit Scikit-Learn, Keras und TensorFlow von Aurélien Géron (O’Reilly 2023). Wir wollen die Grundzüge dieser Methoden unseren Leserinnen und Lesern allerdings nahebringen, damit sie ein breites Wissen über die Arbeitsweise von Data Scientists entwickeln können. Gleichwohl wollen wir dafür werben und Verständnis dafür aufbauen, dass Data Science nicht als Monolith in Unternehmen funktioniert, sondern aktiv in bestehende Strukturen eingebettet werden muss, um zu den Zielen und dem Erfolg des Unternehmens beizutragen.

Die wertstiftende Auswertung von Daten betrifft viele Menschen in Unternehmen, da immer mehr datengetriebene Entscheidungen getroffen werden. Dasselbe gilt für die Unternehmen: Immer mehr Unternehmen analysieren ihre Daten. Das Besondere an unserem Buch ist die deutsche Sprache, die das Buch auch für Menschen in kleinen und mittelständischen Unternehmen interessant macht, die bei englischsprachigen Büchern eventuell eine zu große Sprachbarriere sehen. Ganz konkret richtet sich das Buch an:

Entscheidungsträgerinnen und Entscheidungsträger sowie Managerinnen und Manager, die Data Science in ihrem Unternehmen einführen wollen,

Verantwortliche für Projekte und Product Owner im Umfeld von Data Science, Big Data und Data Analytics,

IT-Verantwortliche, die den Data-Science-Bereich ausbauen und stärken wollen,

Data Scientists, die sich über statistische und technische Fähigkeiten hinaus fortbilden wollen,

Studierende in den Bereichen Data Science, Statistik, Wirtschaftsinformatik, BWL, VWL, Digital Business usw. sowie an

alle interessierten Menschen, die sich weiterbilden möchten.

Was ist Data-Science-Management?

Data Science ist eine interdisziplinäre Wissenschaft, die sich bei den Theorien und Methoden anderer Disziplinen wie Mathematik und Statistik, Computerwissenschaften bzw. Informatik sowie entsprechenden Domainwissenschaften und beim Branchenwissen (also beispielsweise der Betriebswirtschaftslehre im Kontext von Business Analytics) bedient. Das Ziel von Data Science ist es, Entscheidungsprozesse mit Daten bzw. Datenanalysen zu unterstützen.

In Abbildung E-1 ist die Interdisziplinarität visualisiert. Diese bringt es mit sich, dass sich Data-Science-Teams aus Personen mit sehr unterschiedlichen fachlichen Hintergründen zusammensetzen können und mit verschiedenen Stakeholder-Gruppen (beispielsweise anderen Fachabteilungen oder diversen Kundengruppen) zusammenarbeiten.

Abbildung E-1: Venn-Diagramm der Fähigkeiten und Disziplinen, die Data Science ausmachen, in Anlehnung an Drew Conway1

Das Venn-Diagramm nach Conway zeigt eine Schwäche: Es fehlt die soziale Komponente, die als Kitt zwischen den Disziplinen dient. Interdisziplinarität kann nur funktionieren, wenn Kommunikation stattfindet und es Strukturen gibt, die diese ordnen. Es bedarf also des Managements des Zusammenspiels zwischen Menschen mit ihren unterschiedlichen fachlichen Hintergründen und methodischen Vorgehensweisen.

Sowohl Data Science als auch Data-Science-Management sind sehr junge Bereiche, daher gibt es zahlreiche Ansätze einer Definition. In der Infobox unten finden Sie eine Definition von Data-Science-Management, die wir in diesem Buch mit Leben füllen werden.

Definition von Data-Science-Management

Data-Science-Management (DSM) umfasst Methoden und Theorien zur Organisation und Steuerung von Prozessen, Projekten und Anwendungen, in denen Wissen aus Daten extrahiert wird, um Entscheidungsprozesse zu unterstützen, Produkte zu entwickeln und Ergebnisse zu kommunizieren, die einen Mehrwert erzeugen.

In einem typischen Fall von Data-Science-Management steht am Anfang in einem Unternehmen eine Geschäftsidee oder eine Herausforderung. Diese soll datenbasiert bearbeitet werden. Data-Science-Management hilft dabei, den Prozess der Wissensgenerierung durch Anwendung von Methoden aus dem Data-Science-Umfeld und dem klassischen sowie dem agilen Management (siehe Teil II, Data-Science-Management) zu strukturieren, zu initiieren, zu steuern und zum Abschluss oder zur Implementierung zu führen. Dabei gibt es einerseits Data-Science-Projekte, die im klassischen Sinne eines Projekts ein definiertes Ziel und Begrenzungen in Bezug auf den zeitlichen Umfang, die finanziellen Ressourcen und die personelle Aufstellung nach DIN 699012 haben. Ergebnisse dieser Projekte können beispielsweise eine Projektpräsentation, ein digitales Produkt, wie eine Software oder App, oder schlicht eine Information oder Wissen sein.

Andererseits betrachten wir in diesem Buch solche Vorhaben, die ein langfristiges Engagement zur Folge haben, wie etwa die Entwicklung und das Betreiben einer Software oder das kontinuierliche Anbieten eines datengetriebenen Service.

Data-Science-Management hat viele Gemeinsamkeiten mit dem Prozessmanagement und umfasst daher auch Aspekte wie das Coachen und Unterstützen von Teams (siehe Abschnitt »Coaching und Mentoring von Data Scientists« auf Seite 171), die strategische Ausrichtung von Produkten, Portfolios oder des gesamten Unternehmens (siehe Abschnitt »Wettbewerbsvorteile durch Data Science« auf Seite 236), die Optimierung von Prozessen, das Schaffen und Einhalten von Standards (siehe Abschnitt »Governance, Compliance und rechtliche Aspekte« auf Seite 261) bis hin zur Entwicklung und Pflege einer Organisationskultur (siehe Kapitel 23, Digitale Kompetenzen und Data-Science-Kultur), die auf datengetriebenen Entscheidungen basiert.

Warum brauchen Unternehmen Data-Science-Management?

»The world’s most valuable resource is no longer oil, but data«3 ist ein oft benutztes Zitat, das seine Bedeutung nicht eingebüßt hat. In den 20er-Jahren des 21. Jahrhunderts befinden wir uns weiterhin in einer Phase des exponentiellen Anstiegs des Datenvolumens. Allein aus diesem Grund setzen viele Firmen auf Spezialisten und Expertinnen im Umgang mit Daten.4 Denn allein die Menge der Daten erfordert ein strukturiertes und organisiertes Vorgehen, damit diese adäquat verarbeitet und ein Mehrwert generiert werden kann.

Gleichzeitig ist die Menge an Daten allein noch kein Erfolgskriterium. Denn genauso wie Öl sind Daten in Rohform erst einmal von geringem Wert. Erst durch eine Veredlung entfalten beide ihr Potenzial. Bei den Daten ist das die Gewinnung von Informationen und Wissen. Denn für Unternehmen und Individuen sind erst diese tatsächlich wertstiftend. Das liegt insbesondere an der wachsenden Bedeutung der Wissens- bzw. Informationsgesellschaft als viertem (quartärem) Wirtschaftssektor neben Rohstoffgewinnung (primär), Rohstoffverarbeitung (sekundär) und Dienstleistung (tertiär), die wir am Ende der Einleitung erläutern. Durch die Auswertung von Daten wollen die Menschen in den Unternehmen Entscheidungen, die bislang häufig durch Intuition getroffen wurden, daten- und evidenzbasiert treffen. Aufgrund des Wissensvorsprungs können sie einen Wettbewerbsvorteil nutzen und sich wirtschaftlich besser für die Zukunft aufstellen. Zugespitzt könnte man sogar sagen, dass viele Unternehmen zukünftig nur bestehen können, wenn sie datengetriebene Entscheidungen treffen.

Wenn Unternehmen und Individuen dieser Entwicklung folgen wollen, müssen sie technologisch und methodisch in der Lage sein, Daten zu verarbeiten, um daraus Informationen und Wissen zu generieren. Ein Wissenschaftsbereich, der sich insbesondere hiermit beschäftigt, ist die Data Science.

Im Jahr 2012 wurde im Harvard Business Review ein Artikel mit dem Titel »Data Scientist: The Sexiest Job of the 21st Century« veröffentlicht.5 Darin wird das Argument von Hal Varian, Chefökonom bei Google, aufgegriffen, das er drei Jahre zuvor äußerte:

»The sexy job in the next 10 years will be statisticians. People think I’m joking, but who would’ve guessed that computer engineers would’ve been the sexy job of the 1990s?«

Sowohl das Zitat als auch der Artikel betiteln Jobs und Berufe, die im jungen 21. Jahrhundert große Aufmerksamkeit erfahren haben. Diese wollen wir unter dem Begriff Data Science subsumieren. Wir werden im Folgenden noch darauf eingehen, welche Rollen und Aufgaben es in diesem Feld gibt. Über allem steht die Erfassung von Komplexität in Daten, die Verdichtung von Information und die wissensinduzierende Kommunikation. Der Artikel und das Zitat von Hal Varian können mindestens als ein Beschleuniger für einen bislang exponentiellen Anstieg an Data Scientists weltweit angesehen werden.6

Bereits vor dem Entstehen des Zitats von Hal Varian und dem Artikel gab es Menschen, die sich Data Science verschrieben haben. Eine spannende Überlegung ist an dieser Stelle, ob die folgende Phase ab etwa 2010 davon geprägt war, dass Unternehmen unter Einfluss des Phänomens der Fear of Missing Out (FOMO) Data Scientists einstellten, oder ob die Unternehmen händeringend nach Data Scientists suchten, die die Use Cases endlich umsetzen würden. Die Frage bleibt also: Was war zuerst da, der Hype um Data Scientists oder die Real World Problems in den Unternehmen?

Wir finden für diese Frage bislang kaum eine evidenzbasierte Antwort. Jedoch können wir festhalten, dass es anekdotische Evidenz gibt, dass Data Scientists in einigen Arbeitsumgebungen noch heute nicht optimal eingesetzt werden. Das liegt daran, dass die Unternehmen teilweise wenig vorbereitet sind, Data Scientists mit dem auszustatten, was sie benötigen, um wirksam zu sein. Zumindest gibt es einen Hinweis darauf, dass Data-Science-Projekte zu einem großen Teil scheitern: Atwal7 berichtet, dass nur 22% der Data-Science-Projekte hohe Einnahmen generieren. Bei Projekten mit Bezug zu Big Data sind es gar 60 bis 85%, die gänzlich scheitern.

In diesem Spannungsfeld betrachten wir Data-Science-Management. Wenn wir auf der einen Seite einen hohen Bedarf an Menschen haben, die aus Daten Informationen und Wissen generieren sollen, und mehr Unternehmen Data Scientists anstellen, wir aber auf der anderen Seite eine Situation haben, in der die meisten Data-Science-Projekte scheitern, benötigen wir einen Rahmen, der die Herausforderungen solcher Projekte aufzeigt und Lösungen entwickelt. Mit Data-Science-Management fassen wir Werkzeuge, Methoden, Prozesse und Denkweisen zusammen, die dabei helfen sollen, Data Science plan-, steuer- und messbar zu machen.

Wie arbeitet man mit diesem Buch?

Dieses Buch ist in vier thematische Schwerpunkte unterteilt: Data-Science-Projekte, Data-Science-Management, Infrastrukturen und Architekturen für Data Science und sowie Data Science Governance. Inhaltlich fokussieren sich die Buchteile entweder auf technologisch-anwendungsbezogene oder management- und organisationsorientierte Ansätze. Abbildung E-2 gibt Ihnen einen Überblick über Ausrichtung und Inhalte der einzelnen Teile.

Die Teile I bis IV bauen aufeinander auf, wobei sich insbesondere die ersten beiden Teile den Grundlagen des Data-Science-Managements von Projekten widmen. Für Menschen, die erste Ideen in Richtung Data Science haben und starten wollen, und für die, die wenig bis keine Vorkenntnisse haben, ist dies der ideale Startpunkt in das Buch und damit in die Thematik. Erfahrene Data Scientists und Menschen aus Unternehmen, die bereits erste Data-Science-Projekte umgesetzt haben und nun einzelne Aspekte vertiefen wollen, können direkt ab Teil III, Infrastruktur und Architektur, einsteigen.

In Teil I, Data-Science-Grundlagen, geht es um die methodischen Voraussetzungen, um relevante, erfolgskritische Aspekte und um die Ressourcen für ein Data-Science-Projekt. Wir schauen uns Prozessmodelle bzw. Data-Science-Lifecycles an und führen damit eine Vorgehensweise zur Umsetzung von Data-Science-Projekten ein. Entlang des Data-Science-Lifecycle vertiefen wir in diesem Teil die Themen Designen von Projekten, Datenerhebung und -verarbeitung, Analyse und Analysemethoden, Möglichkeiten zur Dokumentation und die zielgerichtete inhaltliche Evaluation sowie die Bemessung der Wirkung.

Abbildung E-2: Dieses Buch ist in vier Teile gegliedert. Je weiter man nach rechts geht, umso eher passen die Themen zu einem Unternehmen mit einem hohen Data-Science-Reifegrad.

Am Ende eines Buchteils teilen wir in einem Hands-on-Teil praktische Erfahrungen mit Tools und Methoden, die es ermöglichen sollen, die theoretischen Grundlagen möglichst schnell in die Praxis umsetzen zu können. Im Hands-on-Kapitel von Teil I stellen wir ein Analysebeispiel vor. Wir schauen uns die Entwicklung der Selbstständigen in Deutschland seit 1957 an und werden dabei insbesondere auf Fragen der Datenqualität und der Kommunikation mit Daten noch einmal anhand des Beispiels genauer eingehen.

In Teil II, Data-Science-Management, befassen wir uns mit den Aspekten der Organisation von Data-Science-Projekten und den Teams, die diese durchführen. Wir blicken hier insbesondere auf die Grundlagen und auf Möglichkeiten zum bestmöglichen Management. Einerseits schlagen wir Ansätze vor, die es den Data-Science-Teams ermöglichen, effizient miteinander zu arbeiten und zu kommunizieren. Dies soll eine Arbeitsatmosphäre schaffen, die den Data Scientists umfangreiche Gestaltungsmöglichkeiten bietet und zu einer wertstiftenden Umgebung führt. Andererseits beleuchten wir die Kommunikation mit den Fachbereichen und anderen Stakeholdern in Hinblick auf die Optimierung des Prozesses von einer Geschäftsidee oder einem Businessproblem hin zu einer datengetriebenen Lösung. Zudem befassen wir uns ausführlich mit der Rolle des Data-Science-Managers (Managerin und Manager) und wie diese durch modernes Leadership einen Mehrwert für die Teams und das Unternehmen erbringen können.

Im Hands-on-Kapitel von Teil II stellen wir ein Toolset aus Boards, Canvases, Checklisten und anderem vor, das sich für uns in der Praxis bewährt hat.

In Teil III, Infrastruktur und Architektur, widmen wir uns der Frage, wie eine nachhaltige Umgebung für die Entwicklung und den Betrieb von Data-Science-Anwendungen aussieht. Das heißt, wir verlassen teilweise die Ebene der terminierten Projekte und kommen in den Bereich der produktiven Anwendungen. Hierzu betrachten wir die technologischen Voraussetzungen sowie die agile Softwareentwicklung, um Algorithmen in einen fortlaufenden Betrieb zu bringen. Ein besonderer Fokus liegt auf dem Konzept der Machine Learning Operations (MLOps) für den Betrieb solcher Systeme.

Im Hands-on-Kapitel zu Teil III schauen wir uns visuelle Tools an, die bei der Konzeption und Modellierung von verschiedenen Aspekten einer Dateninfrastruktur helfen. Dies umfasst unter anderem die Modellierung von (sozialen) Prozessen, in die ein Data-Science-Projekt eingebettet ist, die Darstellung der Datenbank oder die Struktur der Software.

Teil IV, Data Science Governance und Data-driven Culture, behandelt – flankierend zu den technischen Aspekten des vorangegangenen Buchteils – die Voraussetzungen, die sich aus den Veränderungen in der Arbeitswelt ergeben, und die Herausforderungen bei der Implementierung von Data Science in Unternehmen. Schließlich gehen wir auf eine gelebte Data-Science-Kultur als aus unserer Sicht den höchsten Reifegrad für Unternehmen ein und betrachten die Erfolgsfaktoren vom Individuum bis zur Implementierung von Data Science im Unternehmen.

Im Hands-on-Kapitel von Teils IV betrachten wir Werkzeuge, um die Steuerung und Governance im Unternehmen methodisch zu begleiten. Hierzu zählen weitere Canvases zur Erarbeitung von digitalen Geschäftsmodellen und ein Datenstrategie-Designkit. Eine wiederverwendbare Tabelle mit einem Überblick über Schlüsselfaktoren für erfolgreiches Data Science in Unternehmen rundet das Buch schließlich ab.

Begleitend zu diesem Buch bieten die Autoren Zusatzmaterial wie Videos, Podcasts und Blogposts an: https://datasciencemanagement.de/

Wie alles begann oder: der Aufstieg der Digital Economy

Die Arbeitswelt und die Arbeitsbedingungen unterliegen einem ständigen Wandel. Im Zuge der industriellen Revolutionen der vergangenen drei Jahrhunderte haben sich Tätigkeiten geändert, und das soziale Umfeld der Arbeitenden wurde teils erheblich schlechter. In anderen Zeiten haben wir durch soziale Gesetzgebung und Streiks eine Verbesserung der Arbeitsverhältnisse gesehen. Vor diesem Hintergrund müssen wir auch die Entwicklungen der letzten etwa drei Jahrzehnte in den Blick nehmen und uns die Fragen stellen:

Was hat sich verändert?

Warum hat es sich verändert?

Welche Auswirkungen hat das auf die Menschen und Unternehmen?

Mit diesen Fragen im Hinterkopf betrachten wir im Folgenden den Aufstieg der New Economy, wie diese das Wirtschaftssystem und die Arbeitsplätze verändert und welche Veränderungen in den nächsten Jahren denkbar sind. Mit diesem Hintergrundwissen sind wir in der Lage, besser zu verstehen, warum Data Science als Teil dieser Entwicklungen gemanagt werden muss und wie wir das umsetzen können.

Die Entwicklung der Wirtschaftssysteme weltweit unterlag bis dato mindestens drei großen industriellen Revolutionen (siehe Abbildung E-3). Häufig wird noch die vierte industrielle Revolution genannt. Allerdings ist diese bereits zuvor ausgerufen worden, man postulierte also, dass dies eine industrielle Revolution darstellen wird. Die anderen wurden erst im Nachhinein historisch betrachtet beschrieben und stellen damit einen mehr oder minder abgrenzbaren Zeitraum dar.

Abbildung E-3: Phasen der industriellen Revolution mit deren evolutionären und revolutionären Eigenschaften

Die erste industrielle Revolution fand ihren Anfang in Großbritannien zur Mitte des 18. Jahrhunderts. Ihr ging eine lange Zeit in Frieden voraus. Immer mehr Menschen wurden geboren, und damit war viel Arbeitskraft vorhanden, die Insellage bot einen geschlossenen Handelsraum, es gab reiche Kohlevorkommen, und die Seenähe erlaubte einen transatlantischen Handel. Ein aufkommender Erfinder- und Gründergeist führte beispielsweise zur Entwicklung der Spinning Jenny (ein Webstuhl), zu Dampfmaschine, Glühbirne, Benzinmotor und Fotografie. Von Großbritannien ausgehend breitete sich die Industrialisierung und Maschinisierung auf ganz Europa aus. Obwohl die Gesamtbevölkerung einen enormen Zuwachs an Wohlstand und eine Verbesserung der Lebensumstände erfuhr, litt die Arbeiterschaft unter 16-Stunden-Tagen8 und widrigen Lebensumständen.

Die zweite industrielle Revolution, die etwa zwischen 1870 und 1880 begann, war geprägt von einer zunehmenden Verzahnung von Forschung und Industrie. Die Unternehmen betrieben selbst Forschung und erzielten dadurch Durchbrüche in chemischen und physikalischen Prozessen. Somit sind die chemische Industrie, die Elektrotechnik und der Maschinenbau prägend für diese Zeit. Telefone, Telegrafen und der Ausbau der Eisenbahn waren außerdem Treiber der Globalisierung. In den USA bildeten sich mit dem Taylorismus und dem Fordismus Produktions- bzw. Managementtechniken heraus, die eine Arbeitsteilung, das Aufteilen in Prozessschritte und eine Effizienzsteigerung mit sich brachten. Sie führten auch dazu, dass die Arbeitsbedingungen verbessert wurden und Industriearbeiterinnen und -arbeiter mehr verdienten. Autos aus der Massenproduktion, die teilweise exportiert wurden, verstärkten den Trend zur Globalisierung. Der internationale Handel ermöglichte eine Diversifizierung des Angebots und neue Absatzmärkte. Die Schattenseiten waren allerdings Imperialismus, Ressourcenausbeutung und Kolonialisierung, beispielsweise in afrikanischen Ländern.

Die in unserer Betrachtung dritte industrielle Revolution wird auch als digitale Revolution oder mikroelektronische Revolution bezeichnet, die ohne die beiden vorherigen nicht möglich gewesen wäre. Wir können ihren Beginn etwa in den 1980er-Jahren des vergangenen Jahrhunderts verorten. Noch viel stärker als die erste und zweite industrielle Revolution hat die digitale Revolution global und zeitgleich stattgefunden. Dies lag unter anderem an der Vernetzung der Akteure und des Handels und damit der schnellen Übermittlung von Informationen, was zu Innovationen und neuen Technologien führte.

Bereits vor den 1980er-Jahren wurden allerdings wichtige Schritte unternommen, die der Digitalisierung zuzuordnen sind. Dokumente und Informationen wurden digitalisiert, indem man die Informationen in Zuständen darstellte. Man hatte die Möglichkeit, eine Zahl in Einsen und Nullen abzubilden: 1 für »Strom an« und 0 für »Strom aus«. Im englischsprachigen Raum bezeichnet man dies als Digitization. Etwas später war es möglich, komplexe Berechnungen und ganze Prozesse als Einsen und Nullen darzustellen. Dies nennt man auch Digitalisation. Hiermit war es möglich, die Automatisierung von Prozessen weiter voranzutreiben.

Ein wichtiger Teil der digitalen Revolution war die Weiterentwicklung des Internets, das bis dato weitestgehend vom Militär und den Universitäten genutzt wurde. Berners-Lee und Cailliau entwickelten am Forschungszentrum CERN in Genf Hypertext-Protokolle (das HTTP), Links und Webbrowser. Auf diese Weise entwickelten sie das World Wide Web, das wir heute kennen. Nur durch diese technische Innovation, die Digitalisierung eines Prozesses, konnte die digitale Transformation stattfinden. Mit dem Web 2.0, das im Jahr 2004 erstmals in Fachartikeln erwähnt wird, also dem interaktiven und kollaborativen Internet, wurden Nutzerinnen und Nutzer weltweit Informationen verfügbar gemacht und Kommunikationswege eröffnet. Dies war der Anfang von Social Media, dem Internet of Things, Cloud-Services und damit auch der digitalen Transformation.

Neuer Wirtschaftssektor: Informationen

In der Volkswirtschaftslehre gliedert man die Wirtschaft üblicherweise in Sektoren.

Der Primärsektor umfasst dabei die sogenannte Urproduktion. Das ist im Wesentlichen die Landwirtschaft.Der Sekundärsektor ist die Industrie und das Gewerbe. Hierzu zählen beispielsweise die Produktion von Automobilen, das Baugewerbe und die Lebensmittelverarbeitung.Im Tertiärsektor werden die Dienstleistungen zusammengefasst, die beispielsweise vom Staat erbracht werden. Aber auch Banken, Versicherungen, Handel und der öffentliche Verkehr gehören dazu.

Bereits 1961 hat Jean Gottmann einen weiteren Wirtschaftssektor definiert, der bis dato nicht existierte. Die Rede ist hier vom Quartärsektor bzw. dem Informationssektor. Dieser Sektor zeichnet sich durch Tätigkeiten aus dem Dienstleistungssektor bzw. dem tertiären Sektor und wohl auch durch Tätigkeiten aus dem industriellen Sektor, dem sekundären Sektor, aus, die besonders hohe intellektuelle Ansprüche und einen hohen Grad an Vorbildung und Ausbildung voraussetzen. Zudem wird hier eine große Bereitschaft vorausgesetzt, Verantwortung zu übernehmen. Der Informationssektor umfasst insbesondere die Bereiche, die mit der Datenerzeugung, Datenverarbeitung und damit auch der Generierung von Wissen beschäftigt sind. Das Geschäftsmodell in diesem Bereich ist also häufig wissens- bzw. datenbasiert. Hierzu zählen

die Beratung, also die großen Kanzleien und Steuerberatungsunternehmen sowie natürlich die Unternehmensberatungen,alle IT-Dienstleister wie etwa AWS oder Microsoft,die Unternehmen aus der Kommunikationstechnik,die Hochtechnologie mit Robotik, maschinellem Lernen, Digitalisierung usw.

Im Jahr 1983 brachte die Zeitschrift Time ein Heft mit dem Titel »The New Economy«9 heraus. Das stellt vermutlich den Startpunkt für die Beschreibung dieser neuen Art des Wirtschaftens mit Informationen dar (siehe Infobox). Die New Economy basiert auf Informationen und Dienstleistungen. Die Dienstleistungen, die dabei im Fokus stehen, bestehen eher aus immateriellen Wirtschaftsgütern, wie zum Beispiel Informationen und Wissen. Der Trend zur Nutzung von Daten, der einen ersten Höhepunkt in den 1990er-Jahren fand, erfasste die gesamte US-Wirtschaft und wurde zu einem globalen Phänomen.

Die wirtschaftliche Bedeutung wurde zum Teil durch die Etablierung und Nutzung der Computer erreicht, um die sich eine ganze Industrie aus Mikrochips- und Halbleiterherstellung aufbaute. Dieser neue Industriezweig umfasste aber auch die Produktion der Endgeräte und die Softwareentwicklung. Durch neue Sensoren und Analysemethoden bot sich die Möglichkeit, Prozesse und Tätigkeiten messbar und dadurch besser steuerbar zu machen, was zu einer Effizienzsteigerung führte. Das Internet bot zudem neuen Raum für Kommunikation, Werbung und Produkte. Die Einführung der Technologiebörse NASDAQ als Alternative zum NYSE10 war ein weiteres Puzzleteil für massive Investitionen in die Tech-Branche. Dies ging so weit, dass diese stark überbewertet wurde, in der sogenannten Dotcom-Blase Anfang der Nullerjahren einen herben Rückschlag erlitt und riesige Vermögenswerte und damit auch Vertrauen in den Markt vernichtete.

Der Aufstieg der digitalen Ökonomie war dadurch jedoch nicht gestoppt. Bis heute sehen wir, dass Tech-Giganten, insbesondere aus den USA11, unseren Alltag prägen. Die wertvollsten Unternehmen stammen heutzutage nicht mehr nur aus der Automobilindustrie, der Rohstofferzeugung oder der Energieträgergewinnung, sondern auch aus der digitalen Ökonomie. Einige sind der Meinung, dass die digitale Ökonomie (New Economy) die Grundregeln der klassischen Volkswirtschaftslehre aus den Angeln hebt. Diese vermögensbasierte Ökonomie setzt darauf, dass man allem einen Wert beimessen kann, beispielsweise durch Geld oder Aktien. In der »Old Economy« mussten hingegen Waren und Dienstleistungen einen tatsächlichen (materiellen) Wert haben. Die Unternehmen, die der digitalen Ökonomie zugeordnet werden, haben teilweise über Jahre hinweg rote Zahlen geschrieben, wurden nur durch Investorengeld gehalten und trotzdem im Milliardenbereich bewertet, obwohl sie zum Großteil aus immateriellen Werten bestanden. Viele dieser Unternehmen revolutionierten jedoch unser Leben und veränderten die Art, wie wir konsumieren und kommunizieren. Herausragende Beispiele hierfür sind:

Social Media, z.B. Facebook, WeChat oder Twitter (X)

Onlinehandel, z.B. Amazon oder Alibaba

Onlinebezahldienste, z.B. PayPal

Onlinemedien, z.B. YouTube oder Netflix

Onlinewerbung, z.B. Google

Sharing Economy, z.B. Uber oder Airbnb

Onlinedating, z.B. Tinder

An dem Erfolg dieser Dienste (Software) ist die Zugänglichkeit über Endgeräte (Hardware) maßgeblich beteiligt. Unternehmen wie Microsoft oder Apple gehören auch deshalb zu den wertvollsten Unternehmen der Welt, weil sie Personal Computer und Smartphones herstellen. Insbesondere bei Smartphones gibt es noch weitere global agierende Unternehmen wie Samsung oder Huawei, die den Markt prägen. Die Software dieser Geräte basiert wiederum auf den Betriebssystemen von Apple und Google.

Wie schon bei den industriellen Revolutionen zuvor hat der Aufstieg der digitalen Ökonomie in der digitalen Revolution zu vielen Veränderungen für Menschen und Unternehmen geführt. Es besteht, auch durch die voranschreitende Globalisierung, der Druck, sich zu verändern und digitaler zu werden. Das gilt sowohl für Menschen als auch für Unternehmen. Mittelständische Unternehmen handeln häufig über die deutschen Grenzen hinweg und stehen somit in globaler Konkurrenz. Deshalb ist es eine große Aufgabe, die Unternehmen in und durch die digitale Transformation zu führen und den Menschen entsprechende Fähigkeiten zu vermitteln. Dieses Buch handelt davon, wie dies in Bezug auf Data Science gelingen kann.

Danksagung

Data Science ist ein Teamsport. Jede Entdeckung, jede Innovation in diesem dynamischen Feld ist das Ergebnis von Zusammenarbeit, gegenseitiger Inspiration und dem gemeinsamen Bestreben, das Unbekannte zu erforschen und zu verstehen. Ähnlich wie im Sport, wo das Zusammenspiel verschiedener Talente und Fähigkeiten zum Erfolg führt, baut auch Data Science auf der Synergie von Fachwissen, Kreativität und technischem Know-how auf.

Als Autorenduo dieses Werks möchten wir uns deshalb ganz herzlich bei allen bedanken, die zum Gelingen dieses Buches beigetragen haben. Besonderer Dank gilt den vielen fleißigen und fachkundigen Korrekturleserinnen und -lesern und Fachgutachterinnen und Fachgutachtern, die ihre Zeit und Expertise großzügig zur Verfügung gestellt haben, um sowohl Teile als auch das gesamte Manuskript kritisch zu prüfen und zu verfeinern: Robert Bölke, Marcus Fraaß, Martin Habedank, Kevin Loncsarszky, Fabian Payer, Anne-Kristin Polster, Svenja Rohr, Sarah Stemmler, Martin Szugat, Ramon Wartala und Arif Weider.

Ein besonderer Dank gebührt unserer Lektorin Alexandra Follenius, deren tiefgreifendes Verständnis und unermüdliche Geduld das Rückgrat dieses Projekts bildeten. Ihre Fähigkeit, sowohl die großen Linien als auch die feinsten Details im Blick zu behalten, hat maßgeblich dazu beigetragen, die Qualität und Klarheit unseres Werks zu steigern.

Nicht zuletzt möchten wir unseren Familien und Freunden unseren tiefsten Dank aussprechen. Ihr habt uns durch eure Unterstützung, euer Verständnis und eure Geduld während der vielen Stunden, die wir in dieses Projekt investiert haben, beigestanden. All das ist nur durch euch möglich.

TEIL I

Data-Science-Grundlagen

Um ein Data-Science-Team effizient und effektiv leiten zu können, braucht es ein grundlegendes Verständnis davon, mit welchen Tätigkeiten und Herausforderungen ein solches Team in der täglichen Arbeit konfrontiert ist und wie es diese üblicherweise lösen wird. Und auch wenn Sie keine Teamleitung abstreben, sondern beispielsweise als Auftraggeber mit einem externen Partner zusammenarbeiten, wird Ihnen dieses Verständnis dabei helfen, das Projekt zu planen, Herausforderungen und Lösungsansätze zu bewerten, ein gemeinsames Verständnis im Team zu schaffen und, alles in allem, das Projekt zu einem erfolgreichen Abschluss zu führen.

KAPITEL 1

Eine Einführung in Data Science aus Projektsicht

In einem Data-Science-Projekt wollen wir Daten und Analysen nutzen, um einen Mehrwert für uns, unser Unternehmen oder unsere Kunden zu schaffen. Wichtig ist dabei, dass nicht alles, was mit Daten zu tun hat, automatisch Data Science ist. Die operative Nutzung von Daten, beispielsweise in der Buchhaltung, der Inventarliste oder im CRM-System, muss zunächst einmal nichts mit Data Science zu tun haben, sondern kann einfach nur der Abwicklung operativer Prozesse dienen. Data Science kommt ins Spiel, sobald wir einen zusätzlichen Mehrwert durch die Analyse dieser Daten schaffen wollen. Bei Bedarf können wir darüber hinaus zusätzliche Daten erheben, um komplexere Fragestellungen zu beantworten. Dabei stellt sich die Frage, welche Arten von Mehrwert wir mit Daten und Analysen erzeugen können. Wir gehen davon aus, dass wir Data Science in einem Unternehmen einsetzen möchten. Dann können wir grundsätzlich drei Einsatzarten unterscheiden:

Prozessoptimierung: Wir nutzen Data Science, um die Prozesse und Abläufe in unserem Unternehmen zu verbessern. Dabei kann jeder Funktionsbereich (Buchhaltung, Personalwesen, Marketing usw.) davon profitieren, wenn bessere Informationen zur Verfügung stehen. Dies kann je nach Anwendungsfall zu Kosteneinsparungen, besseren Entscheidungen oder schnelleren Prozessabläufen führen.

Datenbasierte Produkte und Geschäftsmodelle: Daneben können wir Data Science einsetzen, um unsere Produkte zu verbessern oder neue Produkte zu entwickeln. Entscheidend ist hierbei, dass die Verwendung von Data Science ein Teil des Mehrwerts wird, den wir unserer Kundschaft bieten. Manche Unternehmen entwickeln Daten und Analyseergebnisse selbst zu Produkten, andere ergänzen bestehende Produkte und machen beispielsweise eine Glühbirne »smart«.

Letztlich können auch Daten selbst ein Produkt sein, wenn die Daten einen Mehrwert für andere haben, beispielsweise die Immobilienpreise einer Region. Dies funktioniert allerdings in der Praxis nur für relativ wenige Anbieter. Die meisten setzen auf datenbasierte Produkte und Geschäftsmodelle.

Strategische Entscheidungen: Bei strategischen Entscheidungen geht es um einmalige Entscheidungen mit wichtigen Konsequenzen. Die Entscheidungen sind so schwerwiegend, dass es sich lohnt, ein Datenanalyseprojekt hierfür aufzusetzen.

Folglich ergibt sich der Mehrwert von Data Science bei der Prozessoptimierung eher durch eine Vielzahl vergleichbarer Entscheidungsprobleme, auf die entsprechend optimiert werden kann. In der Strategie hingegen geht es mehr um Einzelfallentscheidungen, bei denen die Analysen stärker in die Tiefe gehen. In der Praxis kann es dabei aber auch zu einem fließenden Übergang kommen, wie wir weiter unten im Zusammenhang mit dem Analytics Continuum sehen werden.

In der Literatur (Beispiel: Valliappa Lakshmanan. Data Science on the Google Cloud Plattform, O’Reilly 2022) sehen wir manchmal die Unterscheidung, dass einmalige strategische Entscheidungen als »Datenanalysen« bezeichnet werden und die Optimierung von Prozessen (mit potenziell automatisierten Analysen und Entscheidungen) als »Data Science«. Für unsere Einführung zu Data Science wollen wir den Begriff »Data Science« jedoch bewusst weiter fassen und auch einmalige Analyseprojekte einbeziehen, vor allem weil es sich hierbei eher um eine theoretische Abgrenzung handelt, die unserer Erfahrung nach nicht zur Praxis von Data-Science-Projekten und deren Management passt.

Verlauf eines Data-Science-Projekts (Prozessmodell)

In Data-Science-Projekten lassen sich gewisse wiederkehrende Abläufe identifizieren, die eigentlich immer vorkommen, sinnvollerweise in einer gewissen Reihenfolge ablaufen sollten und entsprechend als Prozessmodell dargestellt werden können. Das Prozessmodell, das den folgenden Darstellungen zugrunde liegt, besteht aus fünf Prozessschritten, die einerseits ein existenzieller Teil jedes Data-Science-Projekts sind, andererseits aber auch spezifische Anforderungen an das Team und dessen Kompetenzen stellen (siehe Abbildung 1-1). Das Modul wurde als Teil von Beratungsprojekten der Impact Distillery1 entwickelt und basiert insbesondere auf dem Generic Longitudinal Business Process Model2 (GLBPM) sowie dem Prozessmodell von Mischa Seiter3.

Abbildung 1-1: Prozessmodell der Impact Distillery (https://www.impactdistillery.com/de/digitale-transformation/datengetriebene-organisationskultur/)

Die fünf Schritte unseres Modells umfassen die konzeptionelle Planung (Design) des Projekts, die Arbeitsschritte, um eine belastbare Datengrundlage zu schaffen, die eigentliche Analyse der Daten, die Dokumentation der Ergebnisse und deren Umsetzung in praktische Maßnahmen (Impact). Außerdem setzt das Modell ein iteratives Vorgehen voraus – sobald ein solches Projekt abgeschlossen ist, stehen für gewöhnlich neue Fragestellungen im Raum, die den Ausgangspunkt für ein neues Data-Science-Projekt bilden. Die fünf Schritte wollen wir uns im Folgenden einzeln anschauen:

Design:

Die Designphase legt den Grundstein für das Projekt. Idealerweise starten Projekte, weil es einen praktischen Bedarf (ein Businessproblem) gibt, der aber noch zu unspezifisch ist. Ein erster Arbeitsschritt ist nun, diesen Bedarf bzw. diese Problemstellung in eine Forschungsfrage zu übersetzen, die dann im Fokus aller folgenden Arbeitsschritte stehen wird. Basierend auf der Forschungsfrage kann jetzt auch ein Zeitplan für das Projekt entwickelt und können die notwendigen Ressourcen kalkuliert werden, die insbesondere die Beschaffung von Daten, eine technische Infrastruktur und personelle Ressourcen umfasst.

Daten:

In der zweiten Phase (siehe

Kapitel 3

,

Datenbeschaffung und -aufbereitung

) geht es um den Aufbau einer entsprechenden Datenbasis für die Bearbeitung der Forschungsfrage. Wenn nicht schon entsprechende Daten verfügbar sind, müssen gegebenenfalls neue Daten erhoben werden. In jedem Fall müssen diese Daten aufbereitet, qualitätsgesichert und für die weitere Nutzung bereitgestellt werden.

Analyse:

Die Auswahl der entsprechenden Analysemethoden orientiert sich dann sowohl an der Forschungsfrage als auch an der Struktur der Daten und gegebenenfalls auch an bereits durchgeführten Vorstudien. Im Abschnitt »

Von einfachen Analysen zur Automatisierung (Analytics Continuum)

« auf

Seite 32

werden Sie das Analytics Continuum kennenlernen, das uns eine Entscheidungshilfe für die Auswahl von Analysemethoden in den aufeinander aufbauenden Phasen eines Data-Science-Projekts bietet. Dabei werden wir uns sowohl Methoden der klassischen Statistik als auch neuerer Machine-Learning-Algorithmen bis hin zu neuronalen Netzen ansehen.

Dokumentation:

Damit die Ergebnisse der Analysen dann praktisch genutzt werden können, müssen sie dokumentiert und kommuniziert werden. Dabei geht es zum einen um eine technische Dokumentation, um Daten und Methoden später nachnutzen zu können. Und zum anderen sollen die Ergebnisse ansprechend und leicht nachvollziehbar für ein nicht technisches Publikum aufbereitet werden, beispielsweise als Report oder interaktives Dashboard (siehe den Abschnitt »

Reporting

« auf

Seite 83

). Inhaltlich sind dabei nicht nur die vorteilhaften Ergebnisse zu berichten, sondern es sollte auch explizit auf mögliche Limitationen der jeweiligen Arbeit eingegangen werden. Gleichzeitig sollten die Inhalte aber für die jeweiligen Leserinnen und Leser verständlich präsentiert und erzählt werden (siehe dazu auch den Abschnitt »

Storytelling und visuelle Kommunikation mit Daten

« auf

Seite 85

).

Impact:

Mit Impact meinen wir alle praktischen Maßnahmen, die einen Mehrwert für den jeweiligen Auftraggeber bringen und damit die Kosten für ein Data-Science-Projekt rechtfertigen. Dieser Mehrwert kann monetär leicht messbar (z.B. wenn eine Steigerung der Verkaufszahlen gelingt) oder auch schwerer zu greifen sein (z.B. wenn es um eine Steigerung der Kundenzufriedenheit geht). In jedem Fall ist es sinnvoll, die entsprechenden Maßnahmen zu evaluieren, um zu überprüfen, ob sie auch die gewünschte Wirkung haben, oder um gegebenenfalls nachzusteuern.

Literaturempfehlung

M. Seiter (2019). Business Analytics: Wie Sie Daten für die Steuerung von Unternehmen nutzen. Vahlen.

Von einfachen Analysen zur Automatisierung (Analytics Continuum)

Während die vorgestellten fünf Phasen unseres Prozessmodells gut geeignet sind, um einzelne Projekte zu strukturieren, werden wir in der Praxis selten nach einem einzelnen Projekt wieder aufhören, mit Daten zu arbeiten. Vielmehr werden die fünf Phasen in aufeinander aufbauenden Iterationen immer wieder neu durchlaufen, weswegen man auch von einem Data-Science-Lifecycle spricht. Aus fast jedem Data-Science-Projekt wird sich eine neue Fragestellung ergeben, die wir in einer neuen Iteration bearbeiten können. Dies können sowohl die Evaluation der Maßnahmen sein als auch eine weiterführende Analyse, beispielsweise wenn wir einen spannenden Zusammenhang in unseren Daten gefunden haben und uns nun fragen, ob wir diesen vielleicht auch für Vorhersagen nutzen können. Schließlich ist es möglich, sich in späteren Iterationen bis zu einer Automatisierung der Maßnahmen vorzuarbeiten (siehe Kapitel 15, Automatisierung und Operationalisierung im kybernetischen Regelkreis).

Auf dieser Ebene bietet uns das Analytics Continuum4 von Gartner eine Struktur, anhand der wir uns im Laufe der Zeit und über verschiedene Iterationen hinweg von einfachen beschreibenden Analysen bis hin zu komplexen Automatisierungsprojekten bewegen können (siehe Abbildung 1-2).

Abbildung 1-2: Analytics Continuum nach Gartner (eigene Darstellung)

Schauen wir uns die fünf Ebenen des Analytics Continuum im Detail an:

Beschreibende Analysen (Descriptive)

Am Anfang eines Projekts brauchen wir einen guten Überblick über den Status quo, also das, was gerade passiert. Dabei reichen meist einfache deskriptive Analysen und Visualisierungen aus, um schnell die aktuelle Lage einschätzen zu können, gegebenenfalls auch im Vergleich mit historischen Daten. Ein einfaches Beispiel ist das Inventarverzeichnis in einem Lager. Basierend darauf können wir uns einen Überblick darüber verschaffen, welche Produkte, Produktkategorien, Marken oder Ähnliches wir aktuell vorrätig haben.

Diagnostische Analysen (Diagnostic)

Als Nächstes werden wir uns fragen, wie es zum aktuellen Zustand gekommen ist. Wenn beispielsweise ein Produkt im Lager nicht mehr vorhanden ist, liegt das daran, dass dieses Produkt nicht mehr verfügbar ist? Oder daran, dass die Nachfrage so groß ist, dass wir in der Lieferung kaum hinterherkommen? Im Bereich der diagnostischen Analysen interessieren wir uns besonders für kausale Beziehungen. Was ist die Ursache für bestimmte Phänomene?

Vorhersagende Analysen (Predictive)

Wenn wir die Ursachen verstanden haben, können wir versuchen, darauf aufbauend Vorhersagen zu treffen. Wenn wir merken, dass die Nachfrage nach einem bestimmten Produkt gerade sehr hoch ist, wollen wir beispielsweise wissen, wie groß die Nachfrage voraussichtlich im nächsten Monat sein wird, um entsprechende Vorkehrungen treffen zu können.

Vorschreibende Analysen (Prescriptive)

Nachdem wir nun eine Vorstellung davon haben, wie viele Produkte im kommenden Monat nachgefragt werden könnten, stellt sich als Nächstes die Frage, wie viele wir davon nachbestellen sollten. Dies ist etwas anderes als die reine Menge der Nachfrage, denn nun müssen wir zusätzliche Faktoren miteinbeziehen: Wie lange ist die zu erwartende Lieferdauer? Wie viel Platz haben wir im Lager zur Verfügung? Wie haltbar ist das Produkt? Wir wollen nun eine Handlungsempfehlung formulieren, haben es dabei aber schnell mit einem Optimierungsproblem zu tun, wenn wir die angedeuteten Fragen miteinbeziehen. Ist beispielsweise nur begrenzt Platz im Lager, müssen wir vielleicht zwischen mehreren Produkten abwägen, die aktuell stark nachgefragt sind.

Automatisierung (Automation)

Wenn sich unsere Vorhersagen und Handlungsempfehlungen über längere Zeit bewährt haben, werden wir in Erwägung ziehen, diese zu automatisieren. Wir können also beispielsweise in der Software der Lagerhaltung ein Programm einbauen, das automatisch nachbestellt, sobald ein Produkt knapp wird, und dabei die Ergebnisse der vorherigen Phase nutzen, um die richtigen Mengen zu kalkulieren.

Ein häufig anzutreffender konzeptioneller Fehler, den wir immer wieder in Diskussionen um den Einsatz von Data Science sehen, ist ein vorschneller Fokus auf die letzten Phasen, insbesondere auf die Automatisierung von Prozessen. Eine wesentliche Erkenntnis aus der langjährigen Arbeit mit dem Analytics Continuum ist, dass wir die ersten Phasen nie überspringen können. Wir werden uns immer erst mal einen Überblick über den Status quo verschaffen müssen, verstehen, wie dieser zustande gekommen ist, und erste Vorhersagen testen. Erst dann können wir uns an die Entwicklung von Empfehlungssystemen oder die Automatisierung von Prozessen machen.

Im dritten Teil des Buchs werden wir dann sehen, dass insbesondere mit zunehmender Automatisierung der Prozessabläufe (egal ob bei der Auswertung der Daten oder auch bei der Umsetzung in Maßnahmen) eine Anpassung des Prozessmodells Sinn ergeben wird. Sie werden dazu in Kapitel 15, Automatisierung und Operationalisierung im kybernetischen Regelkreis, den kybernetischen Regelkreis als Modell und Werkzeug zur Strukturierung von automatisierten Prozessen kennenlernen.

Welche Kompetenzen brauchen wir in einem Data-Science-Projekt?

Data Science wird gern als inter- oder transdisziplinäre Wissenschaft bezeichnet. Das bedeutet, dass Data Science ganz wesentlich auf einer Reihe anderer Disziplinen aufbaut. Conway (20105) nennt dabei Programmierkenntnisse (Softwareentwicklung), Mathematik und Statistik sowie fundiertes Wissen um das jeweilige Anwendungsfeld (im Folgenden als Domain Knowledge bezeichnet) als die drei wesentlichen Fundamente für den Bereich Data Science. Wir möchten diese drei Bereiche noch um einen vierten Bereich ergänzen, der sich auf soziale Normen und Kommunikationsfähigkeit bezieht (die soziale Dimension).

Statistik und Mathematik

Aus der Statistik übernimmt Data Science sowohl Methoden, um ein initiales Verständnis für die jeweiligen Daten zu gewinnen (deskriptive Statistik), als auch vielfältige Methoden zur Berechnung von abstrakten Modellen. Während bei der klassischen Statistik der Fokus der Modellbildung mehr auf dem Erklären von Zusammenhängen liegt, konzentriert sich die Modellbildung bei Data Science vorrangig auf die Vorhersage von Ereignissen. Beispiele für Vorhersagen können von der Wettervorhersage über die Erzeugung von Kaufempfehlungen in Onlineshops bis zur Automatisierung des Nachkaufs in einem Warenlager reichen. Ein fundiertes statistisches Grundwissen bleibt auch in Zeiten zunehmend automatisierter Analysetools unerlässlich, denn wir müssen weiterhin hinterfragen, ob die Ergebnisse verlässlich und anwendbar für unsere jeweiligen Fragestellungen sind.

Softwareentwicklung

Neben dem Fokus auf Vorhersagen ist die Bereitstellung und Analyse der Daten im Bereich Data Science deutlich rechenintensiver als in der klassischen Statistik, was die Softwareentwicklung ins Spiel bringt. Der Begriff Big Data bezieht sich nicht nur auf das reine Speichervolumen der Daten, sondern schließt insbesondere auch Vielfältigkeit, teilweise Korrektheit und letztlich die Geschwindigkeit der Entstehung neuer Daten mit ein – alles Faktoren, die neben der eigentlichen Analyse der Daten wachsende Anforderungen an die (automatisierte) Aufbereitung der Daten stellen. Gleichzeitig müssen viele der Methoden aus der Statistik an die neuen Gegebenheiten angepasst werden, beispielsweise weil deren Berechnung über verschiedene Teilsysteme verteilt werden muss.

Fachexpertise

Es wird gern als Faustregel genommen, dass in einem Data-Science-Projekt nur ca. 20% der Arbeitszeit auf die eigentliche Arbeit an den Modellen entfällt und ca. 80% auf die Aufbereitung der Daten. Diese 80% erfordern neben dem bereits dargestellten technischen Wissen auch ein gutes Verständnis des jeweiligen Anwendungsfalls. Von Data Scientists wird daher erwartet, dass sie entsprechendes Vorwissen im jeweiligen Fachgebiet bzw. der jeweiligen Domäne mitbringen.

Soziale Dimension

Die Zusammenarbeit und Kommunikation mit Stakeholdern ist ein wesentlicher Teil der Arbeit in Data-Science-Teams. Es geht nicht nur darum, ein möglichst gutes Modell zu entwickeln, die Ergebnisse müssen auch angemessen präsentiert und kommuniziert werden. Darüber hinaus sehen wir in den letzten Jahren, dass sich Data Scientists zunehmend mit sozialen Aspekten der Verwendung ihrer Arbeit auseinandersetzen müssen. Insbesondere wenn es sich um personenbezogene Daten handelt, hat die Einführung der Datenschutzgrundverordnung (DSGVO) neue Maßstäbe gesetzt. Aber auch bei anderen Datenquellen sind rechtliche Aspekte nicht zu vernachlässigen, beispielsweise das Urheberrecht oder Firmengeheimnisse (siehe Kapitel 22, Sicherheit und Datenschutz).

Abbildung 1-3 gibt einen Überblick über die vier Bereiche und zeigt auch noch einmal zusätzliche Schnittstellen zwischen diesen auf. So können wir beispielsweise die klassische (empirische) Forschung an der Schnittstelle von Statistik und Fachwissen verorten. Klassische Unternehmensberatung findet häufig an der Schnittstelle von sozialer Dimension und fachlicher Expertise statt, insbesondere in Hinblick auf betriebliche Abläufe. Fragen der Nutzerfreundlichkeit (Usability), aber auch des Datenschutzes lassen sich insbesondere zwischen Programmierung und sozialer Dimension verorten. Und die Entwicklung von Machine-Learning-Algorithmen erfordert sowohl fundiertes mathematisches Wissen als auch Programmiererfahrung. Entsprechend werden wir bei einer genaueren Betrachtung dessen, was Data Science eigentlich ist, auch immer wieder Aspekte dieser verschiedenen Schnittstellen finden. Wie schon gesagt, Data Science ist eine interdisziplinäre Wissenschaft, und entsprechend gibt es viele angrenzende Bereiche, von denen wir gute Theorien und bewährte Tools übernehmen können.

Abbildung 1-3: Data Science als interdisziplinäre Wissenschaft

KAPITEL 2

Wie wir über Daten sprechen

Für die meisten Analysemethoden müssen Daten in einer Struktur vorliegen, die der jeweilige Algorithmus weiterverarbeiten kann. Wir dürfen allerdings nicht erwarten, dass die Ursprungsdaten bereits diese Vorgaben erfüllen, daher müssen wir mehr oder weniger umfangreiche Transformationen durchführen, bevor die Daten für die eigentliche Analyse genutzt werden können.

Das angestrebte Format wird in den meisten Fällen einer Tabelle bzw. einem Datensatz entsprechen, in der oder dem die Zeilen die jeweiligen Entitäten (z.B. Kunden eines Unternehmens oder Produkte im Lager) repräsentieren und die Spalten Attribute (im Machine Learning auch Features genannt) abbilden. Die Attribute innerhalb einer Spalte müssen immer einen konstanten Datentyp haben. In einer Kundendatenbank können dies beispielsweise eine Kundennummer (numerisch), der Name (als Text), das Geschlecht (mit vordefinierten Codes) und das Geburtsdatum in einem standardisierten Datumsformat sein (siehe Tabelle 2-1).

Tabelle 2-1: Ausschnitt aus der Kundendatenbank unseres Webshops

Strukturierte Daten

Strukturierte Daten sind hochgradig organisiert und folgen dabei klar definierten Strukturen. So können sich beispielsweise Programme beim Zugriff auf solche Daten darauf verlassen, dass die maßgeblichen Strukturvorgaben eingehalten wurden. Folglich wird der Aufwand reduziert, solche Datenquellen anzubinden, und gleichzeitig werden die Verlässlichkeit und damit auch die Qualität erhöht.

Was es heißt, mit strukturierten Daten zu arbeiten, können wir uns am Beispiel einer relationalen Datenbank anschauen. Relationale Datenbanken bestehen letztlich aus Tabellen, die über Schlüsselbeziehungen miteinander verknüpft werden können.

Warum »relational«?

In einer relationalen Datenbank werden die Tabellen als Relationen bezeichnet. Das Wort »relational« bezieht sich also nicht darauf, dass es in einer solchen Datenbank eine Vielzahl von Tabellen geben kann, die »in Relation« zueinander stehen, sondern bezeichnet eben die einzelnen Tabellen selbst. Dies kommt daher, dass sich relationale Datenbanken auf die relationale Algebra als den Teil der Mathematik beziehen, der sich wiederum mit Operationen auf Tabellen beschäftigt.

In einer relationalen Datenbank sind zunächst einmal die Tabellen selbst hochgradig strukturiert. Eine Tabelle steht immer für eine bestimmte Entität (z.B. eine Tabelle für Kundinnen und Kunden, eine Tabelle für Aufträge und eine Tabelle für Rechnungen). Eine Zeile repräsentiert stets genau einen Fall (eine Kundin bzw. einen Kunden). Und jede Spalte bekommt bereits vorab einen Datentyp zugewiesen, der dann konsequent eingehalten werden muss (in einer numerischen Spalte können dann beispielsweise keine Textangaben gespeichert werden).

Des Weiteren sollte jede Entität eindeutig identifizierbar sein. Kundinnen und Kunden bekommen beispielsweise eine Kundennummer zur Identifikation zugewiesen, die in der Datenbank als Primärschlüssel (Primary Key) bezeichnet wird. Dieser Schlüssel kann auch von anderen Tabellen verwendet werden, um einzelne Kundinnen und Kunden zu identifizieren. Dazu trägt man beispielsweise die Kundennummer als Fremdschlüssel (Foreign Key) in der Rechnungstabelle ein.

Semistrukturierte Daten

Im Gegensatz zu strukturierten Daten wird bei semistrukturierten Daten weniger oder gar nicht geprüft, ob eine vorgegebene Struktur eingehalten wird. Während in einer relationalen Datenbank beispielsweise technisch verhindert wird, dass wir in einer numerischen Spalte den Wert »zwölf« statt 12 als Zahl eintragen, würden Datenbanken oder Tabellen, die semistrukturierte Daten zulassen, hiermit zunächst einmal kein Problem haben. Es dürfte allerdings schnell klar sein, dass wir uns damit potenziell viele Baustellen für die Prüfung und Aufbereitung der Daten einhandeln.

Ihre teilweise Strukturiertheit erlangen semistrukturierte Daten meist durch eine Kombination von hierarchischen Datenstrukturen und Key-Value-Beziehungen. Wie diese dann abgebildet werden, hängt von der jeweiligen technischen Implementierung ab, beispielsweise als XML- (Extensible Markup Language) oder JSON-Datei (JavaScript Object Notation), dargestellt in Abbildung 2-1. Als Ergänzung zu den relationalen Datenbanken aus dem vorherigen Abschnitt kommen dabei häufig NoSQL-Datenbanken zum Einsatz, die meist auf weniger strukturierten Datenstrukturen aufbauen. Auf diese Unterscheidung werden wir in Kapitel 8, Aspekte einer Basisinfrastruktur, weiter eingehen.

Eine große Stärke von Formaten wie JSON und XML liegt darin, dass sie hierarchische Strukturen sehr gut abbilden können. Wenn es beispielsweise um den Austausch von Daten geht, können so komplexe Strukturen in einer Datei bzw. in einem Objekt übergeben werden, die eine relationale Datenbank dagegen über viele Tabellen verteilen müsste. Daher haben sich insbesondere JSON und XML als Austauschformate für technische Schnittstellen (sogenannte APIs, mehr dazu im Abschnitt »Microservices und Application Programming Interfaces (APIs)« auf Seite 215) bewährt.

Abbildung 2-1: Ausschnitt aus dem Produktangebot unseres Webshops im JSON-Format. JSON ist insbesondere für hierarchische Daten geeignet, wie hier die verschachtelten Produktkategorien.

Das Internet als Datenquelle

Das Internet gewinnt seit Jahren als Datenquelle an Bedeutung. Dabei beziehen wir uns hier sowohl auf Daten, die durch das Internet erzeugt werden (beispielsweise wenn soziale Netzwerke als Datenquelle herangezogen werden), als auch auf Daten, die gegebenenfalls in einem anderen Kontext erhoben wurden, aber über das Internet bereitgestellt werden – entweder als direkter Download des gesamten Datensatzes oder über eine sogenannte API (Application Programming Interface), also eine Schnittstelle. Gerade bei APIs finden wir jedoch selten Angebote, die die oben beschriebenen strukturierten Datensätze in tabellarischer Form bereitstellen. Vielmehr bieten diese meist hierarchische Datenformate wie XML (eXtensible Markup Language) oder JSON (JavaScript Object Notation).

Auch HTML (HyperText Markup Language), in der Webseiten für die Darstellung im Browser bereitgestellt werden, ist eine Sonderform von XML, also ein hierarchisches Datenformat, das wir entsprechend auslesen können. Um die Inhalte von Webseiten für Analysen zugänglich zu machen, werden diese beispielsweise über einen Web Scraper automatisch abgerufen und gespeichert und anschließend von einem Computerprogramm (Parser) ausgelesen.

Unstrukturierte Daten

Was dann, nach strukturierten und semistrukturierten Daten, noch übrig bleibt, bezeichnen wir als unstrukturierte Daten. Im Bereich Data Science sind für uns zwei Kategorien von besonderer Bedeutung: unstrukturierte Textdaten (beispielsweise E-Mails1 oder Bücher) und Multimedia (beispielsweise Fotos oder Videos).

Ganz ohne KI können wir reguläre Ausdrücke nutzen, um Strukturen in einem Text zu beschreiben, beispielsweise um unterschiedliche Schreibweisen eines Namens, Adressen oder Telefonnummern zu finden. So können wir beispielsweise E-Mail-Adressen aus einem Text extrahieren, indem wir das Muster einer E-Mail-Adresse definieren. Vereinfacht gesagt, könnte dieses Muster wie folgt lauten: Beginnt mit fast beliebigen Zeichen, dann ein @-Zeichen, dann wieder fast beliebige Zeichen, dann ein Punkt, dann noch einmal ein paar Buchstaben. Dieses Muster können wir dann als regulären Ausdruck darstellen.