Big Data? Frag doch einfach! - Detlev Frick - E-Book

Big Data? Frag doch einfach! E-Book

Detlev Frick

0,0

Beschreibung

Alle sammeln Daten. Doch warum eigentlich? Die Autoren gehen dieser Frage auf den Grund. Sie verraten, was genau hinter dem Schlagwort „Big Data“ steckt und welche Chancen und Risiken sich aus der Kombination von großen Datenvolumina und künstlicher Intelligenz ergeben. Auch auf das Management, die Verarbeitung und die Haltung von Daten gehen sie ein und lassen darüber hinaus den rechtlichen Rahmen nicht außer Acht. Im Frage-Antwort-Stil leicht verständlich! Die utb-Reihe „Frag doch einfach!“ beantwortet Fragen, die sich nicht nur Studierende stellen. Im Frage-Antwort-Stil geben Expert*innen kundig Auskunft und verraten alles Wissenswerte rund um ein Thema. Die wichtigsten Fachbegriffe werden zudem prägnant vorgestellt und es wird verraten, welche Websites, YouTube-Videos und Bücher das Wissen aus diesem Band vertiefen können.

Sie lesen das E-Book in den Legimi-Apps auf:

Android
iOS
von Legimi
zertifizierten E-Readern
Kindle™-E-Readern
(für ausgewählte Pakete)

Seitenzahl: 118

Veröffentlichungsjahr: 2023

Das E-Book (TTS) können Sie hören im Abo „Legimi Premium” in Legimi-Apps auf:

Android
iOS
Bewertungen
0,0
0
0
0
0
0
Mehr Informationen
Mehr Informationen
Legimi prüft nicht, ob Rezensionen von Nutzern stammen, die den betreffenden Titel tatsächlich gekauft oder gelesen/gehört haben. Wir entfernen aber gefälschte Rezensionen.



Detlev Frick / Jens Kaufmann / Birgit Lankes

Big Data? Frag doch einfach!

Klare Antworten aus erster Hand

UVK Verlag · München

#fragdocheinfach

Alle Bände der Reihe finden Sie am Ende des Buches.

 

Umschlagabbildung: © bgblue, iStock

Abbildungen im Innenteil (Figur, Lupe, Glühbirne): © Die Illustrationsagentur

Autorenbild Frick: © privat

Autorenbild Kaufmann: © privat

Autorenbild Lankes: © privat

 

Prof. Dr. Detlev Frick lehrt seit 2004 an der Hochschule Niederrhein im Bereich Wirtschaftsinformatik.

 

Prof. Dr. Jens Kaufmann ist Inhaber der Professur für Wirtschaftsinformatik, insb. Data Science an der Hochschule Niederrhein.

 

Dipl.-Kffr. (FH) Birgit Lankes ist Lehrkraft für besondere Aufgaben an der Hochschule Niederrhein.

 

DOI: https://doi.org/10.36198/9783838554426

 

© UVK Verlag 2023— ein Unternehmen der Narr Francke Attempto Verlag GmbH + Co. KGDischingerweg 5 • D-72070 Tübingen

 

Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheberrechtsgesetztes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen.

 

Alle Informationen in diesem Buch wurden mit großer Sorgfalt erstellt. Fehler können dennoch nicht völlig ausgeschlossen werden. Weder Verlag noch Autor:innen oder Herausgeber:innen übernehmen deshalb eine Gewährleistung für die Korrektheit des Inhaltes und haften nicht für fehlerhafte Angaben und deren Folgen. Diese Publikation enthält gegebenenfalls Links zu externen Inhalten Dritter, auf die weder Verlag noch Autor:innen oder Herausgeber:innen Einfluss haben. Für die Inhalte der verlinkten Seiten sind stets die jeweiligen Anbieter oder Betreibenden der Seiten verantwortlich.

 

Internet: www.narr.deeMail: [email protected]

 

Einbandgestaltung: siegel konzeption | gestaltung

 

utb-Nr. 5442

ISBN 978-3-8252-5442-1 (Print)

ISBN 978-3-8463-5442-1 (ePub)

Inhalt

VorwortWas die verwendeten Symbole bedeutenWichtige AbkürzungenZahlen und Fakten zu Big DataAktuelles Beispiel zu Big Data1 Big Data im Kontext1.1 Ist Big Data mit der 3V-Definition erklärbar?1.2 Was sind strukturierte, semi-strukturierte und unstrukturierten Daten?1.3 Business Intelligence oder Business Analytics – ist das nicht alles Big Data?1.4 Wie unterscheiden sich Data Science/Data Mining/Maschinelles Lernen?1.5 Superkraft Data Literacy?1.6 Was kann künstliche Intelligenz (nicht)?2 Betriebswirtschaftliche Fragestellungen2.1 Sind Daten (Informationen) das neue Öl?2.2 Ist Information ein Produktionsfaktor?2.3 Warum benötigen Unternehmen eine Data Strategy?2.4 Was versteht man unter einer Betriebsdatenanalyse?2.5 Haben Kunden einen Wert und wie kann ein analytisches CRM unterstützen?2.6 Wirkt Big Data auch auf Geschäftsmodelle?2.7 Was versteht man unter Internet of Things?2.8 Ein besonderer Einsatzbereich von IoT ist Predictive Maintenance! Warum?3 Berichtswesen3.1 Zahlen oder Kennzahlen, das ist hier die Frage!3.2 Was macht Reporting?3.3 Ist Visualisierung wichtig?4 Datenmanagement4.1 Was versteht man unter Data Engineering und wie setzt man es ein?4.2 Was sind in diesem Zusammenhang Datenmodelle?4.3 Was bedeutet NoSQL aus Sicht der Daten?4.4 Was ist Harmonisierung?4.5 Was ist der Unterschied zwischen ETL und ELT?5 Datenverarbeitung5.1 Was erstellt ein Big-Data-Architekt?5.2 Sind klassische Data Warehouses überflüssig?5.3 Was schwimmt in einem Data Lake?5.4 Dient Streaming bei Big Data der Unterhaltung?5.5 Was macht Clickstream-Daten wertvoll?5.6 Was ist die Idee von Lambda-Architekturen?5.7 Für welche Aufgaben eignen sich Batch-Verfahren?5.8 Werden immer alle Daten betrachtet?5.9 Wie werden die notwendigen Geschwindigkeiten erzielt?6 Datenhaltung6.1 Warum werden Daten verteilt gespeichert?6.2 Wie wird verteilte Speicherung umgesetzt?6.3 Warum skalieren NoSQL-Systeme horizontal?6.4 Warum liegen viele Daten in Skandinavien?6.5 Lohnt es sich heute noch, SQL zu lernen?6.6 Was bedeutet CRUD?6.7 Welche Relevanz hat das ACID-Prinzip?6.8 Was ist das CAP-Theorem?6.9 Wie speichern soziale Netzwerke ihre Daten?6.10 Was ändert sich durch dokumentenorientierte Speicherung?6.11 Wie können große Datenmengen schneller abgerufen werden?6.12 Ist Hyperscaling nur ein Hype?6.13 Was passiert, wenn ein Datenserver ausfällt?7 Analysemethoden7.1 Erklären Korrelationen Zusammenhänge?7.2 Wie kann Big Data visualisiert werden?7.3 Wie schaffen grafische Auswertungen Übersicht?7.4 Kann Big Data für Auswertungen reduziert werden?7.5 Sind klassische Analysemethoden noch einsetzbar?7.6 Was zeigt Zusammenhänge in Daten auf?7.7 Warum hilft Big Data bei der Objekterkennung?7.8 Sind Künstliche Neuronale Netze Teil von Big Data?7.9 Wie werden Texte analysiert?7.10 Welche Probleme bereitet Sprachverarbeitung?7.11 Kann Big Data Wähler analysieren?7.12 Sieht Big-Data-Analyse-Software aus wie in Filmen?7.13 Ist Process Mining ein „Muss“?8 Werkzeuge8.1 Was ist Hadoop?8.2 Womit werden Big-Data-Datenmodelle erstellt?8.3 Womit wird im Bereich Big Data programmiert?8.4 Welches NoSQL-Datenbanksystem ist das richtige?8.5 Existiert eine Standardsoftware für Datenanalyse?8.6 Wird spezielle Hardware für die Analysen benötigt?8.7 Wie funktionieren Process-Mining-Werkzeuge?9 Recht und Umfeld9.1 Was ist Data Governance?9.2 Was versteht man unter Data Privacy?9.3 Was regelt die DSGVO?9.4 In welchem Verhältnis steht das BDSG zur DSGVO?9.5 Können Daten ohne Probleme in die USA übertragen werden?9.6 Was versteht man unter IT-Security?GlossarAlgorithmenBusiness IntelligenceData EngineeringData GovernanceData LakeData LiteracyData MiningData PrivacyData WarehouseKünstliche IntelligenzKünstliche Neuronale NetzeOnline- und LiteraturtippsDie Autoren Im ÜberblickVerwendete LiteraturWo sich welches Stichwort befindetKapitel

Vorwort

Bekanntermaßen wohnt jedem Anfang ein Zauber inne. Das gilt für Innovationen, die die Welt verändern, ebenso wie für Begriffe, die sich kurze Zeit später als Hype erweisen.

Big Data sortiert sich, soviel können wir heute sagen, irgendwo dazwischen ein. Daten, ihre Verarbeitung und ihr Nutzen sind nichts Neues – Big Data ist als Konzept aber auch sicher kein reiner „Hype“ geworden. In unserer Tätigkeit an der Hochschule, unseren Praxisprojekten und allen anderen Aktivitäten rund um dieses Themenfeld begegnen uns interessante, nützliche und spannende Fragestellungen und Lösungen.

So umfangreich und unterschiedlich Daten sein können, so facettenreich kann das Themengebiet betrachtet werden. Daten müssen erhoben, gespeichert und analysiert werden. Ihre Verarbeitung muss betriebswirtschaftlich gerechtfertigt sein. Die Werkzeuge dazu unterliegen einem ständigen Veränderungsprozess und auch organisatorische und rechtliche Rahmenbedingungen können komplex und abschreckend wirken.

Wir möchten unseren Leserinnen und Lesern einen einfach zugänglichen Einstieg in die Thematik bieten. Wir führen und fassen Wissen zu Big Data zusammen und bieten, dort wo es angebracht ist, vertiefende Informationen und Anregungen zur weiteren Recherche. Bei der Lektüre wünschen wir neben hoffentlich neuen Erkenntnissen, dass Sie das Thema genauso spannend finden wie wir und am Ende des Buches „mehr“ wissen, „noch mehr“ wissen möchten und gleichzeitig feststellen, dass selbst bei Big Data gilt: Viel hilft nicht immer viel.

Mönchengladbach, im Sommer 2023

Detlev Frick, Jens Kaufmann und Birgit Lankes

Genderhinweis | Die Autoren verzichten auf verkürzte Formen zur Kennzeichnung mehrgeschlechtlicher Bezeichnungen im Wortinneren und verwenden in der Regel das generische Maskulinum.

Was die verwendeten Symbole bedeuten

 

Toni gibt spannende Literatur- und Onlinetipps und er geht auf Beispiele ein.

 

Die Glühbirne zeigt eine Schlüsselfrage an. Das ist eine der Fragen zum Thema, deren Antwort unbedingt lesenswert ist.

 

Die Lupe weist auf eine Expertenfrage hin. Hier geht die Antwort ziemlich in die Tiefe. Sie richtet sich an alle, die es ganz genau wissen wollen.

Wichtige Abkürzungen

ACID | Atomicity, Consistency, Isolation, Durability

ADAPT | Application Design for Analytical Processing Technologies

BA | Business Analytics

BDSG | Bundesdatenschutzgesetz

BfDI | Bundesbeauftragter für den Datenschutz und die Informationsfreiheit

BI | Business Intelligence

BIA | Business Intelligence & Analytics

CAP | Consistency, Availability, Partition Tolerance

CCPA | US-Datenschutzrecht

CRM | Customer Relationship Management

CRUD | Create, Read, Update, Delete

DSGVO | Datenschutz-Grundverordnung

ELT | Extract, Load, Transform

ERM | Entity Relationship Model

ERP | Enterprise Resource Planning

ETL | Extract, Transform, Load

GDPR | General Data Protection Regulation

IoT | Internet of Things

KI | Künstliche Intelligenz

MERM | Multidimensional Entity Relationship Model

NoSQL | Not Only SQL

RoI | Return on Investment

SQL | Structured Query Language

t-SNE | t-distributed stochastic neighbor embedding

TPU | Tensor Processing Unit

Zahlen und Fakten zu Big Data

„Es gibt drei Arten von Lügen: Lügen, verdammte Lügen und Statistik.“1

Zahlen und Fakten zu Big Data sind ein schwieriger Start in ein Thema, das von Daten beherrscht wird, die so groß, so big sind, dass sie eigene Bücher verdienen. Jegliche Statistiken, die aufzeigen, wie viele Daten pro Minute erzeugt, gespeichert, analysiert oder über das Internet versendet werden, können bestenfalls Näherungen sein, denn wer kann schon in der Lage sein, tatsächlich zu bestimmen, wie viele Mega-/Giga-/Tera- oder Peta-Byte an Daten jeder Mensch erzeugt oder konsumiert,

der E-Mails tippt und liest (die immerhin über zentrale Knotenpunkte verschickt werden und gemessen werden können),

der für seinen Arbeitgeber Dokumente erstellt und sie auf Firmenrechnern abspeichert,

der den Video-Streamingdienst nachts laufen lässt, weil er eingeschlafen ist,

der Sensoren in den verschiedenen Räumen seiner Wohnung anbringt, die jede Minute die Temperatur messen und diese aufzeichnen,

der …

Unbestritten ist, dass es jedes Jahr mehr Daten werden und Analysen geben häufig an, dass das Wachstum nicht linear, sondern exponentiell ist, dass es also jedes Jahr mehr mehr wird. Der vielzitierte Worldwide IDC Global DataSphere Forecast geht auch in der Version der Jahre 2022–2026 von einer Verdopplung der erstellten, erfassten, verbreiteten und gespeicherten Daten in diesem Zeitraum aus (vgl. Rydning, 2022). Jeden Tag werden derzeit geschätzt über 330 Milliarden E-Mails verschickt, bis Ende 2026 werden es vermutlich mehr als 390 Milliarden sein (vgl. The Racati Group, 2022). Diese E-Mails enthalten Geschäftsinformationen, private Informationen, Kreditkartendaten, Zahlenwerke, Tabellen, Anhänge, Bilder, Videos, Links zu Websites und vieles mehr. Sie lassen sich zudem noch einzelnen Accounts und über die gespeicherten Sendeinformationen Ländern, Regionen und teilweise Unternehmen oder Personen zuordnen.

Um diese Daten verarbeiten und versenden zu können, müssen Netzwerkstrukturen vorhanden sein, die ebenfalls stark ausgebaut werden. Die Anzahl an mit dem Internet verbundenen Geräten steigt dabei stetig. Massiven Einfluss auf diesen Anwuchs haben eigenständige Geräte, die eine Maschine-zu-Maschine-Kommunikation betreiben und das Internet of ThingsInternet of Things (IoT) (IoT) bilden oder unterstützen (vgl. Hasan, 2022). Sensoren an Produktionsgeräten, an Gabelstaplern, an Waschmaschinen etc. – alles, was die Vernetzung von Dingen steigert, steigert automatisch auch die generierte, versendete und für Analysen verfügbare Datenmenge.

Mit dieser Datenmenge wächst auch der Markt für Datenanalysen, was erklärt, wieso Tech-Experten gefragt und für Unternehmen häufig schwer zu bekommen sind. Bei jährlichen Wachstumsraten von knapp 30 % entsteht so ein prognostizierter Markt mit einem Volumen von über 300 Milliarden US-Dollar bis 2030 – von dem Big Data Analytics heute den größten Teil ausmacht (vgl. Acumen Research and Consulting, 2022).

Die Zahlen zu Big Data sind ohne Frage eindrucksvoll. Wie nahe die Statistiken und Zahlen letztlich der Wahrheit kommen, insbesondere dann, wenn sie mehrere Jahre in die Zukunft prognostizieren, bleibt dabei abzuwarten.

Aktuelles Beispiel zu Big Data

Ein praktisches Beispiel für den Einsatz von Big Data ist die Analyse von Kundendaten in der Einzelhandelsbranche. Hierbei können Einzelhändler große Datenmengen über das Kaufverhalten ihrer Kunden sammeln, beispielsweise durch die Verwendung von Kundenkarten, Online-Shops oder anderen digitalen Plattformen.

Ein Beispiel hierfür ist das Unternehmen TargetTarget, eine große Einzelhandelskette in den USA. Target hat Daten über das Kaufverhalten seiner Kunden gesammelt und ausgewertet, um Vorhersagen darüber zu treffen, welche Produkte und Angebote Kunden am ehesten interessieren. Basierend auf diesen Vorhersagen konnte Target personalisierte Angebote und Werbung an einzelne Kunden senden und so das Kaufverhalten der Kunden beeinflussen.

Ein bekanntes Beispiel aus dem Jahr 2012 zeigt, wie Target aufgrund seiner Datenauswertungen sogar vorhersagen konnte, dass eine Kundin schwanger war, bevor sie es ihrem Umfeld mitteilte. Das Unternehmen konnte dies anhand von Änderungen in ihrem Kaufverhalten erkennen, wie zum Beispiel dem Kauf von Vitaminen und Nahrungsergänzungsmitteln, die für Schwangere empfohlen werden. Dieses Beispiel zeigt, wie Big-Data-Technologien Einzelhändlern dabei helfen können, das Verhalten und die Bedürfnisse ihrer Kunden besser zu verstehen und gezielte Marketingkampagnen zu entwickeln (vgl. Duhigg, 2012 und Forbes, 2012).

Ein aktuelles Beispiel für den Einsatz von Big Data stammt aus der Gesundheitsbranche und betrifft die Bekämpfung der COVID-19-PandemieCOVID-19-Pandemie.

Das Unternehmen BlueDotBlueDot hat eine Big-Data-Plattform entwickelt, die auf Künstlicher Intelligenz basiert und in der Lage ist, globale Gesundheitsdaten in Echtzeit zu verarbeiten. BlueDot nutzt diese Plattform, um Ausbrüche von Infektionskrankheiten auf der ganzen Welt zu identifizieren und vorherzusagen. So konnte das Unternehmen bereits im Dezember 2019, bevor die Weltgesundheitsorganisation offiziell vor der COVID-19-Pandemie warnte, aufgrund von Datenauswertungen eine mögliche Ausbreitung des Virus vorhersagen.

Die Plattform von BlueDot analysiert dabei unter anderem Daten aus Flugverkehrsmustern, klinischen Daten, Tierkrankheitsdaten sowie Daten aus sozialen Medien und anderen öffentlich zugänglichen Quellen. Auf diese Weise kann das Unternehmen mögliche Ausbreitungswege von Krankheiten prognostizieren und Gesundheitsbehörden sowie Unternehmen weltweit dabei helfen, schneller und effektiver auf Ausbrüche zu reagieren (Stieg, 2020).

1Big Data im Kontext

Dieses Kapitel verrät unter anderem, was sich hinter dem Begriff Big Data verbirgt, warum es Sinn macht, Datentypen zu unterscheiden, was Business Intelligence oder Business Analytics leisten kann und weshalb Datenkompetenz, die sogenannte Data Literacy, unumgänglich ist. Auch auf den Zusammenhang der Begriffe von Künstlicher Intelligenz und Big Data geht es ein.

1.1Ist Big DataBig Data mit der 3V-Definition erklärbar?

In einer ersten einfachen Annäherung an den Begriff Big Data erscheint die wörtliche Übersetzung große Daten(-mengen) zutreffend. Das passt zum ersten V der häufig verwendeten 3V-Definition3V-Definition, das mit VolumeVolume die Menge kennzeichnet. Das zweite V für VarietyVariety steht für die Unterschiedlichkeit der Daten – so fallen z. B. E-Mails, aber auch Tabellen, Texte, Tweets, Videos, Buchhaltungsbelege und Grafiken, also strukturierte und unstrukturierte Daten an. Mit dem dritten V – VelocityVelocity – ist die Geschwindigkeit gemeint, in der die Daten erzeugt aber auch verarbeitet werden. Dabei ist nachvollziehbar, dass nur eine Verarbeitung in Echtzeit oder nahezu Echtzeit wertvolle Erkenntnisse bringen kann.