Erhalten Sie Zugang zu diesem und mehr als 300000 Büchern ab EUR 5,99 monatlich.
Alle sammeln Daten. Doch warum eigentlich? Die Autoren gehen dieser Frage auf den Grund. Sie verraten, was genau hinter dem Schlagwort „Big Data“ steckt und welche Chancen und Risiken sich aus der Kombination von großen Datenvolumina und künstlicher Intelligenz ergeben. Auch auf das Management, die Verarbeitung und die Haltung von Daten gehen sie ein und lassen darüber hinaus den rechtlichen Rahmen nicht außer Acht. Im Frage-Antwort-Stil leicht verständlich! Die utb-Reihe „Frag doch einfach!“ beantwortet Fragen, die sich nicht nur Studierende stellen. Im Frage-Antwort-Stil geben Expert*innen kundig Auskunft und verraten alles Wissenswerte rund um ein Thema. Die wichtigsten Fachbegriffe werden zudem prägnant vorgestellt und es wird verraten, welche Websites, YouTube-Videos und Bücher das Wissen aus diesem Band vertiefen können.
Sie lesen das E-Book in den Legimi-Apps auf:
Seitenzahl: 118
Veröffentlichungsjahr: 2023
Das E-Book (TTS) können Sie hören im Abo „Legimi Premium” in Legimi-Apps auf:
Detlev Frick / Jens Kaufmann / Birgit Lankes
Big Data? Frag doch einfach!
Klare Antworten aus erster Hand
UVK Verlag · München
#fragdocheinfach
Alle Bände der Reihe finden Sie am Ende des Buches.
Umschlagabbildung: © bgblue, iStock
Abbildungen im Innenteil (Figur, Lupe, Glühbirne): © Die Illustrationsagentur
Autorenbild Frick: © privat
Autorenbild Kaufmann: © privat
Autorenbild Lankes: © privat
Prof. Dr. Detlev Frick lehrt seit 2004 an der Hochschule Niederrhein im Bereich Wirtschaftsinformatik.
Prof. Dr. Jens Kaufmann ist Inhaber der Professur für Wirtschaftsinformatik, insb. Data Science an der Hochschule Niederrhein.
Dipl.-Kffr. (FH) Birgit Lankes ist Lehrkraft für besondere Aufgaben an der Hochschule Niederrhein.
DOI: https://doi.org/10.36198/9783838554426
© UVK Verlag 2023— ein Unternehmen der Narr Francke Attempto Verlag GmbH + Co. KGDischingerweg 5 • D-72070 Tübingen
Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheberrechtsgesetztes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen.
Alle Informationen in diesem Buch wurden mit großer Sorgfalt erstellt. Fehler können dennoch nicht völlig ausgeschlossen werden. Weder Verlag noch Autor:innen oder Herausgeber:innen übernehmen deshalb eine Gewährleistung für die Korrektheit des Inhaltes und haften nicht für fehlerhafte Angaben und deren Folgen. Diese Publikation enthält gegebenenfalls Links zu externen Inhalten Dritter, auf die weder Verlag noch Autor:innen oder Herausgeber:innen Einfluss haben. Für die Inhalte der verlinkten Seiten sind stets die jeweiligen Anbieter oder Betreibenden der Seiten verantwortlich.
Internet: www.narr.deeMail: [email protected]
Einbandgestaltung: siegel konzeption | gestaltung
utb-Nr. 5442
ISBN 978-3-8252-5442-1 (Print)
ISBN 978-3-8463-5442-1 (ePub)
Bekanntermaßen wohnt jedem Anfang ein Zauber inne. Das gilt für Innovationen, die die Welt verändern, ebenso wie für Begriffe, die sich kurze Zeit später als Hype erweisen.
Big Data sortiert sich, soviel können wir heute sagen, irgendwo dazwischen ein. Daten, ihre Verarbeitung und ihr Nutzen sind nichts Neues – Big Data ist als Konzept aber auch sicher kein reiner „Hype“ geworden. In unserer Tätigkeit an der Hochschule, unseren Praxisprojekten und allen anderen Aktivitäten rund um dieses Themenfeld begegnen uns interessante, nützliche und spannende Fragestellungen und Lösungen.
So umfangreich und unterschiedlich Daten sein können, so facettenreich kann das Themengebiet betrachtet werden. Daten müssen erhoben, gespeichert und analysiert werden. Ihre Verarbeitung muss betriebswirtschaftlich gerechtfertigt sein. Die Werkzeuge dazu unterliegen einem ständigen Veränderungsprozess und auch organisatorische und rechtliche Rahmenbedingungen können komplex und abschreckend wirken.
Wir möchten unseren Leserinnen und Lesern einen einfach zugänglichen Einstieg in die Thematik bieten. Wir führen und fassen Wissen zu Big Data zusammen und bieten, dort wo es angebracht ist, vertiefende Informationen und Anregungen zur weiteren Recherche. Bei der Lektüre wünschen wir neben hoffentlich neuen Erkenntnissen, dass Sie das Thema genauso spannend finden wie wir und am Ende des Buches „mehr“ wissen, „noch mehr“ wissen möchten und gleichzeitig feststellen, dass selbst bei Big Data gilt: Viel hilft nicht immer viel.
Mönchengladbach, im Sommer 2023
Detlev Frick, Jens Kaufmann und Birgit Lankes
Genderhinweis | Die Autoren verzichten auf verkürzte Formen zur Kennzeichnung mehrgeschlechtlicher Bezeichnungen im Wortinneren und verwenden in der Regel das generische Maskulinum.
Toni gibt spannende Literatur- und Onlinetipps und er geht auf Beispiele ein.
Die Glühbirne zeigt eine Schlüsselfrage an. Das ist eine der Fragen zum Thema, deren Antwort unbedingt lesenswert ist.
Die Lupe weist auf eine Expertenfrage hin. Hier geht die Antwort ziemlich in die Tiefe. Sie richtet sich an alle, die es ganz genau wissen wollen.
ACID | Atomicity, Consistency, Isolation, Durability
ADAPT | Application Design for Analytical Processing Technologies
BA | Business Analytics
BDSG | Bundesdatenschutzgesetz
BfDI | Bundesbeauftragter für den Datenschutz und die Informationsfreiheit
BI | Business Intelligence
BIA | Business Intelligence & Analytics
CAP | Consistency, Availability, Partition Tolerance
CCPA | US-Datenschutzrecht
CRM | Customer Relationship Management
CRUD | Create, Read, Update, Delete
DSGVO | Datenschutz-Grundverordnung
ELT | Extract, Load, Transform
ERM | Entity Relationship Model
ERP | Enterprise Resource Planning
ETL | Extract, Transform, Load
GDPR | General Data Protection Regulation
IoT | Internet of Things
KI | Künstliche Intelligenz
MERM | Multidimensional Entity Relationship Model
NoSQL | Not Only SQL
RoI | Return on Investment
SQL | Structured Query Language
t-SNE | t-distributed stochastic neighbor embedding
TPU | Tensor Processing Unit
„Es gibt drei Arten von Lügen: Lügen, verdammte Lügen und Statistik.“1
Zahlen und Fakten zu Big Data sind ein schwieriger Start in ein Thema, das von Daten beherrscht wird, die so groß, so big sind, dass sie eigene Bücher verdienen. Jegliche Statistiken, die aufzeigen, wie viele Daten pro Minute erzeugt, gespeichert, analysiert oder über das Internet versendet werden, können bestenfalls Näherungen sein, denn wer kann schon in der Lage sein, tatsächlich zu bestimmen, wie viele Mega-/Giga-/Tera- oder Peta-Byte an Daten jeder Mensch erzeugt oder konsumiert,
der E-Mails tippt und liest (die immerhin über zentrale Knotenpunkte verschickt werden und gemessen werden können),
der für seinen Arbeitgeber Dokumente erstellt und sie auf Firmenrechnern abspeichert,
der den Video-Streamingdienst nachts laufen lässt, weil er eingeschlafen ist,
der Sensoren in den verschiedenen Räumen seiner Wohnung anbringt, die jede Minute die Temperatur messen und diese aufzeichnen,
der …
Unbestritten ist, dass es jedes Jahr mehr Daten werden und Analysen geben häufig an, dass das Wachstum nicht linear, sondern exponentiell ist, dass es also jedes Jahr mehr mehr wird. Der vielzitierte Worldwide IDC Global DataSphere Forecast geht auch in der Version der Jahre 2022–2026 von einer Verdopplung der erstellten, erfassten, verbreiteten und gespeicherten Daten in diesem Zeitraum aus (vgl. Rydning, 2022). Jeden Tag werden derzeit geschätzt über 330 Milliarden E-Mails verschickt, bis Ende 2026 werden es vermutlich mehr als 390 Milliarden sein (vgl. The Racati Group, 2022). Diese E-Mails enthalten Geschäftsinformationen, private Informationen, Kreditkartendaten, Zahlenwerke, Tabellen, Anhänge, Bilder, Videos, Links zu Websites und vieles mehr. Sie lassen sich zudem noch einzelnen Accounts und über die gespeicherten Sendeinformationen Ländern, Regionen und teilweise Unternehmen oder Personen zuordnen.
Um diese Daten verarbeiten und versenden zu können, müssen Netzwerkstrukturen vorhanden sein, die ebenfalls stark ausgebaut werden. Die Anzahl an mit dem Internet verbundenen Geräten steigt dabei stetig. Massiven Einfluss auf diesen Anwuchs haben eigenständige Geräte, die eine Maschine-zu-Maschine-Kommunikation betreiben und das Internet of ThingsInternet of Things (IoT) (IoT) bilden oder unterstützen (vgl. Hasan, 2022). Sensoren an Produktionsgeräten, an Gabelstaplern, an Waschmaschinen etc. – alles, was die Vernetzung von Dingen steigert, steigert automatisch auch die generierte, versendete und für Analysen verfügbare Datenmenge.
Mit dieser Datenmenge wächst auch der Markt für Datenanalysen, was erklärt, wieso Tech-Experten gefragt und für Unternehmen häufig schwer zu bekommen sind. Bei jährlichen Wachstumsraten von knapp 30 % entsteht so ein prognostizierter Markt mit einem Volumen von über 300 Milliarden US-Dollar bis 2030 – von dem Big Data Analytics heute den größten Teil ausmacht (vgl. Acumen Research and Consulting, 2022).
Die Zahlen zu Big Data sind ohne Frage eindrucksvoll. Wie nahe die Statistiken und Zahlen letztlich der Wahrheit kommen, insbesondere dann, wenn sie mehrere Jahre in die Zukunft prognostizieren, bleibt dabei abzuwarten.
Ein praktisches Beispiel für den Einsatz von Big Data ist die Analyse von Kundendaten in der Einzelhandelsbranche. Hierbei können Einzelhändler große Datenmengen über das Kaufverhalten ihrer Kunden sammeln, beispielsweise durch die Verwendung von Kundenkarten, Online-Shops oder anderen digitalen Plattformen.
Ein Beispiel hierfür ist das Unternehmen TargetTarget, eine große Einzelhandelskette in den USA. Target hat Daten über das Kaufverhalten seiner Kunden gesammelt und ausgewertet, um Vorhersagen darüber zu treffen, welche Produkte und Angebote Kunden am ehesten interessieren. Basierend auf diesen Vorhersagen konnte Target personalisierte Angebote und Werbung an einzelne Kunden senden und so das Kaufverhalten der Kunden beeinflussen.
Ein bekanntes Beispiel aus dem Jahr 2012 zeigt, wie Target aufgrund seiner Datenauswertungen sogar vorhersagen konnte, dass eine Kundin schwanger war, bevor sie es ihrem Umfeld mitteilte. Das Unternehmen konnte dies anhand von Änderungen in ihrem Kaufverhalten erkennen, wie zum Beispiel dem Kauf von Vitaminen und Nahrungsergänzungsmitteln, die für Schwangere empfohlen werden. Dieses Beispiel zeigt, wie Big-Data-Technologien Einzelhändlern dabei helfen können, das Verhalten und die Bedürfnisse ihrer Kunden besser zu verstehen und gezielte Marketingkampagnen zu entwickeln (vgl. Duhigg, 2012 und Forbes, 2012).
Ein aktuelles Beispiel für den Einsatz von Big Data stammt aus der Gesundheitsbranche und betrifft die Bekämpfung der COVID-19-PandemieCOVID-19-Pandemie.
Das Unternehmen BlueDotBlueDot hat eine Big-Data-Plattform entwickelt, die auf Künstlicher Intelligenz basiert und in der Lage ist, globale Gesundheitsdaten in Echtzeit zu verarbeiten. BlueDot nutzt diese Plattform, um Ausbrüche von Infektionskrankheiten auf der ganzen Welt zu identifizieren und vorherzusagen. So konnte das Unternehmen bereits im Dezember 2019, bevor die Weltgesundheitsorganisation offiziell vor der COVID-19-Pandemie warnte, aufgrund von Datenauswertungen eine mögliche Ausbreitung des Virus vorhersagen.
Die Plattform von BlueDot analysiert dabei unter anderem Daten aus Flugverkehrsmustern, klinischen Daten, Tierkrankheitsdaten sowie Daten aus sozialen Medien und anderen öffentlich zugänglichen Quellen. Auf diese Weise kann das Unternehmen mögliche Ausbreitungswege von Krankheiten prognostizieren und Gesundheitsbehörden sowie Unternehmen weltweit dabei helfen, schneller und effektiver auf Ausbrüche zu reagieren (Stieg, 2020).
Dieses Kapitel verrät unter anderem, was sich hinter dem Begriff Big Data verbirgt, warum es Sinn macht, Datentypen zu unterscheiden, was Business Intelligence oder Business Analytics leisten kann und weshalb Datenkompetenz, die sogenannte Data Literacy, unumgänglich ist. Auch auf den Zusammenhang der Begriffe von Künstlicher Intelligenz und Big Data geht es ein.
In einer ersten einfachen Annäherung an den Begriff Big Data erscheint die wörtliche Übersetzung große Daten(-mengen) zutreffend. Das passt zum ersten V der häufig verwendeten 3V-Definition3V-Definition, das mit VolumeVolume die Menge kennzeichnet. Das zweite V für VarietyVariety steht für die Unterschiedlichkeit der Daten – so fallen z. B. E-Mails, aber auch Tabellen, Texte, Tweets, Videos, Buchhaltungsbelege und Grafiken, also strukturierte und unstrukturierte Daten an. Mit dem dritten V – VelocityVelocity – ist die Geschwindigkeit gemeint, in der die Daten erzeugt aber auch verarbeitet werden. Dabei ist nachvollziehbar, dass nur eine Verarbeitung in Echtzeit oder nahezu Echtzeit wertvolle Erkenntnisse bringen kann.