9,99 €
ChatGPT, Bildgeneratoren, KI-Agenten – generative KI verändert, wie Unternehmen arbeiten. Doch zwischen überzogenen Versprechen und echten Möglichkeiten zu unterscheiden, ist schwieriger denn je. Dieses Buch vermittelt das notwendige Wissen, um generative KI zu verstehen, ihre Chancen realistisch einzuschätzen und eigene Projekte erfolgreich umzusetzen. Es schlägt die Brücke zwischen technischem Verständnis und praktischer Anwendung – verständlich erklärt, ohne dabei an Tiefe zu verlieren. Was Sie lernen: - Wie große Sprachmodelle, Bild- und Videogeneratoren und KI-Agenten funktionieren – und warum dieses Verständnis für gute Entscheidungen wichtig ist - Prompt Engineering: Wie Sie durch gezielte Eingaben bessere Ergebnisse aus KI-Systemen herausholen - Welche Herausforderungen Sie kennen müssen – von Halluzinationen und Verzerrungen bis hin zu Datenschutz und verantwortungsvoller KI - Was der EU AI Act für Ihr Unternehmen bedeutet und welche Anforderungen Sie beachten müssen - Wohin die Reise geht: Superintelligenz, Open-Source, neue Hardware und die Frage, ob wir uns in einer KI-Blase befinden Praxisnah und umsetzbar: - Konkrete Anwendungsfälle aus Bereichen wie Kundenservice, Wissensmanagement, Inhaltserstellung und Prozessautomatisierung - Frameworks und Templates für die Umsetzung Ihrer eigenen KI-Projekte – von der Problemdefinition bis zur Implementierung - Leitfaden zur Risikobewertung und zum Aufsetzen wirksamer Leitplanken - Strategische Perspektiven: Wie generative KI Ihre Unternehmensstrategie, Ihr Betriebsmodell und Ihre Datenstrategie beeinflusst Für wen dieses Buch geschrieben ist: - Geschäftsleute und Entscheider, die KI-Initiativen planen oder KI-Anbieter bewerten - Projektverantwortliche, die generative KI in ihrem Unternehmen umsetzen - Alle, die das Thema generative KI fundiert durchdringen wollen, ohne sich in technischen Details zu verlieren Geschrieben von Dr. Dominik Hörndlein, freier Berater für KI-Strategie und -Umsetzung. Aus langjähriger Erfahrung in Konzernen und der Startup-Welt kennt er die Fallstricke, die über Erfolg und Misserfolg von KI-Projekten entscheiden. Dieses Buch gibt Ihnen das Wissen, um mit KI-Experten auf Augenhöhe zu diskutieren und Ihre eigenen Projekte voranzutreiben.
Das E-Book können Sie in Legimi-Apps oder einer beliebigen App lesen, die das folgende Format unterstützen:
Seitenzahl: 440
Veröffentlichungsjahr: 2026
Generative KI sinnvoll nutzen
Den Hype durchschauen,Chancen erkennen undProjekte erfolgreich umsetzen
Dr. Dominik Hörndlein
© 2026 Dr. Dominik Hörndlein
Herausgeber und Autor: Dr. Dominik HörndleinDruck und Distribution im Auftrag des Herausgebers:tredition GmbH, Heinz-Beusen-Stieg 5, 22926 Ahrensburg, Deutschland
Das Werk, einschließlich seiner Teile, ist urheberrechtlich geschützt. Für die Inhalte ist der Herausgeber verantwortlich. Jede Verwertung ist ohne seine Zustimmung unzulässig. Die Publikation und Verbreitung erfolgen im Auftrag des Herausgebers, zu erreichen unter: Dominik Hörndlein Consulting, Manzostr. 46, 80997 München, Germany.
Kontaktadresse nach EU-Produktsicherheitsverordnung: [email protected]: https://hoerndlein-consulting.de
ISBN Paperback:978-3-9827019-3-6ISBN E-Book: 978-3-9827019-4-3
1. Auflage der deutschsprachigen Ausgabe: April 2026Vollständig überarbeitete und stark erweiterte Fassung, basierend auf der englischsprachigen Originalausgabe:Making Sense of Generative AI (1. Auflage, Januar 2025)
INHALT
1Grundlagen
1.1Eine kurze Geschichte der KI
1.2Wie KI-Modelle erstellt werden
1.3Die Rolle der Daten
2Texte generieren
2.1Wie Sprachmodelle funktionieren
2.2Training der Sprachmodelle
2.3Was macht ein Sprachmodell nützlich?
2.4Die Nutzung von LLMs optimieren
2.5Schnellstart
2.6Wenn größer besser ist
2.7Kreativität und Zufall
2.8Zusammenfassung
3Bilder generieren
3.1Wie Bildgeneratoren funktionieren
3.2Weitere Ansätze zur Bilderzeugung
3.3Training der Bildgeneratoren
3.4Einschränkungen
3.5Optimierung der Verwendung von Bildgeneratoren
3.6Wie Videogeneratoren funktionieren
3.7Schnellstart
3.8Zusammenfassung
4Anwendungen
4.1Prozessautomatisierung und Arbeitsabläufe
4.2Wissenszugang und -umwandlung
4.3Erstellen und Analysieren von Inhalten
4.4Interaktion zwischen Mensch und KI
4.5Zusammenfassung
5Herausforderungen
5.1Hochwertige KI und Modellgröße
5.2Verfügbare Daten
5.3Verzerrungen – Bias
5.4Halluzinationen
5.5Verantwortungsvolle KI
5.6Rechtliche Rahmenbedingungen
5.7Zusammenfassung
6Umsetzung
6.1Problemfindung und -beschreibung
6.2Beschreibung der Lösung
6.3Datennutzung und KI-Komponenten
6.4Risikobewertung
6.5Leitplanken
6.6Anwendungen testen und implementieren
6.7Das Geschäftsmodell
6.8Auswirkungen auf die Unternehmensstrategie
6.9Zusammenfassung
7Zukunft der KI
7.1Superintelligenz
7.2Was die Vergangenheit über Hypes aussagt
7.3KI-Blase oder Revolution
7.4Der Open-Source-Wandel
7.5Optimierte Hardware
7.6Roboter in Interaktion mit der Welt
7.7Zusammenfassung
Vorwort
Die menschliche Natur wird von unserer Neugier und der Fähigkeit angetrieben, Lösungen für alltägliche Probleme zu schaffen. Daher ist es verständlich, dass neue Technologien, die solche Innovationen ermöglichen, uns bis heute faszinieren. Diese Neuerungen bringen jedoch auch Unsicherheiten mit sich: Wie können wir sie nutzen? Wie können andere sie gegen uns verwenden?
Die Erfindung der Dampfmaschine als Universaltechnologie im späten 18. Jahrhundert stellt eine treffende historische Parallele zu unserer aktuellen Situation mit der künstlichen Intelligenz dar. Als James Watt 1769 die Dampfmaschine verbesserte, löste dies eine Revolution aus, die die Gesellschaft grundlegend verändern sollte. Die Menschen waren gleichermaßen fasziniert und verängstigt von den möglichen Anwendungen dieser neuen Erfindung.
Einerseits versprach die Dampfmaschine eine nie dagewesene Steigerung der industriellen Leistung und Effizienz. Visionäre erkannten das Potenzial für schnellere Transporte, verbesserte Produktionsmöglichkeiten und wirtschaftliches Wachstum. Diese Begeisterung führte zu einer raschen Einführung in Fabriken, Bergwerken und schließlich in Eisenbahnen und Dampfschiffen.
Andererseits löste die Dampfmaschine auch Ängste aus. Arbeiter fürchteten um ihre Arbeitsplätze, da Maschinen nun Aufgaben übernahmen, die zuvor menschliche Arbeitskraft erforderten. Einige religiöse Führer betrachteten sie gar als Angriff auf die göttliche Ordnung. Dazu kamen Sicherheitsbedenken, da die frühen Dampfmaschinen zu Explosionen neigten.
Im Laufe der Geschichte erwiesen sich sowohl die positiven Visionen als auch die negativen Befürchtungen in unterschiedlichem Maße als berechtigt. Die Dampfmaschine revolutionierte tatsächlich Industrie, Transportwesen und Weltwirtschaft. Dadurch leitete sie die industrielle Revolution ein. Sie schuf neue Arbeitsplätze und Industrien, andere machte sie überflüssig. Obwohl sie vielen Menschen Wohlstand brachte, führte sie in einigen Gegenden zur Ausbeutung von Arbeitern und Zerstörung der Umwelt.
Dieses Beispiel verdeutlicht, wie revolutionäre Technologien weitreichende und manchmal unvorhergesehene Folgen haben können – im Positiven wie im Negativen. Es unterstreicht zudem die Bedeutung, neue Technologien mit Bedacht einzuführen.
Beim jüngsten Hype um generative KI erleben wir dieselben Muster. Nur sind die Innovationszyklen inzwischen kürzer als in der Vergangenheit. Social-Media-Kanäle ermöglichen es uns außerdem, dass wir Informationen – genauso wie Emotionen – in nie dagewesenem Umfang und Tempo weltweit verbreiten. Dies hat viele Menschen davon überzeugt, dass KI zahlreiche Aspekte unserer Welt radikal verändern wird. Wir sind uns nur nicht sicher, welche genau.
Während Manager und Experten aus Tech-Konzernen uns versichern, dass diese Veränderungen unser Leben erheblich verbessern, prophezeien andere Experten den Weltuntergang. Wer von ihnen hat recht? Welche Auswirkungen hat generative KI tatsächlich auf unser tägliches Leben? Wie treffen wir die richtigen Entscheidungen, um generative KI wertschöpfend einzusetzen? Und wie funktionieren diese Technologien tatsächlich?
Dieses Buch wird Ihnen nicht alle Fragen beantworten. Aber es wird Sie mit dem notwendigen Wissen ausrüsten, um Antworten auf die wichtigen Fragen zu finden. Dafür biete ich Ihnen Einblicke in: Wie funktioniert KI im Allgemeinen und generative KI im Speziellen? Welche Faktoren beeinflussen ihre zukünftige Entwicklung? Wie führen Sie Projekte zur Entwicklung von KI durch? Wie bewerten Sie die Risiken bei der Nutzung und Entwicklung von KI? Welche Gesetze und Regularien müssen Sie beachten? Bei welchen Anwendungsfällen ergeben sich besonders gute Chancen und wo liegen die Grenzen dieser Technologie?
Ich bin überzeugt, dass bereits das Verständnis der Kernkonzepte generativer KI einen bedeutenden Unterschied ausmacht um diese Technologie sinnvoll zu nutzen. Wir werden deshalb nicht alle technischen Details beleuchten – aber tief genug einsteigen, um ihre Kernkonzepte hinreichend zu verstehen.
Dieses Buch richtet sich an Sie als Fachexperten und Manager, die diese Technologie im Alltag nutzen möchten. Es richtet sich an alle, die sich für generative KI interessieren und zumindest ein Grundverständnis von IT mitbringen. Am Ende des Buches werden Sie mit KI-Experten zielführende Diskussionen führen können. Sie werden die Entscheidungen treffen können, um KI-basierte Lösungen in Ihrem Berufsalltag zu nutzen oder eigene Anwendungen entwickeln zu lassen.
Legen wir also los!
Um generative KI besser zu verstehen, müssen wir zunächst KI im Allgemeinen begreifen. Als Forschungsbereich gibt es sie bereits seit vielen Jahrzehnten, sodass Konzepte und Durchbrüche aus vielen Epochen aufeinander aufbauen. Generative KI repräsentiert dabei nur einen Teilbereich – wenn auch einen wichtigen mit großem Potenzial. Doch sie hat ihre Grenzen. Viele davon lassen sich besser verstehen, wenn wir ein Gefühl dafür entwickeln, wie KI-Lösungen bereits lange vor dem Aufkommen generativer KI entwickelt wurden.
Im Allgemeinen umfasst der Begriff künstliche Intelligenz (KI) Technologien, die es Maschinen ermöglichen zu lernen, zu denken und Aufgaben auszuführen. Sie erstrecken sich über Bereiche, die normalerweise menschliche Intelligenz erfordern. Entsprechend zielt KI darauf ab, die menschliche Leistung in diesen Aufgaben nachzuahmen und zu übertreffen.
Wir beginnen daher mit einer kurzen Geschichte der KI, um zunächst einen Überblick über die wichtigsten KI-Bereiche der letzten Jahre zu erhalten. Die anschließende Diskussion verdeutlicht, wie KI-Experten Software und Daten in funktionierende Lösungen verwandeln. Grundsätzliche weitere Gedanken zur bedeutenden Rolle von Daten in diesem Zusammenhang runden das Kapitel ab.
In diesem Abschnitt werden folgende Konzepte erläutert: wichtige Meilensteine und Konzepte, die den Fortschritt der KI in den letzten Jahren voranbrachten; Bedeutung von Computer Vision, Deep Learning, GPUs, Reinforcement Learning, Bildgenerierung und Sprachmodellen.
Genau wie andere technologische Revolutionen entwickeln sich auch die Fortschritte in der künstlichen Intelligenz oft auf unvorhersehbare Weise. Obwohl die Wurzeln der KI bis in die 1950er Jahre zurückreichen, haben sich viele ihrer Fähigkeiten und realen Anwendungen erst in den letzten Jahren entwickelt.
Den Grund dafür finden wir in der wachsenden Leistungsfähigkeit der Computer-Hardware. Sie ermöglicht es IT-Systemen, immer größere Datenmengen in kürzerer Zeit bei niedrigeren Kosten zu verarbeiten. Mit sinkenden Preisen für Hardware sanken dann auch die Einstiegshürden für deren Nutzung. Sie erreichten ein Niveau, das es Privatpersonen ermöglichte, KI-Lösungen auf ihren eigenen Computern zu betreiben und zu entwickeln. Die wachsende Open-Source-Community im KI-Bereich unterstützte diesen Trend.
In den 1980er Jahren sah die Situation noch anders aus. Forscher auf dem Gebiet der KI hatten kühne Behauptungen aufgestellt: KI sei bald imstande, jede intellektuelle Aufgabe zu bewältigen, die ein Mensch erledigen kann.1 Solche Behauptungen weckten Erwartungen, die schlicht und ergreifend nicht erfüllt werden konnten. Noch nicht. Die Technologien jener Zeit waren noch nicht weit genug entwickelt – es folgte der sogenannte KI-Winter.
Doch auf jeden Winter folgt irgendwann der Frühling. So gab es in den letzten Jahren viele bedeutende Durchbrüche, welche die heutige KI-Landschaft entscheidend prägten. Besprechen wir die größten Meilensteine, damit wir ein besseres Verständnis davon bekommen, wozu diese Systeme in der Lage sind. Währenddessen führen wir einige wichtige Konzepte ein.
Wir streben hierbei keine Vollständigkeit an, sondern möchten vielmehr einige aufschlussreiche Beispiele diskutieren. Sie müssen sich auch nicht alle Namen und Beispiele aus diesem Abschnitt merken – das Ziel ist es, ein Grundverständnis zu schaffen, auf dem wir in den folgenden Abschnitten und Kapiteln aufbauen.
Der Bereich der Computer Vision2 bezieht sich auf KI-Lösungen, die visuelle Informationen wie Bilder und Videos verarbeiten. Im Jahr 2010 begannen die wichtigsten Entwicklungen in diesem Bereich mit der ImageNet-Challenge. Forschungsteams, Unternehmen und alle anderen Interessierten entwickelten in diesem Wettbewerb KI-Systeme, die Objekte in Millionen von Bildern erkennen und in dutzende Kategorien einordnen. (Später wuchs die Zahl auf einige hundert Kategorien an.) Objekte, die erkannt werden mussten, waren beispielsweise Tiere wie Katzen und Hunde sowie Gegenstände des täglichen Lebens wie Luftballons und Handtücher.
Das Besondere an diesem Wettbewerb war, dass Teams zwar mit ganz unterschiedlichen Ansätzen für Computer Vision KI antraten, aber unter gleichen Bedingungen miteinander konkurrierten. Die Community konnte dabei verfolgen, welche Ideen das Maß aller Dinge waren. Zudem bekamen gute neue Ideen sofort die Sichtbarkeit auf einer großen Bühne. Die jährlichen ImageNet-Challenges sind seither zu Eckpfeilern für die Weiterentwicklung von Computer Vision geworden. Sie bewiesen, dass KI mit ausreichend Daten und Rechenleistung imstande ist, die Welt auf eine Weise zu „sehen“, die der menschlichen Wahrnehmung ebenbürtig ist.
Im Jahr 2012 erprobte ein Team eine neue Softwarearchitektur, die auf sogenannten tiefen neuronalen Netzwerken basierte. Sie erreichte im Wettbewerb eine beispiellose Genauigkeit und übertraf herkömmliche Methoden bei weitem. Dieser Durchbruch demonstrierte die Macht des Deep Learning – einer Technik, die in den folgenden Jahren die KI-Forschung und -Anwendung dominieren sollte.
Worum geht es beim Deep Learning und was macht es zu einem solchen Meilenstein?
Deep Learning beschreibt Software, in der KI in Form von tiefen neuronalen Netzwerken – auf Englisch: deep neural networks – genutzt wird. Im Kern wurden Deep-Learning-Lösungen vom menschlichen Gehirn inspiriert. Genau wie unser Gehirn aus miteinander verbundenen Neuronen besteht, sind tiefe neuronale Netzwerke aus miteinander verbundenen „Knoten“ aufgebaut, die Informationen verarbeiten. Diese Knoten sind in Schichten angeordnet: Informationen fließen von der ersten bis zur letzten Schicht, bevor das System über die eigentliche Antwort entscheidet.
Stellen Sie sich vor, dass Sie ein Foto einer Katze betrachten. Ihr Gehirn erkennt nicht sofort, dass es sich um eine Katze handelt – zuerst verarbeitet es das Bild in mehreren Schritten. Zunächst nimmt es vielleicht einfache Formen und Kanten wahr, dann die Fellstruktur, anschließend Merkmale wie Schnurrhaare oder spitze Ohren die typisch sind für Katzen. Schließlich kommt es zu dem Schluss, dass es eine Katze ist. Deep Learning funktioniert ähnlich.
In einem Deep-Learning-Modell für Bilderkennung könnte die erste Schicht grundlegende Elemente wie Kanten und Farben wahrnehmen. Während die Informationen durch die nachfolgenden Schichten fließen, erfasst das KI-Modell zunehmend komplexere Merkmale – von einfachen Formen bis hin zu komplizierten Mustern. Die finalen Schichten kombinieren alle diese Informationen, um eine Entscheidung zu treffen, wie etwa: „Dieses Bild enthält eine Katze“.
Die folgende Abbildung veranschaulicht beispielhaft, wie die Schichten des „Deep-Learning-Modells“ – dargestellt durch weiße Kästen – von unten nach oben zunehmend komplexere Eigenschaften erkennen.3
Die KI ist nicht explizit darauf programmiert, Katzen oder andere spezifische Objekte wahrzunehmen. Niemand gibt ihr vor, welche Merkmale am besten geeignet sind, um eine Katze von einem Hund zu unterscheiden. Stattdessen lernt sie eigenständig, aus Millionen von Bildern die relevanten Muster zu identifizieren. Dadurch erkennen Deep-Learning-Modelle subtile Muster, die selbst Menschen übersehen würden.
Deep-Learning-Systeme sind auf riesige Datenmengen angewiesen, um zu lernen, wie man die besten Muster erfasst. Das unterscheidet sie von uns Menschen: Wir können Informationen zwar nicht so schnell verarbeiten wie Computer, aber wir sind sehr effizient darin, neue Themen zu erlernen. Nachdem wir einmal eine Katze gesehen haben, erkennen wir auch andere Katzen, die uns begegnen. Deep-Learning-Methoden benötigen dafür jedoch sehr viele Daten.
Deep Learning wurde bald auch auf Herausforderungen jenseits der Computer Vision angewandt. Von Bild- und Spracherkennung bis hin zur Übersetzung ermöglichte es Deep Learning, Probleme zu bewältigen, die zuvor als zu komplex für Maschinen galten.
Wie bereits erwähnt, liegt ein Schlüsselkonzept darin, dass diese Systeme sich die notwendigen Muster und Entscheidungswege selbst beibringen. Es hat den Nachteil, dass Menschen nur schwer nachvollziehen können, wie Deep-Learning-Systeme Entscheidungen genau treffen. Daher erscheinen sie uns oft wie „Black Boxes“: Sie können zwar exakte Entscheidungen treffen, aber wir können nicht erklären, welche Gründe sie dazu bewogen haben.
Ein weiterer wichtiger Aspekt ist ihr Datenhunger. Während es uns mit herkömmlichen KI-Methoden schwerfällt, riesige Informationsmengen sinnvoll zu verarbeiten, entfalten Deep-Learning-Systeme erst mit diesen ihr volles Potential. Je mehr Daten Sie diesen KI-Modellen zuführen, desto besser erfassen sie Muster und desto genauer werden ihre Entscheidungswege.
Um solch mächtige KI-Systeme basierend auf Deep Learning zu schaffen, benötigen wir deshalb Computer-Hardware, die diese riesigen Datenmengen verarbeiten kann. Doch die Fähigkeiten der Hardware sind begrenzt. Je mehr Daten eine KI erhält, desto besser wird sie – desto länger dauert es allerdings auch, sie zu trainieren.
Forscher der Universität Toronto entdeckten aus wissenschaftlicher Neugier einen neuen Ansatz, um diesen Trainingsprozess zu beschleunigen. CPUs, also die zentralen Prozessoren, sind die Alleskönner in Computern – sie verarbeiten alle Arten von Daten. Indessen führte die Gaming-Industrie spezielle Grafikprozessoren – sogenannte GPUs4 – ein, die effizient darin sind, hochauflösende Grafiken auf Computerbildschirmen darzustellen. Die Forscher untersuchten, was passiert, wenn Deep-Learning-KI nicht mehr durch CPUs, sondern durch GPUs angetrieben wird. Das Ergebnis überraschte sie: GPUs visualisieren nicht nur Bilder hocheffizient, sondern berechnen auch KI-Aufgaben deutlich schneller als CPUs.5
Der große Durchbruch gelang erneut im ImageNet-Wettbewerb von 2012. Das Team, das die damals siegreiche KI entwickelte, nutzte GPUs um sie zu trainieren. Allein durch diesen Ansatz war das Training schnell genug, um am ImageNet-Wettbewerb teilnehmen zu können. Angetrieben von den Möglichkeiten der GPUs, begannen große Technologieunternehmen und Forschungseinrichtungen ab diesem Zeitpunkt, leistungsfähigere KI-Systeme in einem viel größeren Maßstab als zuvor zu entwickeln.
Nebenbei bemerkt: Dies ist auch der Grund, warum Nvidia heute einer der wichtigsten Akteure in der Technologiebranche ist. Vor der KI-Revolution war die Firma bereits Marktführer in der Produktion von GPU-Hardware für die Gaming-Industrie. Diese Nische war allerdings viel kleiner als der heutige KI-Markt. Es war Glück, dass auch moderne KI-Lösungen ein dankbares Anwendungsgebiet für GPUs sind.
Und es ist der Genialität von Nvidias CEO zu verdanken, das Unternehmen auf diesen Trend hin auszurichten. Betrachten wir beispielsweise den Aktienkurs des Unternehmens. Von etwa 0,35$ im Januar 2012 entwickelte er sich über 2,70$ Anfang 2017 bis über 130$ im Januar 2025. Die Wette auf den KI-Markt hat sich für Nvidia also ausgezahlt.
Wie wir sehen, werden viele technologische Durchbrüche aus wissenschaftlicher Neugier erzielt. Oder anders ausgedrückt: durch Versuch und Irrtum. Selbst wenn viele schlaue Köpfe an der Verbesserung von KI-Systemen und den ihr zugrunde liegenden Ansätzen arbeiten – letztendlich müssen wir vieles ausprobieren, um herauszufinden, was wirklich funktioniert.
Spiele sind aus diesem Grund eine dankbare Testumgebung für die KI-Entwickler. So gibt es Schach-Computer bereits seit vielen Jahren. Besonders bekannt wurde Deep Blue im Jahr 1996. Er war der erste Computer, der eine Schachpartie gegen den amtierenden Schachweltmeister (Garri Kasparow) gewann.6
Schach ist bereits schwer genug zu meistern. Dennoch gibt es Spiele, die eine noch größere Herausforderung darstellen. Das Team von Google DeepMind nahm sich Go vor – ein altes chinesisches Brettspiel, das in Asien bis heute beliebt ist.
Wir müssen nicht im Detail verstehen, wie Go funktioniert. Als kurze Einführung genügt: Wir haben ein Brett mit 19 mal 19 Feldern. Auf diesem agieren zwei Spieler – einer mit schwarzen und einer mit weißen Steinen. Das Ziel ist, mehr Felder auf dem Brett zu besetzen als der Gegner. Dies erreichen Sie, indem Sie abwechselnd Steine auf das Brett setzen. Sobald Sie gegnerische Steine auf dem Brett mit Ihren eigenen vollständig einschließen, werden diese geschlagen und Sie dürfen sie aus dem Spiel entfernen.
Die Grundidee des Spiels ist zwar einfach. Ihre inhärente Komplexität brachte die traditionelle Computertechnik dennoch an ihre Grenzen. Bis es dem Team von DeepMind im Jahr 2016 gelang, den amtierenden Weltmeister im Go zu besiegen.7 Dazu stützten sie sich auf eine neue Methode, um künstlicher Intelligenz neues Wissen beizubringen – Reinforcement Learning.8
Wie KI-Modelle erstellt werden, besprechen wir im nächsten Abschnitt ausführlicher. Um zu verstehen, worum es beim Reinforcement Learning geht, greifen wir aber jetzt bereits einen einzelnen Aspekt heraus.
Was macht ein KI-System, wenn es Objekte auf einem Bild erkennt (wie Tiere in unserem vorigen Beispiel)? Es erhält ein Bild, verarbeitet es und gibt zurück, was es erkannt hat. Es gibt klar definierte Eingabedaten (das Bild) und Ausgabedaten (erkannte Objekte). Dabei können Sie leicht beurteilen, ob die Ausgabe korrekt ist: Sie sehen nach, ob das von der KI erkannte Objekt tatsächlich auf dem Bild dargestellt ist.
Wie funktioniert das bei einem Spiel wie Go? Als Eingabe haben Sie die Anordnung der Spielsteine auf dem Brett. Welche Daten gibt die KI aus? Sie soll Ihnen vorschlagen, wo Sie Ihren nächsten Stein platzieren. Noch besser: Sie soll Ihnen den Spielzug vorschlagen, der Ihre Gewinnchancen optimiert.
Hier beginnt die Herausforderung. Wie können Sie beurteilen, ob ein Zug der Beste ist, um am Ende das Spiel zu gewinnen? Bevor das Spiel endet, werden beide Spieler noch Dutzende bis Hunderte von Zügen ausführen. Zudem ist unklar, wie Ihr Gegenspieler auf Ihren Zug reagieren wird. Dies macht es schwer, vorherzusagen, ob Ihr Zug gut oder schlecht ist. Insgesamt ist die Verbindung von der Aufgabe (nächsten Zug vorschlagen) zum ultimativen Ziel (das Spiel zu gewinnen) viel schwächer ausgeprägt als im Beispiel der Objekterkennung auf Bildern.
Wie also beurteilt eine KI, ob ein einzelner Zug gut oder schlecht ist? Dies ist die Herausforderung, der sich Reinforcement Learning widmet.
Auf abstrakter Ebene erinnert der verwendete Ansatz daran, wie Sie Haustiere trainieren. Sie können Ihrem Hund nicht direkt sagen, dass er sich hinsetzen soll. Aber Sie können ihn für korrektes Verhalten belohnen. Wenn Sie Belohnungen gezielt einsetzen und genug Zeit investieren, lernt der Hund letztendlich, welches Verhalten Sie von ihm erwarten
Ähnlich verhält es sich beim Go. Hier spielt die KI viele Spielrunden gegen sich selbst. Wenn sie gewinnt, wird sie belohnt; wenn sie verliert, wird sie bestraft. Dies startet einen langwierigen Prozess, in dem die KI sich nach dem Prinzip „Versuch und Irrtum“ selbst verbessert.
Durch diesen Ansatz bewertet die KI also nicht die einzelnen Spielzüge dahingehend, ob sie gut oder schlecht sind. Vielmehr bewertet sie, mit welchen Strategien wir das Spiel gewinnen können. Der Unterschied ist subtil, aber wichtig.
Im nächsten Kapitel greifen wir neben anderen Ansätzen zur Erstellung von KI-Modellen auch das Konzept des Reinforcement Learning wieder auf. Der Grund ist, dass dieses Konzept für den Erfolg der generativen KI von grundlegender Bedeutung ist – mehr dazu später.
Über die Durchbrüche im Bereich des Reinforcement Learnings wurde in öffentlichen Medien ausführlich berichtet. Dadurch wurden selbst Personen, die keine KI-Experten sind, auf die Go-spielende KI aufmerksam. Immerhin war es eine erstaunliche Leistung: KI schlägt Menschen in Spielen, für deren Beherrschung diese jahrelanges Training benötigen. Die KI trainiert hingegen nur wenige Wochen.
Der Moment, als generative KI zum ersten Mal die Aufmerksamkeit der breiteren Öffentlichkeit bekam, ereignete sich dann einige Jahre später. Es geschah, als bilderzeugende KI erstmals fotorealistische Bilder produzieren konnte. Um das zu schaffen, beschrieben Nutzer, was sie auf einem Bild sehen wollten – die KI verwandelte ihre Worte nur wenige Sekunden später in ein Bild mit genau diesem Inhalt.
Dies verdeutlicht bereits, warum dieser Durchbruch so viel Aufmerksamkeit erregte: Man muss kein IT-Experte sein, um Sätze in Umgangssprache zu formulieren. Solange sich jemand darum kümmert, das KI-Modell mit einer guten Benutzeroberfläche über das Internet bereitzustellen, kann es jeder nutzen. Früher war das anders: Nur IT-Experten waren imstande, mit generativer KI Bilder zu erzeugen.
Im Januar 2021 veröffentlichte OpenAI die erste Version ihres DALL-E-Produkts,9 das Benutzern ermöglichte, Bilder auf die oben erwähnte Weise zu erstellen. Etwa ein Jahr später folgten eine zunehmende Anzahl vergleichbarer Dienste von anderen Anbietern – einige als kostenpflichtige Dienste (wie Midjourney), andere als kostenlose Open-Source-Software (wie Stable Diffusion).
Um Bilder zu erstellen, muss die KI zunächst die Bedeutung der Sätze verstehen, mit denen die Nutzer beschreiben, was sie auf den Fotos sehen wollen. Erst danach kann sie ihre „Magie“ wirken lassen, um ein entsprechendes Bild zu erstellen. Die erheblichen Fortschritte beim Verständnis menschlicher Sprache durch Maschinen haben deshalb die Entwicklung von Bildgeneratoren maßgeblich mitgeprägt.
Die Verarbeitung von Sprache ist seit langer Zeit ein wichtiger Bereich der KI-Forschung. Menschen interagieren in schriftlicher oder gesprochener Form auf unterschiedliche Weise miteinander. Maschinen, die verstehen, was wir schreiben und sagen, ermöglichen dadurch viele interessante Möglichkeiten.
Ein wesentlicher Bestandteil des Umgangs mit menschlicher Sprache sind sogenannte Sprachmodelle. Diese Modelle beschreiben, wie unsere Sprache aufgebaut ist.
Das klingt immer noch sehr abstrakt – steigen wir also etwas tiefer in die Materie ein. Vor dem Jahr 2010 basierte der übliche Ansatz für Sprachmodelle auf Statistiken. Wenn Sie sich einen unvollständigen Satz ansehen, welche sind die wahrscheinlichsten nächsten Wörter, um ihn zu vervollständigen? Nehmen wir zum Beispiel an, Sie haben einen Satz, der mit „Dieser Morgen war toll, weil“ beginnt. Um ihn fortzusetzen, könnten die wahrscheinlichen nächsten Wörter, die Sinn ergeben, „ich“, „wir“, „mein Freund“ oder einige weitere Substantive sein. Die Fortsetzung des Satzes mit „Dieser Morgen war toll, weil hallo“ ergibt hingegen keinen Sinn – unabhängig davon, wie sich der Satz weiter fortsetzt.
Solche früheren Sprachmodelle funktionieren folgendermaßen: Bei der Eingabe von „Dieser Morgen war toll, weil“ hat das Wort „ich“ eine viel höhere Wahrscheinlichkeit, das nächste Wort in diesem Satz zu sein, als beispielsweise „hallo“. Was Sinn ergibt oder nicht, lässt sich daher aus Statistiken ableiten.
Wie werden solche Statistiken erarbeitet? Nehmen Sie eine große Menge an Texten zur Hand. Aus diesen lassen Sie einen Computer alle Abfolgen von zwei aufeinanderfolgenden Wörtern herausschreiben (alternativ auch Abfolgen von drei, vier oder mehr Wörtern). Anschließend zählt der Computer durch, wie oft jede einzelne dieser Abfolgen in den Texten vorgekommen ist. Wenn Sie dies für eine Vielzahl von Texten durchführen, erhalten Sie aussagekräftige Statistiken, mit denen Sie die nächsten Wörter in einem Satz vorhersagen können. Das ergibt Ihr Sprachmodell.
Ein früher Anwendungsfall für solche einfache Sprachmodelle ist beispielsweise die Funktion zur automatischen Vervollständigung von Text beim Tippen von SMS auf Ihrem Smartphone. Für diesen Zweck muss die automatische Vervollständigung kein tieferes Verständnis des Inhalts haben, den Sie gerade schreiben. Es genügt schon die Vorhersage des nächsten Wortes mit einer vernünftigen Wahrscheinlichkeit.
Für viele Anwendungen greift dieser Ansatz allerdings zu kurz. Wie Sie wissen, ist Sprache mehr als nur eine Aneinanderreihung von Wörtern. Wörter und Sätze tragen eine Bedeutung, die dabei jeweils vom Kontext abhängt, in dem sie verwendet werden. Die Sätze „Das ist super“ und „Das ist hervorragend“ haben beispielsweise die gleiche Bedeutung, sodass die Wörter „super“ und „hervorragend“ hier austauschbar sind. In anderen Zusammenhängen kann das Wort „hervorragend“ jedoch im Sinne von „etwas ragt hervor“ verwendet werden, was einer völlig anderen Bedeutung entspricht.
Um Sprache einen Sinn zu verleihen, dürfen wir uns also nicht mit der Verwendung von Wörtern begnügen. Stattdessen müssen wir die Bedeutung hinter den Wörtern auf eine abstraktere Ebene bringen. Dies geschieht, indem wir einzelne Wörter eines Textes in Darstellungen ihrer tieferen Bedeutung einbetten. Diese Idee hat die Forschung mit verschiedenen Ansätzen weiterverfolgt.
Einer der bemerkenswertesten Fortschritte auf diesem Forschungsgebiet führte zur Erfindung dessen, was wir heute als Aufmerksamkeitsmechanismus10 kennen.
Schauen Sie sich die Sätze an, die Sie gerade lesen. Sie bauen aufeinander auf. Einige Sätze würden für Sie wenig Sinn ergeben, wenn Sie sie allein lesen würden – Sie müssen den Kontext von ein paar Seiten zuvor kennen, um die Aussagen wirklich zu verstehen. Auch ist nicht jedes Wort in einem Satz gleich wichtig, um ihn zu verstehen. Füllwörter wie „auch“ machen einen Text zwar lesbarer, sind für sein Verständnis aber oftmals nicht relevant.
Damit Sprachmodelle die Bedeutung dessen, was wir sagen und schreiben, besser erfassen können, müssen wir also ihre Aufmerksamkeit steuern. An dieser Stelle kommt der Aufmerksamkeitsmechanismus ins Spiel.
Im Grunde ist dieser ein Mittel, um dem KI-Modell mitzuteilen, a) welche Wörter am relevantesten sind und b) welche Wörter im Hinblick auf die Gesamtbedeutung irgendwie miteinander verknüpft sind.
Lassen Sie uns den letzten Teil präzisieren. Nehmen wir an, ein Sprachmodell verarbeitet den folgenden Text:
Das Tier hat die Straße nicht überquert. Das liegt daran, dass es zu müde war.
In diesem Satz verweist das Wort „es“ zurück auf „Tier“. Beide Wörter stehen in diesem kleinen Textstück für ein und dasselbe Objekt. Der Aufmerksamkeitsmechanismus hilft daher der KI, diese Verbindung zu erkennen. Für uns mag das offensichtlich klingen – diese Verbindung zu verdeutlichen steigert die Leistungsfähigkeit von Sprachmodellen aber deutlich.
Ein zweites Beispiel: Die Bedeutungen der Wörter „es“ und „müde“ stehen in einem direkten Zusammenhang. Die Phrase „Das liegt daran“ hingegen trägt zum Verständnis des Satzes nur wenig bei. Dementsprechend muss die KI bei der Verarbeitung des Wortes „es“ die Wörter, die ebenfalls relevant sind, stärker berücksichtigen. Diejenigen, die es nicht sind, filtert sie heraus.
Dieses Beispiel soll verdeutlichen, wie wichtig der Aufmerksamkeitsmechanismus ist. Er ermöglicht es dem Sprachmodell, Wörter als zusammenhängende Einheiten zu verarbeiten, anstatt jedes Wort isoliert zu betrachten.
Praktische Anwendungen für diesen Ansatz waren Übersetzungslösungen. Die Qualität dieser Übersetzer hat sich mit dem Aufkommen des Aufmerksamkeitsmechanismus deutlich verbessert. Das ergibt Sinn, wenn Sie darüber nachdenken. Während frühere Sprachmodelle den Text als eine statistische Abfolge von Wörtern behandeln, erfassen neuere Sprachmodelle besser die Struktur hinter einem Satz, aus der sich die Bedeutung erschließt.
Wenn Sie diesen Absatz aus dem Deutschen ins Englische (oder eine andere Sprache) übersetzen – würden Sie ihn wortwörtlich übersetzen? Oder würden Sie nicht zuerst seine Bedeutung erfassen, bevor Sie ihn übersetzen und niederschreiben? Es gibt viele weitere Anwendungen für dieses Konzept außerhalb der Übersetzung, die wir in späteren Kapiteln ausführlicher behandeln.
Der große Durchbruch bei der Erfindung des Aufmerksamkeitsmechanismus erfolgte im Sommer 2017, als Forscher von Google den Artikel „Attention Is All You Need“ veröffentlichten.11 Neben der Einführung des Aufmerksamkeitsmechanismus stellten die Autoren zudem die sogenannte Transformer-Architektur vor.12
Auf die genaue Funktionsweise der Transformer werden wir im nächsten Kapitel näher eingehen. Für den Moment reicht es zu wissen, dass die Transformer diejenigen Komponenten in einem KI-Modell sind, die den zuvor beschriebenen Aufmerksamkeitsmechanismus technisch umsetzen. Mit ihrer Hilfe kann die KI den Kontext und die Bedeutung in Texten besser erfassen als KI, die auf älteren Ansätzen basiert.
Sie sind bis heute ein wichtiger Baustein der künstlichen Intelligenz, ihre Konzepte werden bis heute genutzt. Wir finden sie in beliebten Anwendungen wie ChatGPT, wobei GPT als Abkürzung für „generative pre-trained transformer“ steht. GPT ist generativ, weil es neuen Text erzeugt. Es ist vortrainiert, weil die zugrunde liegende KI auf Daten trainiert wurde. Und es nutzt transformer-basierte Ansätze.
Wir haben mehrere Konzepte besprochen, die in den letzten Jahren die Eckpfeiler des Fortschritts in der KI bildeten. Alle diese Konzepte sind bis heute relevant, da die generative KI auf ihnen aufbaut. Alle diese Konzepte werden wir deshalb im Laufe des Buches noch einmal aufgreifen.
In diesem Abschnitt werden folgende Konzepte erläutert: ein umfassender Prozess, wie KI-Modelle erstellt werden.
Wenn wir uns ansehen, wie Medien in den Monaten nach der Veröffentlichung von ChatGPT Ende 2022 über das Thema der generativen KI berichteten, gelangen wir leicht zu dem Schluss, dass damals etwas grundlegend Neues entstanden ist. Aus Sicht der IT-Produktentwickler betrachtet eröffneten sich durch die Verfügbarkeit von generativer KI tatsächlich neue Möglichkeiten. Aus der Sicht von KI-Experten handelte es sich indessen nur um die stetige Weiterentwicklung von Forschung, die seit vielen Jahren betrieben wird.
Grundsätzlich werden generative KI-Modelle noch immer durch dieselben Mechanismen hergestellt, welche die Entwicklung nicht-generativer KI lange vor 2022 ermöglichten. Daher macht es Sinn, wenn wir an dieser Stelle ein grobes Verständnis dieser Mechanismen und Prozesse aufbauen. Hierdurch wird uns klarer, wie KI lernt – und hoffentlich wird gleichzeitig die vermeintliche „Magie“ hinter KI ein wenig entmystifiziert. Den Prozess so zu erklären, dass Sie ihn selbst nachvollziehen können, würde weit über das hinausgehen, was ein einzelnes Buch leisten kann – das ist auch nicht unsere Absicht. Nach der Lektüre dieses Abschnitts sind Sie jedoch besser in der Lage, die Grenzen von KI zu erkennen und zu verstehen, wie diese neue Fähigkeiten erwirbt.
Wir durchlaufen den üblichen Prozess der Erstellung eines KI-Modells, von der ersten Idee bis zur produktiven Nutzung. Wir diskutieren hierbei nicht alle Details umfassend, sondern überspringen die hauptsächlich technisch geprägten Schritte. Das Ziel ist es, ein Verständnis für die entscheidenden Abläufe bei der Entwicklung von KI-Lösungen zu vermitteln.
Die folgende Grafik visualisiert diesen Prozess.
Um die Konzepte greifbarer zu machen, greifen wir dabei auf ein praxisnahes Anwendungsbeispiel zurück. In diesem durchlaufen wir verschiedene Herausforderungen, die sich uns stellen, wenn wir einen Webshop mit Warenlager betreiben würden.
Wie alle digitalen Lösungen muss auch KI ein echtes Problem der Nutzer oder der Fachbereiche eines Unternehmens lösen. Deshalb beginnt die Erstellung eines KI-Modells damit, eben jenes Problem zu verstehen und zu durchleuchten, welche Bedeutung es für die Nutzer genau hat. Erst wenn Fachbereiche und IT-Entwickler ein einheitliches Verständnis der Herausforderungen erreicht haben, überlegen wir uns mögliche Lösungen dafür.
Um dies zu verdeutlichen, führen wir ein Beispiel näher aus. Nehmen wir an, dass wir für ein Unternehmen mit einem großen Webshop arbeiten, das verschiedene Arten von Waren über das Internet verkauft. Wir besitzen ein großes Lager, in dem die Waren für eine kurze Zeit gelagert werden, bevor wir sie an unsere Kunden verschicken.
Unsere Kollegen stehen nun vor dem Problem, dass sie nur schwer vorhersagen können, wie viel von jeder Ware sie im Lager vorrätig halten sollen. Haben wir zu wenig auf Vorrat, verzögern sich die Lieferzeiten für unsere Kunden. Haben wir zu viel, kostet uns die unnötig große Lagerhaltung Geld.
Was würden Sie tun? Um die Situation genauer zu verstehen, könnten Sie fragen, wie die Situation bisher gehandhabt wurde. Wie genau sind die heutigen Vorhersagen? Wie werden diese Vorhersagen erstellt? Gibt es Waren, für die die Vorhersagen viel exakter sind als für andere? Welche Daten verwenden wir für die Berechnung der Vorhersagen? Gibt es noch weitere bisher ungenutzte Datenquellen? Welche unterschiedlichen Kundensegmente beliefern wir mit unserem Webshop? Wie gut verstehen wir die Kaufpräferenzen der Kunden in jedem Segment? Und so vieles mehr.
Sie merken bereits, wie schnell eine scheinbar einfache Herausforderung in eine Vielzahl verschiedener Fragen zerfällt.
Unterschätzen Sie außerdem nicht die „Sprachbarrieren“ zwischen den Mitarbeitern der Fachabteilung und den Entwicklern, die hier beteiligt sind. Während die Herausforderung für die Fachabteilung offensichtlich erscheinen mag, fehlt den Entwicklern der Kontext aus ihrer täglichen Arbeit.
Vielleicht nutzen wir bereits eine erste Software, die zur Prognose der benötigten Warenmengen herangezogen wird. In diesem Fall kann es gut sein, dass die Entwickler hinter dieser Software noch nie persönlich mit den Mitarbeitern der Lagerhaltung gesprochen haben. Deswegen kennen sie alle kleinen Unzulänglichkeiten gar nicht, mit denen die Benutzer ihrer Software ihre Zeit verbringen. Des Weiteren verwenden Entwickler bei ihrer Arbeit andere Ausdrücke und Formulierungen als die Fach-Mitarbeiter. Ein Satz von der einen Seite wird von anderen Kollegen möglicherweise ganz unterschiedlich interpretiert.
All diese Aspekte bergen die Gefahr, dass IT-Lösungen nicht auf die tatsächlichen Herausforderungen der Kunden abgestimmt sind – nicht nur, wenn KI im Spiel ist.
Der Punkt ist: Um eine KI zu entwickeln, die gute Arbeit leistet, müssen wir die Herausforderung so konkret wie möglich ausformulieren. Wenn ein Kollege das Problem, das er lösen soll, nicht erklären kann, sollten wir nicht erwarten, dass er hilfreiche Lösungen dafür erarbeitet.
KI braucht Daten, um zu funktionieren. Aber nicht nur irgendwelche – ihr Inhalt muss relevant und qualitativ hochwertig sein. Das heißt insbesondere, dass keine falschen Informationen enthalten sein dürfen. Vollständigkeit ist hierbei genauso wichtig. wenn Ihre Daten beispielsweise nur das Verhalten von Kunden unter 35 Jahren abdecken, wird jede KI-Lösung unseres Webshops nur schlechte Aussagen über die älteren Kunden treffen.
Als Außenstehender ist es schwer zu beurteilen, ob bestimmte Informationen für die Erstellung einer KI gut geeignet sind. Und dennoch ist es sehr wichtig, die Daten, die für eine KI genutzt wurden, genau zu kennen. Nur mit diesem Wissen können wir erfassen, in welchen Situationen sie verlässliche Vorhersagen trifft und in welchen nicht.
Zurück zu unserem Beispiel, um diese Gedanken zu veranschaulichen. Wir entwickeln weiterhin eine KI, die Bestellungen für unseren Webshop vorhersagt. Dafür nutzen wir Daten darüber, welche Artikel unsere Kunden beim Durchstöbern unserer Website angeklickt haben.
Diese Informationen helfen uns sicherlich weiter. Aber die genauen Aussagen, die wir mit ihrer Hilfe treffen können, sind lediglich: Welche Artikel interessierten welche Kunden? Relevanter wären Informationen, die uns zeigen, was Kunden am Ende tatsächlich bestellt haben. Das heißt nicht, dass die erste Art von Daten nicht relevant wäre – im Gegenteil. Dennoch müssen wir nach weiterem Material suchen, das uns der Antwort auf die eigentliche Fragestellung näherbringen.
Wir können bei vielen Gelegenheiten lesen, wie entscheidend es für die KI ist, dass wir so viele Daten wie möglich sammeln. Die großen Technologieunternehmen haben in diesem Zusammenhang einen Vorteil: Jedes von ihnen hat Millionen, wenn nicht sogar Milliarden, an Nutzern. Durch diese haben sie Zugang zu Nutzerdaten in einem Ausmaß, mit dem kleinere Wettbewerber nicht mithalten können. Es liegt auf der Hand: Je größer die Datenbasis ist, desto mehr Verhaltensmuster Ihrer Kunden fließen in die Daten ein, die letztlich Ihre KI antreiben.
Doch Größe ist nicht alles, Qualität und Relevanz sind genauso wichtig. KI spiegelt immer das wider, was in ihren Trainingsdaten enthalten ist. Wenn Sie KI mit falschen Informationen füttern, laufen Sie Gefahr, dass Ihre Lösung am Ende auch falsche Vorhersagen trifft. Aus diesem Grund ist der Zugang zu riesigen Datenmengen zwar grundsätzlich hilfreich – solange Sie nicht wissen, welche falschen Informationen darin enthalten sind, kann ihre Nutzung aber nach hinten losgehen.
Ein Datensatz, der zwar kleiner ist, aber dafür keine falschen Aussagen enthält, liefert hingegen bessere Ergebnisse. Im Kontext der generativen KI behandeln wir diesen Punkt in einem späteren Kapitel ausführlicher.
Die wichtigsten Erkenntnisse hierzu sind: Daten sind für die Entwicklung von KI entscheidend. Wir müssen sie mit großer Sorgfalt auswählen und aufbereiten. Daher nimmt allein ihre Aufbereitung bei vielen Projekten bis zu 80 % der Zeit in Anspruch. Die Datenmenge ist wichtig, aber ihre Qualität, Relevanz und Vollständigkeit für Ihr Problem sind es ebenfalls.
Die Schritte zur Auswahl der richtigen Art von KI und zum Durchführen des eigentlichen Trainings sind sehr technischer Natur. Aus diesem Grund besprechen wir sie nicht im Detail. Aber in aller Kürze: KI-Entwickler erstellen Systeme, die Muster und Korrelationen aus Daten so extrahieren, dass sie auf neue Daten angewandt werden können.
Nehmen Sie beispielsweise an, Sie haben Kundendaten zusammengetragen und aufbereitet. Diese enthalten das gesammelte Wissen darüber, welche Kunden aus welchen Kundensegmenten bislang Produkt X bei Ihnen gekauft haben. Aus den Mustern dieser Datenpunkte können Sie (bzw. Ihre KI) ableiten, wie wahrscheinlich es ist, dass ein neuer Kunde morgen genau jenes Produkt kaufen wird.
Wie gut schlägt sich diese KI dann in der Realität? Ganz am Anfang des Prozesses sind wir damit gestartet, die Probleme genau zu verstehen und so konkret wie möglich auszuformulieren. Hierbei kann es passieren, dass ein wichtiger Gesichtspunkt zu stark vereinfacht wird oder wir einen Aspekt komplett übersehen. Deshalb müssen wir jede KI in der Praxis testen und herausfinden, wie gut ihre Vorhersagen im echten Leben sind.
Zum Trainieren der KI verwenden wir nicht das gesamte Trainingsmaterial, das uns vorliegt. Stattdessen halten wir einen kleinen Teil zurück (z.B. 20 %) – diese nennen wir Testdaten. Der verbleibende Großteil dient als Trainingsdaten. Während diese der KI beibringen, was für Muster und Korrelationen sie lernen muss, überprüfen wir anhand der Testdaten, wie gut sie dabei abschneidet. Es ist letztendlich wie in der Schule: Wir bekommen über mehrere Unterrichtsstunden hinweg etwas beigebracht, und am Ende prüft der Lehrer in einer Prüfung, wie gut wir die Inhalte verstehen.
Es ist normal, dass sich KI in Praxistests zunächst noch eher schlecht schlägt. Gerade deshalb ist es so wichtig, die Genauigkeit von KI-Modellen regelmäßig zu überprüfen. Hierdurch identifizieren wir die Fälle, in denen sie mit ihren Vorhersagen besonders weit danebenliegt. Im Anschluss gilt es herauszufinden, was der Grund für die schlechten Vorhersagen ist. Dies ermöglicht uns, die Ursachen zu beheben. Im Laufe der Zeit gelangen wir damit an einen Punkt, an dem die KI so gut wird, dass sie für uns echten Mehrwert schafft.
Ein spezifisches (Geschäfts-)Problem setzt den Rahmen, in dem eine KI Leistung erbringen muss. In diesem Zusammenhang bestimmen Daten, wie gut eine KI tatsächlich wird. Je besser Sie die Problemstellung verstehen, desto zielgerichteter können Sie Ihre Informationen nutzen und gute KI-Modelle erstellen. Die Kenntnis der Daten, auf denen eine KI trainiert wurde, verschafft Ihnen außerdem ein besseres Gefühl dafür, was eine KI zu leisten imstande ist.
In diesem Abschnitt werden folgende Konzepte erläutert: Wie Daten und die Datenverarbeitung die Qualität einer KI beeinflussen.
Im Folgenden untersuchen wir entscheidende Aspekte zur Rolle von Daten eingehender.
Was genau kann eine KI so viel besser aus digitalen Inhalten machen als wir Menschen? Eine kurze Antwort lautet: Sie ist sehr gut darin, Muster und Zusammenhänge in den Daten zu erkennen. Und sie ist in der Lage, dies in großem Umfang zu tun.
Diese Fähigkeit, Muster zu erfassen, sollten wir nicht dahingehend fehlinterpretieren, als ob die KI wirklich intelligent wäre und „wüsste“, was sie betrachtet. Um diese Aussage besser zu verstehen, müssen wir etwas tiefer in das Thema eintauchen.
Erinnern Sie sich an das Thema Computer Vision aus dem ersten Abschnitt? Ein Beispiel, das ich dort anführe, ist eine KI, der zahlreiche Bilder mit Tieren gezeigt werden. Anhand dieser Bilder lernt die KI, wie man Katzen, Hunde und andere Tiere voneinander unterscheidet. Zu diesem Zweck identifizieren leistungsstarke KI-Modelle immer komplexere Strukturen in den Bildern – beginnend mit einfachen geometrischen Formen wie Kanten und Kreisen.
Wenn sie dann bestimmte Strukturen auf einem Bild wahrnimmt (z. B. spitze Ohren, die zusammen mit einer kleinen Nase oder einem langen Schwanz auftreten), schließt die KI daraus, dass eine Katze auf dem Bild zu sehen ist. Sie macht Muster im Bild aus, die immer dann vorhanden sind, wenn eine Katze erscheint.
Dasselbe Verhalten gilt auch für Sprachmodelle. Als Menschen lernen wir das Sprechen schon als Babys. Wir lernen, Sätze zu bilden, die einer korrekten Grammatik folgen und eine Bedeutung haben. Bei künstlicher Intelligenz liegt die Sache anders: Ihr wird beigebracht, das jeweils nächste Wort vorherzusagen, das einen Text am ehesten fortsetzt. Sie lernt keine grammatikalischen Regeln in der Schule. Niemand erklärt ihr, ob ein Satz im Kontext der Diskussion Sinn ergibt. Wir geben ihr viele Texte, aus denen sie lernt, wie das Auftreten aller Wörter miteinander zusammenhängt.
Es ist faszinierend zu sehen, wie sich diese sehr grundlegende Eigenschaft in der Art und Weise widerspiegelt, wie wir heute große Sprachmodelle nutzen. Es beginnt beim Erkennen von Mustern in Texten und endet in der Fähigkeit, lange Texte zu überprüfen, unsere Fragen zu beantworten und vielem mehr. Wir widmen dem gesamten nächsten Kapitel eine genauere Betrachtung dieses Themas. Für den Moment ist der wichtigste Aspekt: KI ist sehr gut im Erfassen von Mustern und Zusammenhängen in Daten.
KI-Lösungen sind nicht nur gut darin, Muster zu erkennen – sie erledigen dies auch in großem Umfang. Das liegt daran, dass sie auf Computern laufen, die Inhalte (in Form von Bits und Bytes) viel schneller verarbeiten als wir Menschen.
Allerdings können sie nur das tun, wofür sie ursprünglich programmiert wurden. Und nichts anderes. Das soll die Faszination für die KI nicht schmälern. Wir sehen jeden Tag, wie die KI uns Dinge ermöglicht, die vor ein paar Jahren noch als unmöglich erschienen. Um die Grenzen der KI zu verstehen, sollten wir uns jedoch vor Augen führen, dass sie nur leisten kann, wofür sie entwickelt wurde. Auch wenn sie dies in rasender Geschwindigkeit und mit einer riesigen Datenmenge erledigt, so kann sie ihren Anwendungsbereich nicht von selbst erweitern.
Aber halt. Anhand unseres Beispiels des Webshops hatten wir diskutiert, dass KI mit Nutzerdaten trainiert wird und schließlich auf die Daten neuer Kunden angewendet wird, um deren zukünftiges Verhalten vorherzusagen. Die KI hat also ihren Anwendungsbereich auf das Verhalten neuer, bisher unbekannter Kunden ausgeweitet. Oder etwa nicht?
Soweit stimmt das. Und dennoch sollten wir sie nur in dem Bereich anwenden, für den wir sie entwickelt haben. Wenn sie hauptsächlich auf dem Verhalten von Kunden unter 35 Jahren trainiert wurde, würde sie im Kontext älterer Kunden versagen. Falls Sie nur Daten europäischer Kunden zur Verfügung haben, kann es sein, dass Ihr KI-Modell bei Ihren amerikanischen Kunden eine schlechte Leistung zeigt. Der Punkt ist: Für jedes KI-Modell müssen Sie den Kontext und den Umfang kennen, in dem Sie es sinnvoll einsetzen können.
Auch in unserem eigenen Alltag kann sich der Kontext verändern. Denken Sie über Ihr eigenes Verhalten nach – kaufen Sie noch immer dieselben Dinge auf dieselbe Weise wie vor zehn Jahren ein? Höchstwahrscheinlich nicht. Persönliches Verhalten und Vorlieben ändern sich. Nicht nur bei einzelnen Personen, sondern bei ganzen Gesellschaften und Kundengruppen. Eine KI, die vor einem Jahr gut funktionierte, könnte sich heute schlechter verhalten, weil Ihre Kunden ihr Verhalten geändert haben. Fachleute nennen dieses Phänomen Modelldrift. Es bedeutet, dass sich die Qualität von KI-Modellen im Laufe der Zeit verschlechtert, weil sich der Kontext, in dem sie trainiert wurden, verändert.13
KI-Modelle sind Maschinen, die sich durch das Erkennen komplexer Muster auszeichnen, welche sie aus Daten erlernen. Dabei gehen sie sehr effizient vor. Allerdings sind ihre Fähigkeiten an diejenigen Muster gebunden, die sie aus den Trainingsdaten lernen.
Aber genug der Theorie über Muster in den Daten. Lassen Sie uns konkret werden und darüber sprechen, was das alles genau für die generative KI bedeutet.
Nun, da wir besser verstehen, was künstliche Intelligenz ist und woher sie kommt: Was genau macht KI zu generativer KI? Die subtile Antwort lautet: Sie generiert neue Inhalte.
Während wir „klassische“ KI meist zur Vorhersage14 oder Klassifizierung15 von Daten verwenden, wird generative KI als mehr wahrgenommen. Als Beispiel können Sie ein Sprachmodell auffordern, eine Gute-Nacht-Geschichte für Ihre Kinder über ein bestimmtes Thema zu verfassen. Daraufhin generiert es für Sie einen neuen Text, den es so noch nicht gegeben hat. Es hat also nicht einfach nur neue Datenpunkte vorhergesagt oder klassifiziert – es hat einen kompletten Inhalt verfasst.
Aber es geht hier um mehr als nur die reine Erstellung neuer Texte und Bilder. In diesem und im nächsten Kapitel tauchen wir tiefer in die Möglichkeiten ein, die generative KI bietet. Wir beginnen mit dem Schwerpunkt auf Texten. Das nächste Kapitel behandelt anschließend das Erstellen von Bildern.
Wie bereits im ersten Kapitel werde ich die Zusammenhänge erklären, ohne zu tief in technische Details einzutauchen. Dies wird dabei helfen, die Chancen und Grenzen von generativer KI besser zu verstehen.
In diesem Kapitel erläutere ich zunächst, wie große Sprachmodelle funktionieren, wie man sie erstellt und wodurch sie für uns nützlich werden. Dieses Hintergrundwissen macht die relevanten Konzepte greifbar und dient uns als Grundlage für die Diskussion vielversprechender Anwendungsfälle. Anschließend zeige ich auf, welche Rolle die Größe von Sprachmodellen spielt.
In diesem Abschnitt werden folgende Konzepte erläutert: die wichtigsten Aspekte und Komponenten, die Sprachmodelle ermöglichen, sowie eine vereinfachte Erklärung, warum LLMs so gut funktionieren.
Wenn wir heute über generative KI sprechen, beziehen wir uns oft auf sogenannte große Sprachmodelle (LLMs).16 Aber was genau macht ein Sprachmodell „groß“, und warum ist das überhaupt wichtig?
Sie verdanken ihren Namen zwei Aspekten: der enormen Menge an Daten, mit der sie trainiert werden, und der enormen Anzahl an Parametern. Betrachten wir eines der bekanntesten LLMs, GPT-3.5 von OpenAI, um diese Aussage besser zu verstehen.
GPT-3.5 wurde mit einem Datensatz aus unterschiedlichsten Texten trainiert, darunter Websites, Bücher, Artikel und Beiträge in sozialen Medien. Der genaue Umfang wurde nie öffentlich gemacht, aber Schätzungen gehen von etwa 225 Milliarden Wörtern aus. Diese große Menge an Daten deckt ein breites Spektrum an Themen, Stilen und Formaten ab. Sie bildet die Grundlage, aus der das KI-Modell lernt, kohärente Texte über nahezu alle Themen zu verfassen.
Die Größe eines LLMs wird in der Regel an der Anzahl seiner Parameter gemessen. Einen Parameter kann man sich hierbei als „Schalter“ vorstellen, den das Modell richtig einstellen lernt. Je mehr Schalter ein Modell besitzt, desto mächtiger ist es.
Um ein konkretes Beispiel zu nennen: GPT-3 besteht aus 175 Milliarden Parametern. Sein Vorgänger, GPT-2, hatte lediglich 1,5 Milliarden Parameter – zum Zeitpunkt seiner Veröffentlichung im Jahr 2019 galt dies noch als sehr groß. Die Nachfolger-Version, GPT-4, wiederum wurde im Jahr 2023 veröffentlicht und umfasst schätzungsweise 1,8 Billionen Parameter. Dies zeigt uns, wie schnell die Sprachmodelle in nur vier Jahren gewachsen sind.
Aber nicht nur die Anzahl der Modellparameter nahm zu, sondern auch die Menge der Texte, mit denen sie trainiert wurden. Aus etwa 10 Milliarden Wörtern zum Training von GPT-2 wurden 225 Milliarden Wörter für GPT-3. Bei GPT-4 waren es dann bereits geschätzte 10 Billionen Wörter.
Diese Zahlen klingen riesig – und das sind sie auch. Um sie in Relation zu setzen: Die Artikel der englischen Version von Wikipedia enthalten rund 3,9 Milliarden Wörter (Stand Dezember 2023). Ein durchschnittlicher Erwachsener bräuchte etwa 30 Jahre, um jede einzelne Wikipedia-Seite zu lesen – wenn er 24 Stunden am Tag und 7 Tage die Woche nichts anderes macht.17
Modell-Version
Jahr der Erstellung
Anzahl der Parameter
Trainingsdaten, im Vergleich zum englischen Wikipedia
GPT-2
2019
1,5 Milliarden
2,5 * Wikipedia
GPT-3
2021
175 Milliarden
58 * Wikipedia
GPT-4
2023
1 800 Milliarden
2 500 * Wikipedia
Es besteht ein direkter Zusammenhang zwischen der Größe des Modells und der Menge an Texten, die für deren Training erforderlich sind. Je mehr Parameter in einem Modell stecken, desto aufwändiger ist es, diese während des Trainings gut aufeinander abzustimmen. Und genau jene Abstimmung benötigt ausreichend Daten.
Unter Technologie-Firmen führt diese Beziehung zu einer Art Wettrüsten. Unternehmen und Forscher arbeiten fortlaufend daran, die KI-Modelle immer weiter wachsen zu lassen. Und damit nimmt auch ihr Hunger nach mehr Trainingsdaten zu.
Allerdings stößt dieses Skalierungsverhalten an seine Grenzen. Dies liegt daran, dass die meisten der im Internet verfügbaren Daten bereits zum Trainieren von LLMs verwendet wurden. Es gibt kaum noch neue Texte mit unbekanntem Inhalt, die zusätzlich erschlossen werden könnten.18 Doch auf genau solche neuen Inhalte sind die Firmen angewiesen.19 Infolgedessen steigen die Entwicklungskosten für KI. Große Investitionen in neue, größere Sprachmodelle lassen sich infolgedessen immer schwerer rechtfertigen.
Dies bedeutet aber nicht, dass wir bereits das Ende ihrer Entwicklung erreicht haben. Es gibt noch mehr Ansätze jenseits von „bigger-is-better“ – diese besprechen wir in Abschnitt 2.6 ausführlicher.
Wie erzeugt ein LLM neuen Text? Lassen Sie uns die wichtigsten technischen Aspekte durchgehen, um den Vorgang besser zu begreifen.
Betrachten wir zunächst den folgenden kurzen Satz: „Heute Morgen bin ich aufgewacht, als mein“. Auf diesen wenden wir ein LLM an – wir wählen dafür das Modell GPT-2 von OpenAI. Spätere Modelle wie GPT-3, GPT-4 oder Modelle anderer Entwickler sind zwar im Verhalten komplexer. Die grundlegenden Konzepte sind jedoch stets dieselben. Für unseren Zweck genügt daher die Diskussion des GPT-2-Modells.
Wenden wir also das LLM auf unseren Beispielsatz an. Als Ergebnis erhalten wir das Wort, das statistisch gesehen am wahrscheinlichsten diesen Satz fortsetzt. In unserem Fall ist es „Telefon“.
Wie macht GPT-2 das? Es führt diese Schritte nacheinander aus:
Einbetten:
Jedes einzelne Wort des Textes wird in eine abstraktere, mathematische Darstellung eingebettet.
Fokussieren:
Das LLM versteht den Text besser, indem es erkennt, wie die Wörter zueinander in Beziehung stehen und welche von ihnen relevant sind.
Nutzung neuronaler Netzwerke:
Die mathematischen Darstellungen der Wörter werden in neue, bessere Darstellungen übertragen.
Vorhersagen:
Aus diesen Darstellungen berechnet das LLM das Wort, welches mit größter Wahrscheinlichkeit den Satz fortsetzt.
Vermutlich klingt das momentan noch sehr abstrakt für Sie. Lassen Sie uns also alle Schritte im Detail beleuchten.
Jedes Sprachmodell arbeitet mit einem Grundvokabular an Wörtern – im Fall von GPT-2 sind es etwa 50.000. Für jedes Wort prüft die KI, an welcher Position es im Vokabular steht. Anschließend nutzt sie diese Zahlen anstatt der Wörter. Dieser Punkt ist wichtig: LLMs besitzen kein echtes Verständnis davon, was Wörter sind – in ihrem Kern arbeiten sie ausschließlich mit Zahlen.
Wir haben im ersten Kapitel besprochen, dass die Bedeutung von Wörtern von Ihrem Kontext abhängt. Gleichzeitig können aber auch unterschiedliche Wörter dasselbe bedeuten. Und genau darum geht es uns schließlich, wenn wir einen Text lesen: Wir wollen die Bedeutung hinter den Wörtern begreifen und weniger die Wörter an sich verstehen.
Konsequenterweise wird jedes Wort unseres Beispielsatzes (genauer gesagt: die Zahlen, welche seine Wörter darstellen) in eine abstraktere mathematische Darstellung aus Vektoren übersetzt. Während jede Zahl noch für ein einzelnes Wort steht, erfassen die Vektoren bereits ihre Bedeutung.
Was sind Vektoren? Wie bereits erwähnt, arbeiten Computer nicht mit Worten, sondern mit Zahlen. Dabei speichern Computer jede Information als Zahl ab. Große Mengen an Informationen werden entsprechend als lange Abfolge von Zahlen ausgedrückt. Vektoren sind genau das – lange Abfolgen von Zahlen, die Informationen darstellen.
Den Prozess, in dem Wörter zuerst in Zahlen (als Positionen im Vokabular) und anschließend in Vektoren übersetzt werden, nennen wir Einbetten.
Anschließend wendet die KI den sogenannten Aufmerksamkeits-Mechanismus auf die abstrakten Darstellungen der Wörter an (welche durch Vektoren dargestellt werden). Als kurze Wiederholung aus Kapitel 1: Um zu verstehen, was ein Wort innerhalb des gesamten Textes bedeutet, müssen wir wissen, wie die Wörter zueinander in Beziehung stehen. Für die KI erledigt dies der Aufmerksamkeits-Mechanismus. Er entscheidet, auf welche Wörter sie ihre Aufmerksamkeit richten soll, um die Bedeutung eines Wortes richtig zu erfassen.
Nutzen wir unseren Beispielsatz, um dies zu verdeutlichen: „Heute Morgen bin ich aufgewacht, als mein“. In welchem Verhältnis steht das letzte Wort des Textes – „mein“ – zu den anderen Wörtern? Der Aufmerksamkeits-Mechanismus in GPT-2 berechnet eine Relevanz von 47 % für das erste Wort „Heute“, eine Relevanz von 10 % für das zweite Wort „Morgen“, und so weiter.
Alle sieben Wörter haben also eine gewisse Relevanz, um die Bedeutung des Wortes „mein“ richtig zu erfassen. Aus diesem Grund mischt die KI diese Wörter nun miteinander, um die Bedeutung des Wortes darzustellen.
Genauer gesagt: Die Vektor-Darstellung des letzten Wortes „mein“ wird durch eine Summe aller Vektoren ersetzt, gewichtet nach ihrer jeweiligen Relevanz. Zur Erinnerung: Wir wollen nicht jedes Wort als eigenständige Einheit behandeln, sondern im Kontext aller anderen Wörter. Je wichtiger ein Wort ist (entsprechend der Aufmerksamkeit, die ihm entgegengebracht wird), desto mehr trägt es zur Summe der Wörter bei.
Intuitiv ergibt das Sinn. Wenn Sie als Mensch den gegebenen Satz fortsetzen, betrachten Sie nicht nur das letzte Wort des Satzes, sondern alle Wörter. Sie berücksichtigen den Kontext und die Bedeutung des gesamten Satzes. Und genau das geschieht hier: Das „Mischen“ der Wörter ermöglicht es der KI, den Kontext des gesamten Satzes zu verstehen.
Der Aufmerksamkeits-Mechanismus wird nicht nur einmal, sondern insgesamt zwölfmal angewandt. Die Relevanz der Wörter zueinander wird hierbei allerdings für jeden Aufmerksamkeitsblock anders berechnet. Der zugrunde liegende Mechanismus bleibt derselbe, aber jeder Block ist darauf optimiert, eine andere Art von Kontext und Bedeutung im Text zu erfassen.
Die Ergebnisse dieser zwölf Blöcke werden dann gemeinsam in ein neuronales Netzwerk eingespeist. Diese Netzwerke haben wir in Kapitel 1, im Abschnitt über Deep Learning, vorgestellt.
Was macht ein neuronales Netzwerk genau? Es nimmt die Daten, die in das Netzwerk eingespeist werden, verarbeitet sie durch eine Vielzahl mathematischer Berechnungen und gibt neue Daten aus. Diese Daten bilden eine neue abstrakte, mathematische Darstellung der Wörter im Satz.
Was haben wir mit diesem Schritt erreicht? Wir haben nicht einfach nur eine abstrakte Darstellung durch eine andere ersetzt. Wir haben eine bessere Darstellung erarbeitet, welche der wahren Bedeutung hinter den Wörtern eher gerecht wird.
Veranschaulichen wir das mit einer Analogie. Neuronale Netzwerke sind davon inspiriert, wie unser menschliches Gehirn Informationen verarbeitet.20 Wie nehmen wir selbst die Welt um uns herum durch unsere eigenen Augen wahr? Im ersten Schritt fällt Licht aus unserer Umgebung auf die Netzhaut unserer Augen. In dieser Netzhaut befinden sich Millionen von Zellen, die in der Lage sind, Licht in verschiedenen Farben zu erkennen.
Zu diesem Zeitpunkt sind die Farbpunkte jedoch nur viele einzelne, voneinander unabhängige Informationen. Deshalb leiten unsere Augen diese Informationen über Nervenzellen an unser Gehirn weiter. Erst wenn sie den Teil des Gehirns, der visuelle Informationen verarbeitet, erreichen, beginnen wir, diesen Farbpunkten einen Sinn zu geben.
Die Netzwerke aus Nervenzellen sind darauf optimiert, aus den Farbpunkten auf Objekte zu schließen – wir sehen zum Beispiel, dass wir direkt vor einem Tisch stehen, oder dass die Pflanze neben uns grüne Blätter hat, usw. Viele einzelne Datenpunkte, die für sich genommen für uns keine Bedeutung hatten, werden durch die neuronalen Netzwerke in unserem Gehirn in Informationen umgewandelt.
Die neuronalen Netzwerke in unserem KI-Modell erfüllen dieselbe Aufgabe. Die Informationen, welche die vorangehenden Blöcke des Aufmerksamkeits-Mechanismus verlassen, sind eine Ansammlung einzelner Informationen ohne große Bedeutung. Sie müssen erst noch zu etwas Sinnvollem verknüpft werden. Genauso wie unser Gehirn die Farbpunkte unserer Augen in Informationen über die Welt um uns herum verwandelt, so verarbeiten die neuronalen Netzwerke zusammenhangslose Daten aus Texten in aussagekräftige Informationen.
