19,90 €
Kompakte und intelligente Einführung ins Prompting und in LLMs - Verstehen, wie Large Language Models »denken« und sprechen - Mit Best Practices und grundlegenden Strategien effektiv prompten - Mit fortgeschrittenen Prompting-Techniken wie Systemprompts, benutzerdefinierten GPTs und Meta-Prompting zum Profi werden - Mit externen Tools Prompts schneller schreiben und besser verwalten - Praxis-Beispiele aus der IT: vom Codieren über Architekturüberlegungen bis zur automatisierten Dokumentation Prompting – klingt einfach, hat es aber in sich. Wer Large Language Models wie ChatGPT, Claude oder Gemini treffsicher und effizient einsetzen will, braucht mehr als nur gute Fragen. Dieses kompakte Buch erklärt, wie Sprachmodelle »denken«, wie Prompts aufgebaut sein sollten – und wie sich mit Strategie, praktischem Know-how und den passenden Tools deutlich bessere Ergebnisse erzielen lassen. Ob Sie neu einsteigen oder Ihr Prompting verbessern möchten: Hier finden Sie fundiertes Wissen, klare Anleitungen und zahlreiche Praxistipps. - Verstehen, wie Sprachmodelle funktionieren und wie man mit ihnen kommuniziert - Best Practices für wirksame Prompts – praxisnah, präzise und auf den Anwendungsfall zugeschnitten - Tools, Workflows und Chatbot-Features für produktiveres Arbeiten - Praxisbeispiele aus der IT: von Code über Dokumentation bis Architektur - Fortgeschrittene Techniken: Systemprompts, benutzerdefinierte GPTs, Meta-Prompting - Rechtliches: Datenschutz, Urheber- und Nutzungsrechte im Blick behalten - Mit umfangreichen Cheatsheets
Das E-Book können Sie in Legimi-Apps oder einer beliebigen App lesen, die das folgende Format unterstützen:
Seitenzahl: 339
Veröffentlichungsjahr: 2025
Dieses E-Book ist urheberrechtlich geschützt. Mit dem Erwerb des E-Books haben Sie sich verpflichtet, die Urheberrechte anzuerkennen und einzuhalten. Sie sind berechtigt, dieses E-Book für persönliche Zwecke zu nutzen. Sie dürfen es auch ausdrucken und kopieren, aber auch dies nur für den persönlichen Gebrauch. Die Weitergabe einer elektronischen oder gedruckten Kopie an Dritte ist dagegen nicht erlaubt, weder ganz noch in Teilen. Und auch nicht eine Veröffentlichung im Internet oder in einem Firmennetzwerk.
Das vorliegende Werk ist in all seinen Teilen urheberrechtlich geschützt. Alle Nutzungs- und Verwertungsrechte liegen bei den Autor*innen und beim Rheinwerk Verlag, insbesondere das Recht der Vervielfältigung und Verbreitung, sei es in gedruckter oder in elektronischer Form.
© Rheinwerk Verlag GmbH, Bonn 2026
Sie sind berechtigt, dieses E-Book ausschließlich für persönliche Zwecke zu nutzen. Insbesondere sind Sie berechtigt, das E-Book für Ihren eigenen Gebrauch auszudrucken oder eine Kopie herzustellen, sofern Sie diese Kopie auf einem von Ihnen alleine und persönlich genutzten Endgerät speichern. Zu anderen oder weitergehenden Nutzungen und Verwertungen sind Sie nicht berechtigt.
So ist es insbesondere unzulässig, eine elektronische oder gedruckte Kopie an Dritte weiterzugeben. Unzulässig und nicht erlaubt ist des Weiteren, das E-Book im Internet, in Intranets oder auf andere Weise zu verbreiten oder Dritten zur Verfügung zu stellen. Eine öffentliche Wiedergabe oder sonstige Weiterveröffentlichung und jegliche den persönlichen Gebrauch übersteigende Vervielfältigung des E-Books ist ausdrücklich untersagt. Das vorstehend Gesagte gilt nicht nur für das E-Book insgesamt, sondern auch für seine Teile (z. B. Grafiken, Fotos, Tabellen, Textabschnitte).
Urheberrechtsvermerke, Markenzeichen und andere Rechtsvorbehalte dürfen aus dem E-Book nicht entfernt werden.
Die automatisierte Analyse des Werkes, um daraus Informationen insbesondere über Muster, Trends und Korrelationen gemäß § 44b UrhG (»Text und Data Mining«) zu gewinnen, ist untersagt.
Die in diesem Werk wiedergegebenen Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. können auch ohne besondere Kennzeichnung Marken sein und als solche den gesetzlichen Bestimmungen unterliegen.
Ungeachtet der Sorgfalt, die auf die Erstellung von Text, Abbildungen und Programmen verwendet wurde, können weder Verlag noch Autor*innen, Herausgeber*innen oder Übersetzer*innen für mögliche Fehler und deren Folgen eine juristische Verantwortung oder irgendeine Haftung übernehmen.
Jens Olaf Koch
Wir hoffen, dass Sie Freude an diesem Buch haben und sich Ihre Erwartungen erfüllen. Falls Sie Anregungen, Wünsche und Kommentare haben, lassen Sie es uns wissen: [email protected].
Informationen zu unserem Verlag und Kontaktmöglichkeiten finden Sie auf unserer Verlagswebsite www.dpunkt.de. Dort können Sie sich auch umfassend über unser aktuelles Programm informieren und unsere Bücher und E-Books bestellen.
Autor: Jens Olaf Koch
Lektorat: Ariane Hesse
Fachliche Unterstützung: Ulrike Schröder, TNG Technology Consulting
Buchmanagement: Friederike Demmig
Copy-Editing: Sibylle Feldmann, www.richtiger-text.de
Satz: III-satz, www.drei-satz.de
Herstellung: Stefanie Weidner
Covergestaltung: Karen Montgomery, Michael Oréal, www.oreal.de
Das vorliegende Werk ist in all seinen Teilen urheberrechtlich geschützt. Alle Rechte vorbehalten, insbesondere das Recht der Übersetzung, des Vortrags, der Reproduktion, der Vervielfältigung auf fotomechanischen oder anderen Wegen und der Speicherung in elektronischen Medien.
Ungeachtet der Sorgfalt, die auf die Erstellung von Text, Abbildungen und Programmen verwendet wurde, können weder Verlag noch Autor*innen, Herausgeber*innen oder Übersetzer*innen für mögliche Fehler und deren Folgen eine juristische Verantwortung oder irgendeine Haftung übernehmen.
Die in diesem Werk wiedergegebenen Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. können auch ohne besondere Kennzeichnung Marken sein und als solche den gesetzlichen Bestimmungen unterliegen.
Die automatisierte Analyse des Werkes, um daraus Informationen insbesondere über Muster, Trends und Korrelationen gemäß §44b UrhG (»Text und Data Mining«) zu gewinnen, ist untersagt.
Bibliografische Information der Deutschen Nationalbibliothek:
Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.dnb.de abrufbar.
ISBN Print: 978-3-96009-264-3
ISBN PDF: 978-3-96010-898-6
ISBN ePub: 978-3-96010-899-3
1. Auflage 2026
Dieses Buch erscheint in Kooperation mit O’Reilly Media, Inc. unter dem Imprint »O’REILLY«. O’REILLY ist ein Markenzeichen und eine eingetragene Marke von O’Reilly Media, Inc. und wird mit Einwilligung des Eigentümers verwendet.
© Rheinwerk Verlag, Bonn 2026
Rheinwerk Verlag GmbH • Rheinwerkallee 4 • 53227 Bonn
Vorwort
Hinweise
1
Einführung
Prompting – eine Annäherung
Prompt? Kenn ich doch!
Prompten? Kann ich doch!
Eine erste Definition
Kontext – im Dienste des Prompts
Verschiedene Arten von Kontext
Kontextfenster
Tokens
Sprachmodelle – eine kompakte Theorie
Was ist ein LLM?
Ein anderer Blickwinkel
Wie kommt die Sprache ins Modell?
Nähe zwischen Wörtern
Embeddings, Dimensionen und Vektorraum
König und Königin sind wie
Attention please!
Generativ, pre-trained, Transformer: GPT
Und wie kommt Sprache heraus?
LLM: eine zweite Definition
Chatbots – die Anwendungsschicht
Das Zusammenspiel ist entscheidend
Exkurs: KIs halluzinieren immer, nicht nur manchmal!
2
Prompting-Basics
Aufbau eines Prompts
Instructions
Constraints
Best Practices
Klar und präzise formulieren und schrittweise verbessern
Die W-Fragen
Genau sein, aber nicht zu päpstlich!
Komplexe Fragen aufteilen
Suggestive Prompts vermeiden
Genug Kontext bereitstellen
Modell um Hilfe bitten
Was könnte ich dich fragen?
Nichtwissen zulassen
Sinnabschnitte kennzeichnen
Kritisches Nachfragen: »Stimmt das (wirklich)?«
Explizit suchen lassen
Experimentelles Nachprüfen
Im Notfall neuen Chat beginnen
»4K«-Merksatz
Typische Fehler
Anweisung ist zu vage
Nötiger Kontext fehlt
Prompt ist überladen
Irrglaube, dass sofort alles »sitzen muss«
Beispielbasiertes Arbeiten
Zero-Shot-Prompting
Few-Shot-Prompting
Alternative: Informationen schrittweise bereitstellen
One-Shot-Prompting
Feinjustierungen im Prompt
Darstellung und Präsentation
Ausgabeformat
Thematische Einschränkungen
Prozedurales Vorgehen
3
Fortgeschrittene Techniken und Tools
Typische Chatbot-Features
Individuelle Anpassung
Erinnerungsfunktionen
(Total) Recall: Schöne neue Welt?
KI-Arbeitsflächen: Canvas, Artifacts & Co
Projekte
Deep Research
Prompts und Chats teilen
Rollen, Personas und benutzerdefinierte Chatbots
Eigene Chatbots: GPTs und Gems
GPT-Beispiel 1: Eine »Lektorin«
Der Persona-Prompt der Lektorin
GPT-Beispiel 2: Ein Coding-Assistant
GPTs, Gems und Projects im Teamkontext
Reasoning: Denkprozesse steuern
Was ist Reasoning?
Chain-of-Thought: in Schritten denken lassen
Reasoning-Modelle
Beispiel: o1 beim Denken zuschauen
Prompting bei Reasoning-Modellen
Playgrounds, Sampling und Hyperparameter
Der Playground von OpenAI
Hyperparameter und Sampling
Auswirkungen unterschiedlicher Temperatureinstellungen
Model Hubs: gebündelter Modellzugang
OpenRouter: schnelle Vergleichstests
TypingMind: Fokus auf Benutzeroberfläche
Artificial Analysis: LLMs im direkten Leistungsvergleich
Meta-Prompting
Prompts per Prompt erstellen
Claudes Prompt-Generator
PromptPerfect: Prompts optimieren lassen
Reverse Prompt Engineering
Mit Tools besser prompten
Prompts modular zusammensetzen: Espanso
Browsererweiterung: Superpower ChatGPT
Prompt-Templates und -Chains
Per Stimme prompten auf dem Desktop
Prompt-Bibliotheken nutzen
Prompts archivieren
Versehentlich gelöschte Chats fortsetzen
Prompten für Bild-KIs
Midjourney-Beispiel 1: Futuristische Stadtansicht
Midjourney-Beispiel 2: Hyperrealistisches Porträt
In Englisch prompten
Meta-Prompting bei Bild-KIs
Image-Prompts aufheben
Kreative Strategien und Methoden
Höflich sein: Hilft!?
Multimodales Arbeiten: Screenshots per OCR auswerten
Interna zur Arbeitsweise der KIs erfragen
Spielerische Übungen
Grenzen, Schwächen, Stolperfallen
Der Strawberry-Test
Seltsame Mindmaps
Wenn man ein LLM beim Rätseln (nicht mehr) schlägt
Der, die, das: Maus oder Sesamstraße?
Promptosophie
Zwei KIs diskutieren lassen
Alignment: Keine Leitplanke ist vollkommen sicher
ChatGPT als Antiverschwörungstheoretiker
Machen Agenten das Prompten überflüssig?
Sind wir alle nur Prompts?
4
Einsatzgebiete im IT-Umfeld
Allgemeine Beispiele
Energiesparendes Prompten
Passwörter generieren
Hardwarefragen per Foto lösen
LLMs als Text-Allrounder: von Korrektur bis Datenextraktion
Programmierung und Entwicklung
Kollaborativ programmieren im Chatbot
Kollaborativ programmieren per IDE
Reguläre Ausdrücke
HTML zu CSV konvertieren
Da capo: Reverse Engineering
Dateien verschmelzen
Fehlermeldungen prompten
Rubber Duck Debugging, Legacy Code und Grenzfälle
Dokumentation, Übersetzung, Lokalisierung, SEO
Softwaredokumentation: codenah
Softwaredokumentation: funktional
Firmeninterne Terminologie berücksichtigen
Aus vorhandenen Wissensquellen schöpfen
Lokalisierung mit kultureller Adaption
SEO: Suchmaschinenoptimierung
LLMs im Projektalltag
Softwarearchitektur diskutieren
Meeting-Notizen strukturieren und zusammenfassen
(Fragwürdiges) Brainstorming zu Projektnamen
Rollenspiel: Architekt trifft Hacker
Onboarding von Teammitgliedern
Analyse und Visualisierung von Daten
Explorative Datenanalyse
Visuelle Darstellung von Daten
5
Rechtliche Rahmenbedingungen und Risiken
Datenschutz
Nutzungsbedingungen prüfen
Datenschutz durch Reinforcement Learning
Urheber- und Nutzungsrechte
Urheberrecht beachten bei KI-Input
Urheberrecht am KI-Output
Urheberrechtsverletzung durch KI-Output
Nutzungsrechte
Sind Prompts geschützt?
Weitergabe von Falschinformationen
Wasserzeichen
Kennzeichnungspflicht
Prompt-Injection
Prompt-Leaking
Beispiel: Abruf des Systemprompts von ChatGPT-4o
Jailbreaking
Token-Smuggling
Das ewige Ringen um Sicherheit
Anhang
Cheatsheet: Leitprinzipien für effektives Prompting
Cheatsheet: Fortgeschrittene Techniken und Tools
Cheatsheet: Risiken beim Prompting
Index
Seitdem Ende November 2022 ChatGPT, der KI-Chatbot von OpenAI, öffentlich zugänglich wurde, ist das Buzzword Prompting – auch Prompten und Prompt Engineering – in aller Munde.
Jeder, der schon einmal mit einem KI-Chatbot gearbeitet hat, kennt Prompting und hat selbst bereits Prompts geschrieben oder gesprochen – was ja nichts anderes heißt, als einem Sprachmodell in natürlicher Sprache mitzuteilen, was genau man von ihm will.
Die Betonung liegt hier auf einem ganz bestimmten Wort: genau! Wie man Prompts möglichst zielgerichtet formuliert, ist eines der Themen in diesem Buch.
Wir prompten, um ein gewünschtes Ergebnis zu erhalten. Ob eine KI aber tatsächlich unser Wunschergebnis ausspuckt, hängt von weiteren Faktoren ab. Da kommt zunächst der sogenannte Kontext ins Spiel: all das, was eine KI aus dem Prompt und weiteren, vom Benutzer bereitgestellten Informationen an Zusammenhang und Bedeutung ableiten kann.
Ein weiterer Faktor sind die Eigenschaften des benutzten Sprachmodells: Wie gut sind seine Trainingsdaten? Wie schnell ist es? Wie groß ist sein Kontextfenster? Welche Fähigkeiten hat es? »Denkt« es genau genug? Und wie ist es um die Faktentreue und Halluzinationen bestellt?
Dieser Dreiklang von Prompt, Kontext und Modell entscheidet am Ende über die Qualität der Ergebnisse.
Um besser zu verstehen, was man von einem Sprachmodell erwarten darf und was nicht, ist es hilfreich, eine grundlegende Vorstellung von der inneren Welt eines Sprachmodells zu entwickeln. Dort geht es statistisch zu, es wird mit Wahrscheinlichkeiten und Vektoren operiert, damit wir mit der KI reden können. Wie genau das funktioniert, schauen wir uns an. Und untersuchen weitergehende Fragen: Wie merkt sich ein Modell eigentlich, was in einem Chat schon gesagt wurde? Kann man den Grad der »Wahrscheinlichkeit« einer Antwort steuern? Was ist ein Wortvektorraum?
Neben den Grundkonzepten des Promptens finden Sie in diesem Buch auch viele praktische Einsatzbeispiele aus der IT-Welt. Diese Beispiele sollen zeigen, wie man Prompts formulieren kann, und Sie vor allem dazu inspirieren, grundlegende Prinzipien in Ihrer eigenen Prompt-Praxis einzusetzen.
Außerdem werden Sie eine Reihe von fortgeschrittenen Techniken, Kniffen und Tricks kennenlernen, um – mit oft sehr einfachen Mitteln – die erzielten Ergebnisse zu verbessern. Daneben stelle ich Ihnen einige Tools vor, die das Prompten und die Verwaltung von Prompts erleichtern.
Prompting kann Spaß machen – und Sie dürfen es gerne spielerisch angehen. Um das bisweilen etwas trockene Thema aufzulockern, teile ich gelegentlich die eine oder andere Anekdote aus dem Prompting-Alltag.
Dreierlei ist dieses Buch nicht: Es ist weder die x-te Geschichte zum maschinellen Lernen oder zur künstlichen Intelligenz, noch ist es eine Prompt-Sammlung. Und aufgrund der rasanten Entwicklung auf diesem Gebiet wird es niemals topaktuell sein.
Schon während der Arbeit an diesem Buch hat sich so viel verändert, dass ich der Entwicklung immer ein Stück hinterherjagen musste. Glücklicherweise ist Prompten eine Grundtechnik, die weitgehend modellunabhängig funktioniert. Ob Sie sich nun mit GPT-5 unterhalten oder einem Vorgängermodell wie GPT-4o oder GPT-4.1, mit Claude 3.5 oder 4 oder Gemini 2.5, spielt »promptologisch« keine große Rolle.
Allerdings nehmen die Fähigkeiten der Modelle immer weiter zu, sodass Antworten auf in diesem Buch gezeigte Prompts oder beschriebene Aufgabenstellungen schon viel smarter ausfallen könnten, wenn Sie sie mit dem neuesten Flaggschiffmodell eines großen Anbieters ausprobieren.
Viel Spaß beim Lesen – und Prompten!
Und sollte Ihnen etwas auffallen, das Ihrer Meinung nach unbedingt hätte erwähnt werden sollen, freue ich mich über eine Nachricht an [email protected].
Jens Olaf Koch
Im Oktober 2025
Dieses Buch richtet sich an alle, die mehr über Prompting – und sämtliche Aspekte, die die erzielbaren Ergebnisse beeinflussen oder die Arbeit mit Prompts erleichtern – erfahren möchten. Dabei setzte ich kein spezielles Fachwissen voraus, gehe aber davon aus, dass Sie sich grundsätzlich für IT-Themen interessieren. In diesem Fall ist dieses Buch für Sie geeignet, unabhängig davon, ob Sie noch keine, erst wenige oder schon sehr umfangreiche Erfahrungen im Umgang mit KI-Sprachmodellen haben.
Wir starten in Kapitel 1 mit einigen grundlegenden Konzepten, definieren den Begriff Kontext genauer und gehen auf die innere Repräsentation und Verarbeitung von Sprache und Wissen in Sprach-KIs ein.
In Kapitel 2 geht es um die Prompt-Praxis: Wir zerlegen Prompts in ihre logischen Bestandteile, schauen uns einige Best Practices an und klären weiterführende Begriffe.
Kapitel 3 widmet sich fortgeschrittenen Techniken und unterstützenden Tools.
In Kapitel 4 sehen wir uns einige typische Einsatzgebiete im IT-Umfeld an – von der Softwareentwicklung über Dokumentation und Lokalisierung bis hin zu den Arbeiten, die im Projektalltag anfallen, wie etwa das Onboarding neuer Teammitglieder.
In Kapitel 5 geht es um mögliche Risiken beim Prompten – speziell, was Datenschutz und Nutzungsrechte angeht.
Prompting funktioniert im Prinzip bei allen Sprachmodellen gleich. Deshalb ist es nicht entscheidend, mit welchem Modell oder Chatbot Sie arbeiten. Unterstützende Features, die das Prompten in Chatbots erleichtern oder effektiver gestalten, können sich aber von Anbieter zu Anbieter unterscheiden.
Manche der besprochenen Funktionen stehen nur in bezahlten Abonnements zur Verfügung. Da die Chatbots immer neue Features bekommen, die kostenlosen Versionen oft aufgewertet werden und sich zudem die Benutzeroberflächen in hoher Frequenz verändern, wird nicht in jedem Einzelfall darauf hingewiesen, dass bestimmte Funktionen in den kostenlosen Versionen nicht angeboten werden. Hinweise auf konkrete Versionen von Sprachmodellen, mit denen einzelne Beispiele durchgeführt wurden, dienen nur der Transparenz. Die grundlegenden Prinzipien ändern sich nicht, wenn Sie mit anderen oder neueren Versionen arbeiten.
Die Beispiele in diesem Buch stammen aus Chats mit unterschiedlichen Sprachmodellen in unterschiedlichen Chatbots. Aufgrund seiner aktuell unangefochtenen Führungsposition hinsichtlich der Nutzerzahlen kommt der Marktführer ChatGPT von OpenAI dabei besonders häufig zum Einsatz. Aber Sie werden auch den KI-Chatbots Claude von Anthropic und Gemini von Google begegnen. Die verwendeten Abbildungen beziehen sich in der Regel auf die Browserversionen der Chatbots.
Dass der Chatbot Grok von Elon Musks Firma xAI nicht behandelt wird, ist eine bewusste Entscheidung, weil man bei den eingesetzten Modellen immer damit rechnen muss, dass sie plötzlich die teils absurde Gedankenwelt des Firmenchefs reproduzieren.
Gut zu wissen: Jede Antwort ist anders
Wundern Sie sich nicht, falls Sie Beispielprompts aus diesem Buch in einem Chatbot ausprobieren: Die Antworten, die Sie erhalten, werden in der Regel immer von denjenigen aus den Beispielen abweichen – mal weniger, mal deutlich. Das hat vor allem zwei Gründe: Einerseits greifen bei der Generierung der Antworten Zufallsprozesse – auch bei der Wiederholung von Prompts im selben Chatbot. Außerdem werden die standardmäßig verwendeten Modelle ständig verbessert oder durch neuere Modelle ersetzt.
Um zielgerichtet prompten zu können, braucht man eine genaue Vorstellung davon, was man erreichen will und wie das gewünschte Ergebnis aussehen soll. Erarbeitet man sich diese Ergebnisse aber grundsätzlich nicht mehr selbst, verlernt man nach einiger Zeit möglicherweise, wie man selbst zu diesem Ergebnis kommt. Erste Studien (etwa arxiv.org/pdf/2506.08872v1) deuten z.B. darauf hin, dass Probanden, die einen Text erst ohne und dann mit KI schrieben, deutlich stärkere neuronale Aktivität zeigten als jene, die von Beginn an KI nutzten – außerdem wurden die Teilnehmenden im Studienverlauf fauler und überarbeiteten die KI-Entwürfe immer seltener.
Nicht nur Autofahrerinnen und Autofahrer kennen den Effekt, der sich durch die ständige Nutzung eines Navis einstellt. Und fast jeder kennt das seltsame Gefühl, das aufkommt, wenn man einmal sein Handy vergessen hat. Und wer weiß, vielleicht machen Menschen in einigen Jahrzehnten überhaupt keinen Führerschein mehr und lassen sich lieber ihr ganzes Leben lang vollautomatisch durch die Welt chauffieren.
Wer eine Fähigkeit nicht trainiert, verlernt sie. In diesem Buch geht es darum, Fähigkeiten im Umgang mit KI zu verbessern. Aber delegieren Sie nicht alles an eine KI. Behalten Sie immer den gedanklichen Überblick. Setzen Sie sich selbst immer wieder ans Steuer. Sonst lernen Sie in diesem Buch am Ende etwas, das dazu führt, dass Sie langfristig verlernen, was Sie früher konnten.
Dem Liedermacher Wolf Biermann wird die Umdichtung eines alten biblischen Spruchs zugeschrieben: »Wer sich nicht in Gefahr begibt, der kommt drin um.« Was KIs angeht, kann man das getrost umformulieren: »Wer es sich zu einfach macht, der kommt drin um.«
In diesem ersten Kapitel des Buchs legen wir die Grundlagen für ein tieferes Verständnis von Sprachmodellen und ihrer Funktionsweise. Wir beginnen mit einer Einführung in den Begriff des Promptings und widmen uns anschließend intensiv der Frage, was genau Kontext ist und wie dessen Inhalte durch Tokenisierung »in« ein Sprachmodell gelangen. Den Schwerpunkt dieses Kapitels bildet entsprechend eine kompakte Theorie der Sprachmodelle, die erklärt, wie LLMs Sprache verstehen und erzeugen – und welche Konsequenzen sich daraus ergeben, etwa im Hinblick auf die oft diskutierten Halluzinationen.
Seit dem kometenhaften Aufstieg von Chatbots wie ChatGPT, Claude und Gemini kennen wir alle das ständige Wechselspiel zwischen unseren Fragen bzw. Anweisungen an Sprachmodelle und den Antworten einer KI. Und in Windeseile hat sich das entsprechende Vokabular verbreitet. Überall wird nun von großen Sprachmodellen bzw. LLMs, den Large Language Models, und von generativer KI gesprochen.
Und fast immer geht es dabei auch um Prompts: Sofort wurde der neuartige Beruf des Prompt Engineer gehypt, mit dem man angeblich Unsummen würde verdienen können. Klingt ja auch hochkompliziert, weil Engineering drinsteckt: das Ingenieurwesen, der Maschinenbau.
Im Titel dieses Buchs heißt es aber schlicht: Prompting. Schauen wir uns den Begriff ein bisschen genauer an.
Wer (wie ich) schon ein wenig länger in der IT-Branche unterwegs ist, kannte den Begriff des Prompts schon lange vor ChatGPT & Co. Befragt man Wikipedia, bekommt man als ersten Satz eine klassische Definition geliefert:
Als englisch prompt wird in der IT eine Aufforderung an den Benutzer bezeichnet, eine Eingabe (input) zu tätigen.
Mir sind Prompts erstmals zu Beginn des PC-Zeitalters in den 1980er-Jahren begegnet. Damals begann die grafische Benutzeroberfläche Windows gerade ihren Siegeszug. Windows selbst steckte aber noch in solch niedlichen Kinderschuhen, dass die meisten Computerfreaks ihre Tage und Nächte am sogenannten DOS-Prompt verbrachten, um kryptische Befehle wie etwa CHKDSK C: /F /V /R /X /I /C einzugeben (siehe Abbildung 1.1) – hier einen Befehl, um die Integrität eines Laufwerks bzw. einer Partition zu überprüfen.
Abbildung
1.1
: Befehlseingabe an einem Prompt in einem Terminalfenster
Ein Prompt war in diesem Zusammenhang nur das Signal an die Benutzenden, irgendetwas einzugeben, also eine Eingabeaufforderung bzw. ein Aufforderungszeichen. (Das englische Verb to prompt bedeutet ja in erster Linie auffordern.)
In Terminalfenstern – auch Kommandozeile oder CLI (Command Line Interface) genannt – in Windows, macOS oder Linux arbeiten heute überwiegend Entwicklerinnen und Entwickler. Die meisten User kommen mit den klassischen Betriebssystemprompts kaum noch in Kontakt. Und viele Benutzer wissen vermutlich gar nicht mehr, dass in den Terminals Prompts auf sie warten.
Am Prompt, der Eingabeaufforderung eines Chatbots, geben wir eine Aufforderung an ein KI-Modell ein, eine bestimmte Aufgabe auszuführen oder Fragen zu beantworten, und bezeichnen diese Eingabe zu Recht ebenfalls als Prompt: Wir prompten Prompts an Prompts (siehe Abbildung 1.2). Für diejenigen, die mit Sprachmodellen arbeiten, sind Prompts heutzutage in erster Linie die Texte, die man an eine KI sendet.
Abbildung
1.2
: Eingabe eines Prompts (einer Anweisung) an einem Prompt (einer Eingabeaufforderung) in ChatGPT
Eine weitere Bedeutung des englischen Verbs to prompt lautet soufflieren. Im Verlauf des Buchs werden Sie feststellen, dass wir den KIs (am und) im Prompt tatsächlich manchmal soufflieren müssen – so wie es früher die Souffleusen und Souffleure im Theater gemacht haben, wenn Schauspieler ihren Text vergessen hatten. Auch LLMs vergessen gern mal, »wo sie gerade sind«. Bei KIs sprechen wir dann davon, dass »der Kontext verloren gegangen« ist …
Nebenbei: Der Teleprompter
Eine wörtliche Übersetzung des Begriffs Teleprompter, mit dem Texte für Rednerinnen oder Nachrichtensprecher in größerer Entfernung angezeigt werden, damit nicht vom Blatt gelesen werden muss, ist übrigens »Fernsouffleur«.
Der Duden verzeichnet unter »prompt« natürlich auch noch die Bedeutung »unverzüglich, unmittelbar (als Reaktion auf etwas) erfolgend«. Wie schön, dass die meisten LLMs schon nach wenigen Jahren der Weiterentwicklung so flott geworden sind, dass sie unsere Prompts tatsächlich prompt, also in Echtzeit, beantworten.
Der Prompt ist also ein IT-Begriff mit Geschichte, auch wenn er einige Jahre etwas in Vergessenheit geraten war.
Selbst wenn Sie noch nie mit einem Sprachmodell gearbeitet haben – gepromptet haben Sie bestimmt schon: Wer sich mit moderner Technik umgibt, promptet meist am laufenden Band. Wir sprechen mit Smartphones: »Ok Google«, »Hey Siri«. Oder mit Lautsprechern: »Alexa, …«. Auch in den Mobil-Apps von OpenAI, Google und Anthropic kommuniziert man zunehmend mündlich mit den Chatbots. Ob man in Schriftform oder mündlich promptet, spielt keine große Rolle. Für die mündliche Variante gibt es bisher allerdings kein eigenes Wort.
Da wir uns mit den Geräten und Apps – bzw. den KIs und LLMs, die sich dahinter verbergen – relativ normal unterhalten können, scheint Prompten also kinderleicht zu sein: Sprechen können wir als Menschen – sofern uns keine körperliche oder geistige Einschränkung daran hindert – schließlich alle.
Entscheidend ist jedoch, was »hinten rauskommt«: Erhalten wir die gewünschte Antwort? Wird eine Aufgabe korrekt und hilfreich gelöst? Da führt das gemeine Feld-, Wald- und Wiesen-Prompting nicht immer zum Erfolg.
Für den Zweck dieses Buchs möchte ich die Begriffe vorläufig so beschreiben:
Definition: Prompt und Prompten
Prompt bezeichnet einerseits die – oft grafisch gekennzeichnete – Eingabeaufforderung, etwa in Terminalfenstern (Windows, macOS, Linux etc.) oder in Chatbots (ChatGPT, Gemini etc.).
Zugleich wird der Text, den wir einer KI übermitteln, selbst als Prompt bezeichnet. Von dieser Bedeutung leiten sich die Begriffe Prompten und Prompting ab.
Dabei bezeichnet Prompten/Prompting sowohl den Vorgang, Prompts zu verfassen, als auch die Kunst, diese so zu formulieren, dass sie die gewünschten Ergebnisse oder Reaktionen der KI hervorbringen.
Oft ist auch die Rede vom Prompt Engineering. Manchmal wird dieser Begriff synonym verwendet, aber er hat eine etwas andere Bedeutung:
Definition: Prompt Engineering
Bei der Entwicklung von Anwendungen, die im Hintergrund auf Foundation Models wie ChatGPT oder Claude per Programmierschnittstelle (API) zugreifen, sind Formulierung und Zusammensetzung effektiver Prompts deutlich komplexer als bei der direkten Nutzung von Chatbots.
Dieser systematische Prozess der Entwicklung, Optimierung und Verfeinerung von Prompts für KI-Systeme wird als Prompt Engineering bezeichnet. Es geht über das einfache Prompting hinaus und umfasst Techniken wie das ausführliche Testen verschiedener Prompt-Varianten, die Analyse von Modellreaktionen und die kontinuierliche Verbesserung der Prompts basierend auf den Ergebnissen.
Neben dem Prompt spielt der sogenannte Kontext eine entscheidende Rolle für die Qualität der Ergebnisse, die ein Sprachmodell liefert.
Auch wir Menschen brauchen Kontext, um Dinge zu verstehen. Stellen Sie sich vor, Sie sitzen in einem Café und hören zufällig ein Gespräch am Nachbartisch. Sie schnappen Teile dieses Gesprächs auf, etwa »… und dann ist da noch die Sache mit der komischen Oper …« Ohne weitere Hintergrundinformationen verstehen Sie möglicherweise nicht sofort, worüber genau gesprochen wird. Geht es um eine Opernaufführung, die der Sprecher etwas komisch fand? Geht es um die Komische Oper Berlin?
Und wie verändert sich die Situation, wenn Sie berücksichtigen, dass Sie in einem Kölner Café sitzen, also in einer Stadt, die in ganz Deutschland dafür belächelt wird, dass die Sanierung des unter Denkmalschutz stehenden Opernhauses seit 2012 bereits fast so lange dauert wie die Fertigstellung des Berliner Flughafens? Haben Sie den spöttischen Tonfall des Gesprächs bemerkt? (Fragen Sie einmal einen Chatbot, aus welcher Stadt der Autor dieses Buchs stammt.)
Mithilfe unseres Allgemeinwissens – unseres »Trainings« – und möglicherweise besonderer Vorkenntnisse über Opern – einer Art »Feintuning« – verarbeiten wir Menschen solche kontextuellen Details, ohne es groß zu bemerken.
In Chats mit LLMs ist es ähnlich, nur dass wir den Kontext hier aktiv herstellen müssen. Wenn wir einem Modell »Hier regnet es gerade« mitteilen, weiß es nur dann, wo es gerade regnet, wenn wir es explizit erwähnen: »Hier in Düsseldorf regnet es gerade« (Apps, die Zugriff auf Standortdaten haben, einmal ausgeklammert).
In einem anekdotischen Test mit ChatGPT-4o konnte das Modell aus dem folgenden Prompt übrigens im ersten Anlauf nicht schließen, dass möglicherweise von der Sanierung der Kölner Oper die Rede ist:
Stell dir vor, du sitzt in einem Kölner Café und hörst Fetzen vom Nebentisch, “… und dann ist da noch die Sache mit dieser komischen Oper …”, wobei du einen ziemlich spöttischen Tonfall erkennst. Welche Schlüsse würdest du aus diesen kontextuellen Informationen ziehen?
Erst nach einem »Nachsetzen« meinerseits …
Hm, und wenn es sich auf die Sanierung bezieht?
… hat es geklappt. Hier die wesentlichen Abschnitte der Antwort:
Ah, wenn die Aussage “… die Sache mit dieser komischen Oper …” auf die Sanierung bezogen ist, verändert das die Interpretation ganz erheblich!
…
Hier ein paar mögliche Schlüsse:
–
Frust über langwierige Baumaßnahmen: …
–
Ironischer Kommentar zu Management und Kosten: …
–
Kritik an öffentlichen Investitionen in Kulturprojekte: …
–
Komisch im Sinne von absurd: …
Beim Kontext müssen wir also manchmal etwas nachhelfen, um einem Sprachmodell den richtigen Weg zu weisen. Aber wenn es erst einmal Witterung aufgenommen hat, kann es auch Ironie und Spott einordnen.
Zum Kontext gehören unter anderem alle Prompts und Antworten eines Chats, eventuelle Uploads von Dateien, Daten, die ein Modell innerhalb des Chats bzw. zur Beantwortung einer Frage oder Instruktion aus externen Quellen bezieht (Websuche, Datenbanken) sowie gegebenenfalls ganze Codebasen, die manuell oder automatisch im Prompt übergeben oder durch aktiven Zugriff des Modells abgerufen werden (siehe hierzu in Kapitel 3 »Rollen, Personas und benutzerdefinierte Chatbots«). Die KI kann zudem die Tonalität und Wortwahl Ihres Prompts bzw. des gesamten Chats analysieren. Auch das liefert ihr Kontextinformationen.
Über je mehr Kontext ein Modell verfügt, desto besser kann es korrekte und nuancierte Antworten generieren. Unsere Aufgabe als Nutzer besteht darin, zu überlegen und zu entscheiden, welchen Inhalt und welchen Umfang der Kontext haben muss. Wir wollen so wenig Kontext wie nötig liefern, um den zeitlichen und gedanklichen Aufwand für dessen Bereitstellung zu minimieren, aber genug, damit die Aufgabe mit möglichst wenigen Prompts erledigt werden kann.
Liefern Sie dem Modell also ausreichend Kontext, aber nicht überbordend oder irrelevant. Bei zu wenig Kontext bekommt ein Modell möglicherweise zu viel Interpretationsspielraum, überflüssiger Kontext lenkt ab. Beides kann zu Missverständnissen oder überflüssigen Nachfragen führen. Außerdem soll Kontext die Kreativität des Modells bei der Lösung einer Aufgabe geschickt in die gewünschte Richtung lenken. Ausreichender Kontext hilft dem Modell zudem dabei, Nuancen und implizite Bedeutungen besser zu erfassen.
Nebenbei: Zwerge und Kontext
Vom mittelalterlichen Philosophen Bernhard von Chartres stammt das Zitat:
Wir sind Zwerge, die auf den Schultern von Riesen stehen.
Damit verweist er darauf, dass unsere heutigen Erkenntnisse und erzielten Fortschritte auf dem Wissen und den Errungenschaften früherer Generationen aufbauen. Wenden wir dieses Bild auf das Thema dieses Buchs an, könnte man auch sagen:
Unsere Prompts stehen auf den Schultern des Kontexts.
Darüber hinaus gilt es beim Kontext zu unterscheiden, welchen Geltungsbereich er hat. Gibt es Dinge, die ein LLM immer beachten soll? Gibt es Informationen, die nur für ein bestimmtes Projekt oder eine bestimmte Domäne wichtig sind? Oder geht es um eher flüchtigen Kontext, der nur für den aktuellen Chat relevant ist? Die KI-Anbieter offerieren unterschiedliche Möglichkeiten, den LLMs diese Kontextarten bereitzustellen. Mehr dazu in »Rollen, Personas und benutzerdefinierte Chatbots« in Kapitel 3.
Ende 2022, zu Beginn des Hypes um ChatGPT, kamen die Modelle im Zuge einer Unterhaltung oft relativ schnell vom Thema ab und vergaßen wichtige Details aus dem bisherigen Gesprächsverlauf. Das lag meist an der zu geringen Größe des sogenannten Kontextfensters.
Dieser Begriff bezeichnet die maximale Menge an Informationen, die ein Sprachmodell gleichzeitig verarbeiten und nutzen kann, um Anfragen besser zu verstehen und Zusammenhänge herzustellen. Das Kontextfenster ist gewissermaßen das Arbeitsgedächtnis eines LLM.
Der Kontext erlaubt einem Modell, sinnvollere Verknüpfungen zwischen den einzelnen Informationen herzustellen und die Bedeutung einzelner Aussagen besser zu interpretieren. Geht der Kontext verloren, weil nicht mehr alle Informationen ins Kontextfenster passen, können die Antworten ungenau, unzusammenhängend oder sogar widersprüchlich werden.
Kontext wirkt sich indirekt auch auf das Prompting aus. Man könnte – etwas vereinfacht ausgedrückt – sagen: Je mehr Kontext vorliegt, desto unschärfer kann ein Prompt formuliert werden, weil der Kontext einem Modell hilft, besser zu verstehen, was wir meinen und wollen.
Die Größe des Kontextfensters wird üblicherweise in Tokens angegeben. Tokens sind die kleinsten Einheiten, in die Sprachmodelle Text zerlegen, und können einzelne Buchstaben, Satzzeichen, Silben oder einzelne Wörter umfassen. Aus Sicht eines LLM sind Tokens die kleinsten Bausteine, mit deren Hilfe Texte verstanden, codiert und generiert werden. Dazu im nächsten Abschnitt mehr.
Bei der Veröffentlichung von ChatGPT konnte das damals eingesetzte Modell GPT-3.5 maximal 4.096 Tokens gleichzeitig verarbeiten. Sobald Gespräche auf der Benutzeroberfläche eine Länge von etwa 3.000 Wörtern überschritten, bestand das Risiko, dass der Chatbot fehlerhafte oder thematisch abweichende Antworten generierte.
Im Vergleich zu den Vorgängermodellen GPT-1 und GPT-2 mit 512 und 1.024 Tokens war das bereits ein riesiger Fortschritt. Bei Redaktionsschluss dieses Buchs verfügte GPT-5 über ein Kontextfenster von 400.000 Tokens – das sind im Vergleich zu GPT-4o mit 128.000 Tokens mehr als doppelt so viele. Claude Sonnet 4 und Gemini 2.5 Pro bieten jeweils eine Million Tokens und nehmen damit aktuell die Spitzenposition ein. Damit sind Größenordnungen erreicht, bei denen längst ganze Buchinhalte und umfangreiche Datenbasen vollständig in ein Kontextfenster passen. Schon ein Umfang von 128.000 Tokens reicht ungefähr für ein 250-seitiges Buch.
Diese Angaben beziehen sich immer auf die Nutzung per API, also den programmgesteuerten Zugriff auf ein Modell. In Chatoberflächen arbeiten die Modelle häufig mit kleineren Kontextfenstern, unter anderem abhängig von der Implementierung und der aktuellen Auslastung durch Nutzeranfragen. Dennoch muss man sich auch in Chatbots über die Größe der Kontextfenster keine großen Gedanken mehr machen.
Man sollte allerdings im Hinterkopf behalten, dass mit zunehmend mehr Informationen gefüllte Kontextfenster auch die Rechenlast bei der Verarbeitung einer Anfrage erhöhen – und damit den Energie- und Wasserverbrauch. Verdoppelt man die Länge einer Eingabesequenz, wird für eine Anfrage etwa viermal mehr Speicher und Rechenleistung benötigt.
Gut zu wissen: Position im Kontextfenster beeinflusst Verständnis
Größere Kontextfenster verbessern die Performance von LLMs – bis zu einem gewissen Punkt. Eine Studie aus dem Jahr 2023 mit dem bezeichnenden Titel »Lost in the Middle: How Language Models Use Long Contexts« (arxiv.org/abs/2307.03172) beschreibt, dass die LLMs oft Informationen, die eher am Anfang oder am Ende des Kontextfensters stehen, besser finden, verstehen und berücksichtigen. Untersucht wurden allerdings heutzutage veraltete Modelle wie GPT-3.5 und Claude 1.3. Aber auch neuere Modelle zeigen laut verschiedenen Berichten das gleiche Verhalten.
Daraus ergibt sich folgender Tipp:
Tipp: Daten gegebenenfalls an den Anfang stellen
Falls Sie vorab wissen, dass Sie mit Ihren Prompts auf sehr lange Kontextinformationen zugreifen (sehr viele oder sehr lange Dokumente, Bücher oder Codebasen) und dass bestimmte Informationen besonders wichtig sind, könnte es also hilfreich sein, diese Daten an den Anfang zu stellen.
Übersteigt die Menge an Kontext die Größe des Kontextfensters, vergisst das Sprachmodell die ältesten Informationen. In diesem Fall kann es passieren, dass ein Modell inkohärente Antworten gibt, sich widerspricht oder den roten Faden verliert.
Um diesem Effekt entgegenzuwirken, gibt es unterschiedliche Ansätze: Beispielsweise können Memory-Management-Techniken so gestaltet werden, dass wichtige Inhalte mit speziellen Markierungen versehen werden, um sicherzustellen, dass sie im Kontext verbleiben. Beim Chunking zerlegt das Modell den Text in kleinere Abschnitte, die nach ihrer Relevanz priorisiert werden. Weniger wichtige Teile werden dabei ignoriert, während zentrale Informationen im Gedächtnis des LLM bleiben. Eine weitere Methode ist das gleitende Erstellen von Zusammenfassungen: Immer dann, wenn der bisherige Inhalt zu umfangreich wird und nicht mehr vollständig im Kontext präsent gehalten werden kann, wird der bisherige Gesprächsverlauf zusammengefasst und dadurch textlich komprimiert.
Auch die maximale Länge einer Antwort variiert je nach Modell und Nutzungsszenario und ist meist deutlich geringer als die Größe des Kontextfensters. Bei GPT-5 fasst das Kontextfenster bei der Nutzung per API 400.000 Tokens, während die Antwortlänge auf 128.000 Tokens begrenzt ist.
Die Kohärenz der Antworten nimmt im Verlauf eines Chats oft zu, solange die Kontextfenstergröße noch nicht überschritten ist, weil das Modell während des Gesprächs lernt (In-Context-Learning). Wenn Sie in einem Gespräch beispielsweise zuerst erwähnen, dass Sie zwei Katzen und drei Bernhardiner besitzen, und das Modell später danach fragen, wie viel Futter Sie für eine Woche ungefähr einkaufen müssen, erinnert sich das Modell an die Anzahl der Tiere und wird Ihnen einen entsprechenden Vorschlag machen. (Ob dieser Vorschlag inhaltlich sinnvoll ist, hängt dann von der Qualität des Modells und dessen Training ab.)
Gut zu wissen: In-Context-Learning
In-Context-Learning beschränkt sich normalerweise auf den aktuellen Chat. Sprachmodelle lernen nicht kontinuierlich aus jeder Unterhaltung (oder jeder API-Anfrage) dazu. LLMs sind im Kern zustandslos – und damit gedächtnislos: Sobald ein Gespräch endet, geht der gesamte Kontext verloren (bei API-Nutzung bei jedem Request), es sei denn, die Informationen werden explizit in einer Datenbank oder einem anderen Speicher persistiert und beim nächsten Chat wieder eingelesen, um das In-Context-Learning zu wiederholen.
Im vorherigen Abschnitt haben Sie Tokens als Maß für die Größe des Kontextfensters kennengelernt. Schauen wir uns nun genauer an, wie Text in Tokens umgewandelt wird – und zurück. Wer versteht, wie die Tokenisierung funktioniert, kann oft besser nachvollziehen, warum LLMs bei bestimmten Aufgaben stolpern oder sogar scheitern.
Tokens sind, wie bereits erwähnt, die kleinsten Einheiten, mit denen ein Sprachmodell arbeitet. Diese Einheiten können kurze Wörter, Silben, Buchstaben oder einzelne Satzzeichen sein. Ob ein Token ein ganzes Wort oder nur ein Fragment ist, hängt von der verwendeten Tokenisierungsmethode ab. Modelle wie GPT setzen meist auf sogenannte Subword-Verfahren. Dabei werden häufig vorkommende Wörter als Ganzes behandelt, während seltene oder zusammengesetzte Wörter in kleinere Teile zerlegt werden.
Einzelne Tokens können, müssen aber nicht bedeutungstragend sein. Oft ergibt sich die volle Bedeutung erst aus der Kombination mehrerer Tokens.
Der Satz »Prompting ist faszinierend!« könnte beispielsweise in diese Tokens zerlegt werden (die Leerzeichen sind bei GPT-Tokenizern gewöhnlich Teil des Tokens):
»Prompt«
»ing«
»ist«
»faszinierend«
»!«
Bei einem längeren oder komplexeren Satz wären es entsprechend mehr Tokens. Je nach Modell und Sprache kann die Anzahl und Art der Tokens variieren, da für die Tokenisierung unterschiedliche Algorithmen zum Einsatz kommen.
Neuronale Netzwerke arbeiten intern letztlich mit Zahlen. Um einen Text verarbeiten zu können, muss dieser zuerst in eine numerische Repräsentation umgewandelt werden. Die Tokenisierung zerlegt den Text in kleinere Einheiten, die einfacher und effizienter zu verarbeiten sind, und stellt sie als Zahlen dar.
Dazu werden die gefundenen Tokens anhand eines vorgegebenen Token-Vokabulars in eindeutige Ganzzahlen übersetzt. Der obige Beispielsatz könnte etwa durch folgende Liste von Ganzzahlen repräsentiert werden, hier als Array-Darstellung: [1234,5678,90,23456,789].
Wörter, die nicht als Ganzes im Wörterbuch enthalten sind (man spricht dabei von OOV-Wörtern: Out-of-Vocabulary) und auch nicht durch Subword-Tokenisierung in bekannte Tokens zerlegt werden können, werden gegebenenfalls als einzelne Bytes verarbeitet. In früheren Modellen wurde dafür oft ein spezielles <UNK>-Token (für Unknown) verwendet, das durch eine eigene Ganzzahl dargestellt wurde.
Diese numerische Repräsentation der Tokens wird dann in einen sogenannten Vektorraum überführt, wobei jedes Token als Vektor in einem mehrdimensionalen Raum dargestellt wird. Man kann sich einen Vektorraum als eine Art mehrdimensionalen Zahlenraum vorstellen – ähnlich wie ein Koordinatensystem aus dem Mathematikunterricht, nur mit weit mehr als nur zwei oder drei Achsen. Wie genau ein Modell Tokens in Vektoren umwandelt und diese nutzt, um sinnvolle Zusammenhänge herzustellen, beleuchten wir später noch genauer.
Wenn ein Modell im weiteren Verlauf eine Antwort generiert, sagt es Schritt für Schritt voraus, welches Token als nächstes kommen soll. Dafür arbeitet es intern ebenfalls mit Vektoren, die dann in eine Token-ID und schließlich in lesbaren Text zurückübersetzt werden – also genau umgekehrt zur Eingabeverarbeitung. Dieser Vorgang wird als Detokenisierung bezeichnet.
Eine grobe Schätzung für die Umrechnung von Tokens in Text lautet:
1 Token ≈ 4 Zeichen (Englisch) sind ≈ 0,75 Wörter.
1 Buchseite (ca. 300 bis 500 Wörter) umfasst grob 400 bis 700 Tokens (je nach Layout, Sprache und Textart).
Englische Wörter sind im Durchschnitt kürzer, weshalb hier ein paar weniger Tokens anfallen als bei manch anderen Sprachen (beispielsweise Deutsch). Fachtexte oder sehr technische Inhalte können aufgrund der Häufigkeit komplexer Wörter, die nicht im Vokabular des Tokenizers enthalten sind und oft in sehr kleine Tokens zerlegt werden müssen, eine höhere Token-Dichte aufweisen.
OpenAI bietet, um das Verhältnis von Wörtern und Tokens bei größeren Textmengen besser abschätzen zu können, einen interaktiven Tokenizer (https://platform.openai.com/tokenizer) an, mit dem Sie die Anzahl der Tokens berechnen können, in die ein Text zerlegt wird. Die Token-Anzahl ist aber normalerweise nur interessant, wenn man per Programmierschnittstelle auf ein Modell zugreift und zu genaueren Kostenabschätzungen gelangen möchte.
Mein obiger Beispielsatz wird bei der spezifischen Tokenisierung des OpenAI-Modells GPT-4o übrigens in sechs Tokens zerlegt, nicht in fünf (siehe Abbildung 1.3). Ältere Modelle von OpenAI tokenisieren teilweise noch kleinteiliger.
Abbildung
1.3
: Der OpenAI-Tokenizer zerlegt einen Text in Tokens.
Inzwischen gibt es viele multimodale Modelle (vor allem solche, die in Chatbots genutzt werden), die nicht nur Text, sondern auch andere Datentypen wie Bilder, Audio oder Videos verarbeiten können. Diese multimodalen Daten werden ebenfalls als Tokens codiert. Ein Bild könnte zum Beispiel in Hunderte oder Tausende von kleineren Bildabschnitten von beispielsweise 16 × 16 Pixeln zerlegt werden – Patches genannt –, die dann zusammen mit den Texttokens ins Kontextfenster passen müssen. Das erfordert oft eine ausgeklügelte Priorisierung, da diese Daten mehr Speicherplatz beanspruchen als reiner Text.
Weiter oben wurde schon erwähnt, dass LLMs bei einigen Aufgabenstellungen scheitern oder zumindest mit ihnen zu kämpfen haben – etwa damit, Buchstaben in Wörtern zu zählen (siehe »Der Strawberry-Test« in Kapitel 3). Das liegt daran, dass Sprachmodelle keine algorithmische Analyse von Text durchführen (es sei denn, sie generieren Programmcode und führen diesen in einer Sandbox-Umgebung aus). Dass nicht Buchstaben als kleinste Texteinheiten dienen, sondern Tokens, erschwert die Arbeit auf Buchstabenebene zusätzlich.
Vielleicht fragen Sie sich, warum ein Buch über Prompting Erläuterungen zur Theorie von Sprachmodellen enthält. Der Grund ist einfach: Ich bin davon überzeugt, dass man Sprachmodelle umso besser bedienen und ihre Reaktionen (den KI-Output) umso besser einordnen kann, je besser man in den Grundzügen versteht, warum und wie sie funktionieren.
In der theoretischen Darstellung beschränke ich mich auf einige wesentliche Konzepte, die wichtig sind, um zu verstehen, wie LLMs Sprache verstehen und generieren. Es geht darum, ein Gefühl dafür zu entwickeln, wie Sprachmodelle ticken: wie sie Denken simulieren und uns die Ergebnisse dieses künstlichen Denkens durch generierte Sprache präsentieren. Um einige technische Details kommen wir nicht herum, der Fokus liegt dabei aber immer auf deren Bedeutung für Sprachverständnis und -erzeugung.
Aber was genau ist ein Large Language Model, ein großes Sprachmodell eigentlich? Eine erste mögliche Definition könnte lauten:
Definition: Large Language Model
Ein LLM ist ein künstliches neuronales Netzwerk, das mit großen Mengen an Textdaten trainiert wurde, um mithilfe statistischer Methoden Sprache zu verstehen und zu generieren. Es ist in der Lage, komplexe Zusammenhänge zu erfassen und Antworten in menschenähnlicher Sprache zu formulieren.
Vielleicht fragen Sie sich jetzt, was denn mit all den anderen Dingen ist, die der Chatbot Ihrer Wahl neben Sprache verarbeitet, versteht und produziert. Zu Recht, denn moderne KI-Systeme können zunehmend mit unterschiedlichen Formen des Daten-Inputs umgehen, die auch als Modalitäten bezeichnet werden. Neben Text sind das typischerweise Bilder, Videos und Audiodaten, es können aber auch andere etwa von physischen Sensoren gelieferte Daten (Temperatur, Luftfeuchtigkeit, Gasgehalte etc.) sein. Auch der KI-Output ist zunehmend multimodal.
Da aber in jedem Fall Prompts nötig sind, um einer KI Anweisungen zu geben, bleibt das Verständnis von Sprache auch für multimodale Modelle zentral. Das gilt ebenfalls in der internen Übersetzung zwischen den einzelnen Modalitäten, wenn beispielsweise der Inhalt eines Bilds oder Videos beschrieben werden soll.
In diesem Buch spreche ich deshalb weiter von LLMs und Sprachmodellen, auch wenn viele generative KI-Systeme weitere Modalitäten beherrschen.
Es gibt Branchen, die sich dem Phänomen Sprache aus einem weniger technisch geprägten Blickwinkel nähern als die Informatik: beispielsweise Übersetzerinnen und Übersetzer, die die Auswirkungen von KI schon seit vielen Jahren spüren, spätestens seit dem Markteintritt von DeepL um 2017 herum. Hier eine Stellungnahme des Verbands deutschsprachiger Übersetzer/innen literarischer und wissenschaftlicher Werke, der sich berufsbedingt intensiv mit dem Wesen von Sprachmodellen beschäftigt hat:
Textgenerierende KI-Systeme können menschliche Sprache lediglich simulieren. Sie haben weder Gedanken noch Emotionen oder ästhetisches Empfinden, kennen keine Wahrheit, kein Weltwissen und keine Gründe für [ihre] … Entscheidungen.
Wer viel mit Sprachmodellen arbeitet, wird bald erkennen, dass ihr künstliches »Verstehen« von Sprache nicht immer bedeutet, dass sie auch eine beschriebene Aufgabe verstehen (oder ein Projekt, einen Hintersinn, ein Ziel). Ihr Verständnis beruht ganz auf einer erlernten, statistischen, funktionalen Verarbeitung von Sprache. Was fehlt, ist ein tieferes, bewusstes, introspektives Verständnis für die Inhalte der Sprache. Da die künstlich erzeugte Sprache auf den ersten Blick so beeindruckend der von Menschen erzeugten Sprache gleicht, ist der Unterschied nur schwer in Worte zu fassen – aber er ist spürbar.
