E-Book
19,90 €

Prompting kurz & gut E-Book

Jens Olaf Koch

0,0

19,90 €

Sammeln Sie Punkte in unserem Gutscheinprogramm und kaufen Sie E-Books und Hörbücher mit bis zu 100% Rabatt.

Mehr erfahren.

Herausgeber: O'Reilly
Kategorie: Wissenschaft und neue Technologien
Serie: kurz & gut
Sprache: Deutsch

Beschreibung

Kompakte und intelligente Einführung ins Prompting und in LLMs - Verstehen, wie Large Language Models »denken« und sprechen - Mit Best Practices und grundlegenden Strategien effektiv prompten - Mit fortgeschrittenen Prompting-Techniken wie Systemprompts, benutzerdefinierten GPTs und Meta-Prompting zum Profi werden - Mit externen Tools Prompts schneller schreiben und besser verwalten - Praxis-Beispiele aus der IT: vom Codieren über Architekturüberlegungen bis zur automatisierten Dokumentation Prompting – klingt einfach, hat es aber in sich. Wer Large Language Models wie ChatGPT, Claude oder Gemini treffsicher und effizient einsetzen will, braucht mehr als nur gute Fragen. Dieses kompakte Buch erklärt, wie Sprachmodelle »denken«, wie Prompts aufgebaut sein sollten – und wie sich mit Strategie, praktischem Know-how und den passenden Tools deutlich bessere Ergebnisse erzielen lassen. Ob Sie neu einsteigen oder Ihr Prompting verbessern möchten: Hier finden Sie fundiertes Wissen, klare Anleitungen und zahlreiche Praxistipps. - Verstehen, wie Sprachmodelle funktionieren und wie man mit ihnen kommuniziert - Best Practices für wirksame Prompts – praxisnah, präzise und auf den Anwendungsfall zugeschnitten - Tools, Workflows und Chatbot-Features für produktiveres Arbeiten - Praxisbeispiele aus der IT: von Code über Dokumentation bis Architektur - Fortgeschrittene Techniken: Systemprompts, benutzerdefinierte GPTs, Meta-Prompting - Rechtliches: Datenschutz, Urheber- und Nutzungsrechte im Blick behalten - Mit umfangreichen Cheatsheets

Details

Das E-Book können Sie in Legimi-Apps oder einer beliebigen App lesen, die das folgende Format unterstützen:

EPUB

MOBI

Seitenzahl: 339

Veröffentlichungsjahr: 2025

Bewertungen

0,0

Rezensionen(0 Rezensionen)

Leseprobe

Hinweise zur Benutzung

Dieses E-Book ist urheberrechtlich geschützt. Mit dem Erwerb des E-Books haben Sie sich verpflichtet, die Urheberrechte anzuerkennen und einzuhalten. Sie sind berechtigt, dieses E-Book für persönliche Zwecke zu nutzen. Sie dürfen es auch ausdrucken und kopieren, aber auch dies nur für den persönlichen Gebrauch. Die Weitergabe einer elektronischen oder gedruckten Kopie an Dritte ist dagegen nicht erlaubt, weder ganz noch in Teilen. Und auch nicht eine Veröffentlichung im Internet oder in einem Firmennetzwerk.

Copyright-Vermerk

Das vorliegende Werk ist in all seinen Teilen urheberrechtlich geschützt. Alle Nutzungs- und Verwertungsrechte liegen bei den Autor*innen und beim Rheinwerk Verlag, insbesondere das Recht der Vervielfältigung und Verbreitung, sei es in gedruckter oder in elektronischer Form.

Nutzungs- und Verwertungsrechte

Sie sind berechtigt, dieses E-Book ausschließlich für persönliche Zwecke zu nutzen. Insbesondere sind Sie berechtigt, das E-Book für Ihren eigenen Gebrauch auszudrucken oder eine Kopie herzustellen, sofern Sie diese Kopie auf einem von Ihnen alleine und persönlich genutzten Endgerät speichern. Zu anderen oder weitergehenden Nutzungen und Verwertungen sind Sie nicht berechtigt.

So ist es insbesondere unzulässig, eine elektronische oder gedruckte Kopie an Dritte weiterzugeben. Unzulässig und nicht erlaubt ist des Weiteren, das E-Book im Internet, in Intranets oder auf andere Weise zu verbreiten oder Dritten zur Verfügung zu stellen. Eine öffentliche Wiedergabe oder sonstige Weiterveröffentlichung und jegliche den persönlichen Gebrauch übersteigende Vervielfältigung des E-Books ist ausdrücklich untersagt. Das vorstehend Gesagte gilt nicht nur für das E-Book insgesamt, sondern auch für seine Teile (z. B. Grafiken, Fotos, Tabellen, Textabschnitte).

Urheberrechtsvermerke, Markenzeichen und andere Rechtsvorbehalte dürfen aus dem E-Book nicht entfernt werden.

Die automatisierte Analyse des Werkes, um daraus Informationen insbesondere über Muster, Trends und Korrelationen gemäß § 44b UrhG (»Text und Data Mining«) zu gewinnen, ist untersagt.

Markenschutz

Die in diesem Werk wiedergegebenen Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. können auch ohne besondere Kennzeichnung Marken sein und als solche den gesetzlichen Bestimmungen unterliegen.

Haftungsausschluss

Ungeachtet der Sorgfalt, die auf die Erstellung von Text, Abbildungen und Programmen verwendet wurde, können weder Verlag noch Autor*innen, Herausgeber*innen oder Übersetzer*innen für mögliche Fehler und deren Folgen eine juristische Verantwortung oder irgendeine Haftung übernehmen.

Prompting kurz & gut

Jens Olaf Koch

Wir hoffen, dass Sie Freude an diesem Buch haben und sich Ihre Erwartungen erfüllen. Falls Sie Anregungen, Wünsche und Kommentare haben, lassen Sie es uns wissen: [email protected].

Informationen zu unserem Verlag und Kontaktmöglichkeiten finden Sie auf unserer Verlagswebsite www.dpunkt.de. Dort können Sie sich auch umfassend über unser aktuelles Programm informieren und unsere Bücher und E-Books bestellen.

Autor: Jens Olaf Koch

Lektorat: Ariane Hesse

Fachliche Unterstützung: Ulrike Schröder, TNG Technology Consulting

Buchmanagement: Friederike Demmig

Copy-Editing: Sibylle Feldmann, www.richtiger-text.de

Satz: III-satz, www.drei-satz.de

Herstellung: Stefanie Weidner

Covergestaltung: Karen Montgomery, Michael Oréal, www.oreal.de

Das vorliegende Werk ist in all seinen Teilen urheberrechtlich geschützt. Alle Rechte vorbehalten, insbesondere das Recht der Übersetzung, des Vortrags, der Reproduktion, der Vervielfältigung auf fotomechanischen oder anderen Wegen und der Speicherung in elektronischen Medien.

Die automatisierte Analyse des Werkes, um daraus Informationen insbesondere über Muster, Trends und Korrelationen gemäß §44b UrhG (»Text und Data Mining«) zu gewinnen, ist untersagt.

Bibliografische Information der Deutschen Nationalbibliothek:

Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.dnb.de abrufbar.

ISBN Print: 978-3-96009-264-3

ISBN PDF: 978-3-96010-898-6

ISBN ePub: 978-3-96010-899-3

1. Auflage 2026

Dieses Buch erscheint in Kooperation mit O’Reilly Media, Inc. unter dem Imprint »O’REILLY«. O’REILLY ist ein Markenzeichen und eine eingetragene Marke von O’Reilly Media, Inc. und wird mit Einwilligung des Eigentümers verwendet.

Rheinwerk Verlag GmbH • Rheinwerkallee 4 • 53227 Bonn

[email protected]

Inhalt

Vorwort

Hinweise

Einführung

Prompting – eine Annäherung

Prompt? Kenn ich doch!

Prompten? Kann ich doch!

Eine erste Definition

Kontext – im Dienste des Prompts

Verschiedene Arten von Kontext

Kontextfenster

Tokens

Sprachmodelle – eine kompakte Theorie

Was ist ein LLM?

Ein anderer Blickwinkel

Wie kommt die Sprache ins Modell?

Nähe zwischen Wörtern

Embeddings, Dimensionen und Vektorraum

König und Königin sind wie

Attention please!

Generativ, pre-trained, Transformer: GPT

Und wie kommt Sprache heraus?

LLM: eine zweite Definition

Chatbots – die Anwendungsschicht

Das Zusammenspiel ist entscheidend

Exkurs: KIs halluzinieren immer, nicht nur manchmal!

Prompting-Basics

Aufbau eines Prompts

Instructions

Constraints

Best Practices

Klar und präzise formulieren und schrittweise verbessern

Die W-Fragen

Genau sein, aber nicht zu päpstlich!

Komplexe Fragen aufteilen

Suggestive Prompts vermeiden

Genug Kontext bereitstellen

Modell um Hilfe bitten

Was könnte ich dich fragen?

Nichtwissen zulassen

Sinnabschnitte kennzeichnen

Kritisches Nachfragen: »Stimmt das (wirklich)?«

Explizit suchen lassen

Experimentelles Nachprüfen

Im Notfall neuen Chat beginnen

»4K«-Merksatz

Typische Fehler

Anweisung ist zu vage

Nötiger Kontext fehlt

Prompt ist überladen

Irrglaube, dass sofort alles »sitzen muss«

Beispielbasiertes Arbeiten

Zero-Shot-Prompting

Few-Shot-Prompting

Alternative: Informationen schrittweise bereitstellen

One-Shot-Prompting

Feinjustierungen im Prompt

Darstellung und Präsentation

Ausgabeformat

Thematische Einschränkungen

Prozedurales Vorgehen

Fortgeschrittene Techniken und Tools

Typische Chatbot-Features

Individuelle Anpassung

Erinnerungsfunktionen

(Total) Recall: Schöne neue Welt?

KI-Arbeitsflächen: Canvas, Artifacts & Co

Projekte

Deep Research

Prompts und Chats teilen

Rollen, Personas und benutzerdefinierte Chatbots

Eigene Chatbots: GPTs und Gems

GPT-Beispiel 1: Eine »Lektorin«

Der Persona-Prompt der Lektorin

GPT-Beispiel 2: Ein Coding-Assistant

GPTs, Gems und Projects im Teamkontext

Reasoning: Denkprozesse steuern

Was ist Reasoning?

Chain-of-Thought: in Schritten denken lassen

Reasoning-Modelle

Beispiel: o1 beim Denken zuschauen

Prompting bei Reasoning-Modellen

Playgrounds, Sampling und Hyperparameter

Der Playground von OpenAI

Hyperparameter und Sampling

Auswirkungen unterschiedlicher Temperatureinstellungen

Model Hubs: gebündelter Modellzugang

OpenRouter: schnelle Vergleichstests

TypingMind: Fokus auf Benutzeroberfläche

Artificial Analysis: LLMs im direkten Leistungsvergleich

Meta-Prompting

Prompts per Prompt erstellen

Claudes Prompt-Generator

PromptPerfect: Prompts optimieren lassen

Reverse Prompt Engineering

Mit Tools besser prompten

Prompts modular zusammensetzen: Espanso

Browsererweiterung: Superpower ChatGPT

Prompt-Templates und -Chains

Per Stimme prompten auf dem Desktop

Prompt-Bibliotheken nutzen

Prompts archivieren

Versehentlich gelöschte Chats fortsetzen

Prompten für Bild-KIs

Midjourney-Beispiel 1: Futuristische Stadtansicht

Midjourney-Beispiel 2: Hyperrealistisches Porträt

In Englisch prompten

Meta-Prompting bei Bild-KIs

Image-Prompts aufheben

Kreative Strategien und Methoden

Höflich sein: Hilft!?

Multimodales Arbeiten: Screenshots per OCR auswerten

Interna zur Arbeitsweise der KIs erfragen

Spielerische Übungen

Grenzen, Schwächen, Stolperfallen

Der Strawberry-Test

Seltsame Mindmaps

Wenn man ein LLM beim Rätseln (nicht mehr) schlägt

Der, die, das: Maus oder Sesamstraße?

Promptosophie

Zwei KIs diskutieren lassen

Alignment: Keine Leitplanke ist vollkommen sicher

ChatGPT als Antiverschwörungstheoretiker

Machen Agenten das Prompten überflüssig?

Sind wir alle nur Prompts?

Einsatzgebiete im IT-Umfeld

Allgemeine Beispiele

Energiesparendes Prompten

Passwörter generieren

Hardwarefragen per Foto lösen

LLMs als Text-Allrounder: von Korrektur bis Datenextraktion

Programmierung und Entwicklung

Kollaborativ programmieren im Chatbot

Kollaborativ programmieren per IDE

Reguläre Ausdrücke

HTML zu CSV konvertieren

Da capo: Reverse Engineering

Dateien verschmelzen

Fehlermeldungen prompten

Rubber Duck Debugging, Legacy Code und Grenzfälle

Dokumentation, Übersetzung, Lokalisierung, SEO

Softwaredokumentation: codenah

Softwaredokumentation: funktional

Firmeninterne Terminologie berücksichtigen

Aus vorhandenen Wissensquellen schöpfen

Lokalisierung mit kultureller Adaption

SEO: Suchmaschinenoptimierung

LLMs im Projektalltag

Softwarearchitektur diskutieren

Meeting-Notizen strukturieren und zusammenfassen

(Fragwürdiges) Brainstorming zu Projektnamen

Rollenspiel: Architekt trifft Hacker

Onboarding von Teammitgliedern

Analyse und Visualisierung von Daten

Explorative Datenanalyse

Visuelle Darstellung von Daten

Rechtliche Rahmenbedingungen und Risiken

Datenschutz

Nutzungsbedingungen prüfen

Datenschutz durch Reinforcement Learning

Urheber- und Nutzungsrechte

Urheberrecht beachten bei KI-Input

Urheberrecht am KI-Output

Urheberrechtsverletzung durch KI-Output

Nutzungsrechte

Sind Prompts geschützt?

Weitergabe von Falschinformationen

Wasserzeichen

Kennzeichnungspflicht

Prompt-Injection

Prompt-Leaking

Beispiel: Abruf des Systemprompts von ChatGPT-4o

Jailbreaking

Token-Smuggling

Das ewige Ringen um Sicherheit

Anhang

Cheatsheet: Leitprinzipien für effektives Prompting

Cheatsheet: Fortgeschrittene Techniken und Tools

Cheatsheet: Risiken beim Prompting

Index

Vorwort

Seitdem Ende November 2022 ChatGPT, der KI-Chatbot von OpenAI, öffentlich zugänglich wurde, ist das Buzzword Prompting – auch Prompten und Prompt Engineering – in aller Munde.

Jeder, der schon einmal mit einem KI-Chatbot gearbeitet hat, kennt Prompting und hat selbst bereits Prompts geschrieben oder gesprochen – was ja nichts anderes heißt, als einem Sprachmodell in natürlicher Sprache mitzuteilen, was genau man von ihm will.

Die Betonung liegt hier auf einem ganz bestimmten Wort: genau! Wie man Prompts möglichst zielgerichtet formuliert, ist eines der Themen in diesem Buch.

Wir prompten, um ein gewünschtes Ergebnis zu erhalten. Ob eine KI aber tatsächlich unser Wunschergebnis ausspuckt, hängt von weiteren Faktoren ab. Da kommt zunächst der sogenannte Kontext ins Spiel: all das, was eine KI aus dem Prompt und weiteren, vom Benutzer bereitgestellten Informationen an Zusammenhang und Bedeutung ableiten kann.

Ein weiterer Faktor sind die Eigenschaften des benutzten Sprachmodells: Wie gut sind seine Trainingsdaten? Wie schnell ist es? Wie groß ist sein Kontextfenster? Welche Fähigkeiten hat es? »Denkt« es genau genug? Und wie ist es um die Faktentreue und Halluzinationen bestellt?

Dieser Dreiklang von Prompt, Kontext und Modell entscheidet am Ende über die Qualität der Ergebnisse.

Um besser zu verstehen, was man von einem Sprachmodell erwarten darf und was nicht, ist es hilfreich, eine grundlegende Vorstellung von der inneren Welt eines Sprachmodells zu entwickeln. Dort geht es statistisch zu, es wird mit Wahrscheinlichkeiten und Vektoren operiert, damit wir mit der KI reden können. Wie genau das funktioniert, schauen wir uns an. Und untersuchen weitergehende Fragen: Wie merkt sich ein Modell eigentlich, was in einem Chat schon gesagt wurde? Kann man den Grad der »Wahrscheinlichkeit« einer Antwort steuern? Was ist ein Wortvektorraum?

Neben den Grundkonzepten des Promptens finden Sie in diesem Buch auch viele praktische Einsatzbeispiele aus der IT-Welt. Diese Beispiele sollen zeigen, wie man Prompts formulieren kann, und Sie vor allem dazu inspirieren, grundlegende Prinzipien in Ihrer eigenen Prompt-Praxis einzusetzen.

Außerdem werden Sie eine Reihe von fortgeschrittenen Techniken, Kniffen und Tricks kennenlernen, um – mit oft sehr einfachen Mitteln – die erzielten Ergebnisse zu verbessern. Daneben stelle ich Ihnen einige Tools vor, die das Prompten und die Verwaltung von Prompts erleichtern.

Prompting kann Spaß machen – und Sie dürfen es gerne spielerisch angehen. Um das bisweilen etwas trockene Thema aufzulockern, teile ich gelegentlich die eine oder andere Anekdote aus dem Prompting-Alltag.

Dreierlei ist dieses Buch nicht: Es ist weder die x-te Geschichte zum maschinellen Lernen oder zur künstlichen Intelligenz, noch ist es eine Prompt-Sammlung. Und aufgrund der rasanten Entwicklung auf diesem Gebiet wird es niemals topaktuell sein.

Schon während der Arbeit an diesem Buch hat sich so viel verändert, dass ich der Entwicklung immer ein Stück hinterherjagen musste. Glücklicherweise ist Prompten eine Grundtechnik, die weitgehend modellunabhängig funktioniert. Ob Sie sich nun mit GPT-5 unterhalten oder einem Vorgängermodell wie GPT-4o oder GPT-4.1, mit Claude 3.5 oder 4 oder Gemini 2.5, spielt »promptologisch« keine große Rolle.

Allerdings nehmen die Fähigkeiten der Modelle immer weiter zu, sodass Antworten auf in diesem Buch gezeigte Prompts oder beschriebene Aufgabenstellungen schon viel smarter ausfallen könnten, wenn Sie sie mit dem neuesten Flaggschiffmodell eines großen Anbieters ausprobieren.

Viel Spaß beim Lesen – und Prompten!

Und sollte Ihnen etwas auffallen, das Ihrer Meinung nach unbedingt hätte erwähnt werden sollen, freue ich mich über eine Nachricht an [email protected].

Jens Olaf Koch

Im Oktober 2025

Hinweise

Für wen dieses Buch gedacht ist

Dieses Buch richtet sich an alle, die mehr über Prompting – und sämtliche Aspekte, die die erzielbaren Ergebnisse beeinflussen oder die Arbeit mit Prompts erleichtern – erfahren möchten. Dabei setzte ich kein spezielles Fachwissen voraus, gehe aber davon aus, dass Sie sich grundsätzlich für IT-Themen interessieren. In diesem Fall ist dieses Buch für Sie geeignet, unabhängig davon, ob Sie noch keine, erst wenige oder schon sehr umfangreiche Erfahrungen im Umgang mit KI-Sprachmodellen haben.

Aufbau des Buchs

Wir starten in Kapitel 1 mit einigen grundlegenden Konzepten, definieren den Begriff Kontext genauer und gehen auf die innere Repräsentation und Verarbeitung von Sprache und Wissen in Sprach-KIs ein.

In Kapitel 2 geht es um die Prompt-Praxis: Wir zerlegen Prompts in ihre logischen Bestandteile, schauen uns einige Best Practices an und klären weiterführende Begriffe.

Kapitel 3 widmet sich fortgeschrittenen Techniken und unterstützenden Tools.

In Kapitel 4 sehen wir uns einige typische Einsatzgebiete im IT-Umfeld an – von der Softwareentwicklung über Dokumentation und Lokalisierung bis hin zu den Arbeiten, die im Projektalltag anfallen, wie etwa das Onboarding neuer Teammitglieder.

In Kapitel 5 geht es um mögliche Risiken beim Prompten – speziell, was Datenschutz und Nutzungsrechte angeht.

Modelle, die im Buch vorkommen

Prompting funktioniert im Prinzip bei allen Sprachmodellen gleich. Deshalb ist es nicht entscheidend, mit welchem Modell oder Chatbot Sie arbeiten. Unterstützende Features, die das Prompten in Chatbots erleichtern oder effektiver gestalten, können sich aber von Anbieter zu Anbieter unterscheiden.

Manche der besprochenen Funktionen stehen nur in bezahlten Abonnements zur Verfügung. Da die Chatbots immer neue Features bekommen, die kostenlosen Versionen oft aufgewertet werden und sich zudem die Benutzeroberflächen in hoher Frequenz verändern, wird nicht in jedem Einzelfall darauf hingewiesen, dass bestimmte Funktionen in den kostenlosen Versionen nicht angeboten werden. Hinweise auf konkrete Versionen von Sprachmodellen, mit denen einzelne Beispiele durchgeführt wurden, dienen nur der Transparenz. Die grundlegenden Prinzipien ändern sich nicht, wenn Sie mit anderen oder neueren Versionen arbeiten.

Die Beispiele in diesem Buch stammen aus Chats mit unterschiedlichen Sprachmodellen in unterschiedlichen Chatbots. Aufgrund seiner aktuell unangefochtenen Führungsposition hinsichtlich der Nutzerzahlen kommt der Marktführer ChatGPT von OpenAI dabei besonders häufig zum Einsatz. Aber Sie werden auch den KI-Chatbots Claude von Anthropic und Gemini von Google begegnen. Die verwendeten Abbildungen beziehen sich in der Regel auf die Browserversionen der Chatbots.

Dass der Chatbot Grok von Elon Musks Firma xAI nicht behandelt wird, ist eine bewusste Entscheidung, weil man bei den eingesetzten Modellen immer damit rechnen muss, dass sie plötzlich die teils absurde Gedankenwelt des Firmenchefs reproduzieren.

Gut zu wissen: Jede Antwort ist anders

Wundern Sie sich nicht, falls Sie Beispielprompts aus diesem Buch in einem Chatbot ausprobieren: Die Antworten, die Sie erhalten, werden in der Regel immer von denjenigen aus den Beispielen abweichen – mal weniger, mal deutlich. Das hat vor allem zwei Gründe: Einerseits greifen bei der Generierung der Antworten Zufallsprozesse – auch bei der Wiederholung von Prompts im selben Chatbot. Außerdem werden die standardmäßig verwendeten Modelle ständig verbessert oder durch neuere Modelle ersetzt.

Ein grundsätzlicher Tipp

Um zielgerichtet prompten zu können, braucht man eine genaue Vorstellung davon, was man erreichen will und wie das gewünschte Ergebnis aussehen soll. Erarbeitet man sich diese Ergebnisse aber grundsätzlich nicht mehr selbst, verlernt man nach einiger Zeit möglicherweise, wie man selbst zu diesem Ergebnis kommt. Erste Studien (etwa arxiv.org/pdf/2506.08872v1) deuten z.B. darauf hin, dass Probanden, die einen Text erst ohne und dann mit KI schrieben, deutlich stärkere neuronale Aktivität zeigten als jene, die von Beginn an KI nutzten – außerdem wurden die Teilnehmenden im Studienverlauf fauler und überarbeiteten die KI-Entwürfe immer seltener.

Nicht nur Autofahrerinnen und Autofahrer kennen den Effekt, der sich durch die ständige Nutzung eines Navis einstellt. Und fast jeder kennt das seltsame Gefühl, das aufkommt, wenn man einmal sein Handy vergessen hat. Und wer weiß, vielleicht machen Menschen in einigen Jahrzehnten überhaupt keinen Führerschein mehr und lassen sich lieber ihr ganzes Leben lang vollautomatisch durch die Welt chauffieren.

Wer eine Fähigkeit nicht trainiert, verlernt sie. In diesem Buch geht es darum, Fähigkeiten im Umgang mit KI zu verbessern. Aber delegieren Sie nicht alles an eine KI. Behalten Sie immer den gedanklichen Überblick. Setzen Sie sich selbst immer wieder ans Steuer. Sonst lernen Sie in diesem Buch am Ende etwas, das dazu führt, dass Sie langfristig verlernen, was Sie früher konnten.

Dem Liedermacher Wolf Biermann wird die Umdichtung eines alten biblischen Spruchs zugeschrieben: »Wer sich nicht in Gefahr begibt, der kommt drin um.« Was KIs angeht, kann man das getrost umformulieren: »Wer es sich zu einfach macht, der kommt drin um.«

KAPITEL1Einführung

In diesem ersten Kapitel des Buchs legen wir die Grundlagen für ein tieferes Verständnis von Sprachmodellen und ihrer Funktionsweise. Wir beginnen mit einer Einführung in den Begriff des Promptings und widmen uns anschließend intensiv der Frage, was genau Kontext ist und wie dessen Inhalte durch Tokenisierung »in« ein Sprachmodell gelangen. Den Schwerpunkt dieses Kapitels bildet entsprechend eine kompakte Theorie der Sprachmodelle, die erklärt, wie LLMs Sprache verstehen und erzeugen – und welche Konsequenzen sich daraus ergeben, etwa im Hinblick auf die oft diskutierten Halluzinationen.

Prompting – eine Annäherung

Seit dem kometenhaften Aufstieg von Chatbots wie ChatGPT, Claude und Gemini kennen wir alle das ständige Wechselspiel zwischen unseren Fragen bzw. Anweisungen an Sprachmodelle und den Antworten einer KI. Und in Windeseile hat sich das entsprechende Vokabular verbreitet. Überall wird nun von großen Sprachmodellen bzw. LLMs, den Large Language Models, und von generativer KI gesprochen.

Und fast immer geht es dabei auch um Prompts: Sofort wurde der neuartige Beruf des Prompt Engineer gehypt, mit dem man angeblich Unsummen würde verdienen können. Klingt ja auch hochkompliziert, weil Engineering drinsteckt: das Ingenieurwesen, der Maschinenbau.

Im Titel dieses Buchs heißt es aber schlicht: Prompting. Schauen wir uns den Begriff ein bisschen genauer an.

Prompt? Kenn ich doch!

Wer (wie ich) schon ein wenig länger in der IT-Branche unterwegs ist, kannte den Begriff des Prompts schon lange vor ChatGPT & Co. Befragt man Wikipedia, bekommt man als ersten Satz eine klassische Definition geliefert:

Als englisch prompt wird in der IT eine Aufforderung an den Benutzer bezeichnet, eine Eingabe (input) zu tätigen.

Mir sind Prompts erstmals zu Beginn des PC-Zeitalters in den 1980er-Jahren begegnet. Damals begann die grafische Benutzeroberfläche Windows gerade ihren Siegeszug. Windows selbst steckte aber noch in solch niedlichen Kinderschuhen, dass die meisten Computerfreaks ihre Tage und Nächte am sogenannten DOS-Prompt verbrachten, um kryptische Befehle wie etwa CHKDSK C: /F /V /R /X /I /C einzugeben (siehe Abbildung 1.1) – hier einen Befehl, um die Integrität eines Laufwerks bzw. einer Partition zu überprüfen.

Abbildung

1.1

: Befehlseingabe an einem Prompt in einem Terminalfenster

Ein Prompt war in diesem Zusammenhang nur das Signal an die Benutzenden, irgendetwas einzugeben, also eine Eingabeaufforderung bzw. ein Aufforderungszeichen. (Das englische Verb to prompt bedeutet ja in erster Linie auffordern.)

In Terminalfenstern – auch Kommandozeile oder CLI (Command Line Interface) genannt – in Windows, macOS oder Linux arbeiten heute überwiegend Entwicklerinnen und Entwickler. Die meisten User kommen mit den klassischen Betriebssystemprompts kaum noch in Kontakt. Und viele Benutzer wissen vermutlich gar nicht mehr, dass in den Terminals Prompts auf sie warten.

Am Prompt, der Eingabeaufforderung eines Chatbots, geben wir eine Aufforderung an ein KI-Modell ein, eine bestimmte Aufgabe auszuführen oder Fragen zu beantworten, und bezeichnen diese Eingabe zu Recht ebenfalls als Prompt: Wir prompten Prompts an Prompts (siehe Abbildung 1.2). Für diejenigen, die mit Sprachmodellen arbeiten, sind Prompts heutzutage in erster Linie die Texte, die man an eine KI sendet.

Abbildung

1.2

: Eingabe eines Prompts (einer Anweisung) an einem Prompt (einer Eingabeaufforderung) in ChatGPT

Eine weitere Bedeutung des englischen Verbs to prompt lautet soufflieren. Im Verlauf des Buchs werden Sie feststellen, dass wir den KIs (am und) im Prompt tatsächlich manchmal soufflieren müssen – so wie es früher die Souffleusen und Souffleure im Theater gemacht haben, wenn Schauspieler ihren Text vergessen hatten. Auch LLMs vergessen gern mal, »wo sie gerade sind«. Bei KIs sprechen wir dann davon, dass »der Kontext verloren gegangen« ist …

Nebenbei: Der Teleprompter

Eine wörtliche Übersetzung des Begriffs Teleprompter, mit dem Texte für Rednerinnen oder Nachrichtensprecher in größerer Entfernung angezeigt werden, damit nicht vom Blatt gelesen werden muss, ist übrigens »Fernsouffleur«.

Der Duden verzeichnet unter »prompt« natürlich auch noch die Bedeutung »unverzüglich, unmittelbar (als Reaktion auf etwas) erfolgend«. Wie schön, dass die meisten LLMs schon nach wenigen Jahren der Weiterentwicklung so flott geworden sind, dass sie unsere Prompts tatsächlich prompt, also in Echtzeit, beantworten.

Prompten? Kann ich doch!

Der Prompt ist also ein IT-Begriff mit Geschichte, auch wenn er einige Jahre etwas in Vergessenheit geraten war.

Selbst wenn Sie noch nie mit einem Sprachmodell gearbeitet haben – gepromptet haben Sie bestimmt schon: Wer sich mit moderner Technik umgibt, promptet meist am laufenden Band. Wir sprechen mit Smartphones: »Ok Google«, »Hey Siri«. Oder mit Lautsprechern: »Alexa, …«. Auch in den Mobil-Apps von OpenAI, Google und Anthropic kommuniziert man zunehmend mündlich mit den Chatbots. Ob man in Schriftform oder mündlich promptet, spielt keine große Rolle. Für die mündliche Variante gibt es bisher allerdings kein eigenes Wort.

Da wir uns mit den Geräten und Apps – bzw. den KIs und LLMs, die sich dahinter verbergen – relativ normal unterhalten können, scheint Prompten also kinderleicht zu sein: Sprechen können wir als Menschen – sofern uns keine körperliche oder geistige Einschränkung daran hindert – schließlich alle.

Entscheidend ist jedoch, was »hinten rauskommt«: Erhalten wir die gewünschte Antwort? Wird eine Aufgabe korrekt und hilfreich gelöst? Da führt das gemeine Feld-, Wald- und Wiesen-Prompting nicht immer zum Erfolg.

Eine erste Definition

Für den Zweck dieses Buchs möchte ich die Begriffe vorläufig so beschreiben:

Definition: Prompt und Prompten

Prompt bezeichnet einerseits die – oft grafisch gekennzeichnete – Eingabeaufforderung, etwa in Terminalfenstern (Windows, macOS, Linux etc.) oder in Chatbots (ChatGPT, Gemini etc.).

Zugleich wird der Text, den wir einer KI übermitteln, selbst als Prompt bezeichnet. Von dieser Bedeutung leiten sich die Begriffe Prompten und Prompting ab.

Dabei bezeichnet Prompten/Prompting sowohl den Vorgang, Prompts zu verfassen, als auch die Kunst, diese so zu formulieren, dass sie die gewünschten Ergebnisse oder Reaktionen der KI hervorbringen.

Oft ist auch die Rede vom Prompt Engineering. Manchmal wird dieser Begriff synonym verwendet, aber er hat eine etwas andere Bedeutung:

Definition: Prompt Engineering

Bei der Entwicklung von Anwendungen, die im Hintergrund auf Foundation Models wie ChatGPT oder Claude per Programmierschnittstelle (API) zugreifen, sind Formulierung und Zusammensetzung effektiver Prompts deutlich komplexer als bei der direkten Nutzung von Chatbots.

Dieser systematische Prozess der Entwicklung, Optimierung und Verfeinerung von Prompts für KI-Systeme wird als Prompt Engineering bezeichnet. Es geht über das einfache Prompting hinaus und umfasst Techniken wie das ausführliche Testen verschiedener Prompt-Varianten, die Analyse von Modellreaktionen und die kontinuierliche Verbesserung der Prompts basierend auf den Ergebnissen.

Kontext – im Dienste des Prompts

Neben dem Prompt spielt der sogenannte Kontext eine entscheidende Rolle für die Qualität der Ergebnisse, die ein Sprachmodell liefert.

Auch wir Menschen brauchen Kontext, um Dinge zu verstehen. Stellen Sie sich vor, Sie sitzen in einem Café und hören zufällig ein Gespräch am Nachbartisch. Sie schnappen Teile dieses Gesprächs auf, etwa »… und dann ist da noch die Sache mit der komischen Oper …« Ohne weitere Hintergrundinformationen verstehen Sie möglicherweise nicht sofort, worüber genau gesprochen wird. Geht es um eine Opernaufführung, die der Sprecher etwas komisch fand? Geht es um die Komische Oper Berlin?

Und wie verändert sich die Situation, wenn Sie berücksichtigen, dass Sie in einem Kölner Café sitzen, also in einer Stadt, die in ganz Deutschland dafür belächelt wird, dass die Sanierung des unter Denkmalschutz stehenden Opernhauses seit 2012 bereits fast so lange dauert wie die Fertigstellung des Berliner Flughafens? Haben Sie den spöttischen Tonfall des Gesprächs bemerkt? (Fragen Sie einmal einen Chatbot, aus welcher Stadt der Autor dieses Buchs stammt.)

Mithilfe unseres Allgemeinwissens – unseres »Trainings« – und möglicherweise besonderer Vorkenntnisse über Opern – einer Art »Feintuning« – verarbeiten wir Menschen solche kontextuellen Details, ohne es groß zu bemerken.

In Chats mit LLMs ist es ähnlich, nur dass wir den Kontext hier aktiv herstellen müssen. Wenn wir einem Modell »Hier regnet es gerade« mitteilen, weiß es nur dann, wo es gerade regnet, wenn wir es explizit erwähnen: »Hier in Düsseldorf regnet es gerade« (Apps, die Zugriff auf Standortdaten haben, einmal ausgeklammert).

In einem anekdotischen Test mit ChatGPT-4o konnte das Modell aus dem folgenden Prompt übrigens im ersten Anlauf nicht schließen, dass möglicherweise von der Sanierung der Kölner Oper die Rede ist:

Stell dir vor, du sitzt in einem Kölner Café und hörst Fetzen vom Nebentisch, “… und dann ist da noch die Sache mit dieser komischen Oper …”, wobei du einen ziemlich spöttischen Tonfall erkennst. Welche Schlüsse würdest du aus diesen kontextuellen Informationen ziehen?

Erst nach einem »Nachsetzen« meinerseits …

Hm, und wenn es sich auf die Sanierung bezieht?

… hat es geklappt. Hier die wesentlichen Abschnitte der Antwort:

Ah, wenn die Aussage “… die Sache mit dieser komischen Oper …” auf die Sanierung bezogen ist, verändert das die Interpretation ganz erheblich!

…

Hier ein paar mögliche Schlüsse:

–

Frust über langwierige Baumaßnahmen: …

–

Ironischer Kommentar zu Management und Kosten: …

–

Kritik an öffentlichen Investitionen in Kulturprojekte: …

–

Komisch im Sinne von absurd: …

Beim Kontext müssen wir also manchmal etwas nachhelfen, um einem Sprachmodell den richtigen Weg zu weisen. Aber wenn es erst einmal Witterung aufgenommen hat, kann es auch Ironie und Spott einordnen.

Verschiedene Arten von Kontext

Zum Kontext gehören unter anderem alle Prompts und Antworten eines Chats, eventuelle Uploads von Dateien, Daten, die ein Modell innerhalb des Chats bzw. zur Beantwortung einer Frage oder Instruktion aus externen Quellen bezieht (Websuche, Datenbanken) sowie gegebenenfalls ganze Codebasen, die manuell oder automatisch im Prompt übergeben oder durch aktiven Zugriff des Modells abgerufen werden (siehe hierzu in Kapitel 3 »Rollen, Personas und benutzerdefinierte Chatbots«). Die KI kann zudem die Tonalität und Wortwahl Ihres Prompts bzw. des gesamten Chats analysieren. Auch das liefert ihr Kontextinformationen.

Über je mehr Kontext ein Modell verfügt, desto besser kann es korrekte und nuancierte Antworten generieren. Unsere Aufgabe als Nutzer besteht darin, zu überlegen und zu entscheiden, welchen Inhalt und welchen Umfang der Kontext haben muss. Wir wollen so wenig Kontext wie nötig liefern, um den zeitlichen und gedanklichen Aufwand für dessen Bereitstellung zu minimieren, aber genug, damit die Aufgabe mit möglichst wenigen Prompts erledigt werden kann.

Liefern Sie dem Modell also ausreichend Kontext, aber nicht überbordend oder irrelevant. Bei zu wenig Kontext bekommt ein Modell möglicherweise zu viel Interpretationsspielraum, überflüssiger Kontext lenkt ab. Beides kann zu Missverständnissen oder überflüssigen Nachfragen führen. Außerdem soll Kontext die Kreativität des Modells bei der Lösung einer Aufgabe geschickt in die gewünschte Richtung lenken. Ausreichender Kontext hilft dem Modell zudem dabei, Nuancen und implizite Bedeutungen besser zu erfassen.

Nebenbei: Zwerge und Kontext

Vom mittelalterlichen Philosophen Bernhard von Chartres stammt das Zitat:

Wir sind Zwerge, die auf den Schultern von Riesen stehen.

Damit verweist er darauf, dass unsere heutigen Erkenntnisse und erzielten Fortschritte auf dem Wissen und den Errungenschaften früherer Generationen aufbauen. Wenden wir dieses Bild auf das Thema dieses Buchs an, könnte man auch sagen:

Unsere Prompts stehen auf den Schultern des Kontexts.

Darüber hinaus gilt es beim Kontext zu unterscheiden, welchen Geltungsbereich er hat. Gibt es Dinge, die ein LLM immer beachten soll? Gibt es Informationen, die nur für ein bestimmtes Projekt oder eine bestimmte Domäne wichtig sind? Oder geht es um eher flüchtigen Kontext, der nur für den aktuellen Chat relevant ist? Die KI-Anbieter offerieren unterschiedliche Möglichkeiten, den LLMs diese Kontextarten bereitzustellen. Mehr dazu in »Rollen, Personas und benutzerdefinierte Chatbots« in Kapitel 3.

Kontextfenster

Ende 2022, zu Beginn des Hypes um ChatGPT, kamen die Modelle im Zuge einer Unterhaltung oft relativ schnell vom Thema ab und vergaßen wichtige Details aus dem bisherigen Gesprächsverlauf. Das lag meist an der zu geringen Größe des sogenannten Kontextfensters.

Dieser Begriff bezeichnet die maximale Menge an Informationen, die ein Sprachmodell gleichzeitig verarbeiten und nutzen kann, um Anfragen besser zu verstehen und Zusammenhänge herzustellen. Das Kontextfenster ist gewissermaßen das Arbeitsgedächtnis eines LLM.

Der Kontext erlaubt einem Modell, sinnvollere Verknüpfungen zwischen den einzelnen Informationen herzustellen und die Bedeutung einzelner Aussagen besser zu interpretieren. Geht der Kontext verloren, weil nicht mehr alle Informationen ins Kontextfenster passen, können die Antworten ungenau, unzusammenhängend oder sogar widersprüchlich werden.

Kontext wirkt sich indirekt auch auf das Prompting aus. Man könnte – etwas vereinfacht ausgedrückt – sagen: Je mehr Kontext vorliegt, desto unschärfer kann ein Prompt formuliert werden, weil der Kontext einem Modell hilft, besser zu verstehen, was wir meinen und wollen.

Die Größe des Kontextfensters wird üblicherweise in Tokens angegeben. Tokens sind die kleinsten Einheiten, in die Sprachmodelle Text zerlegen, und können einzelne Buchstaben, Satzzeichen, Silben oder einzelne Wörter umfassen. Aus Sicht eines LLM sind Tokens die kleinsten Bausteine, mit deren Hilfe Texte verstanden, codiert und generiert werden. Dazu im nächsten Abschnitt mehr.

Bei der Veröffentlichung von ChatGPT konnte das damals eingesetzte Modell GPT-3.5 maximal 4.096 Tokens gleichzeitig verarbeiten. Sobald Gespräche auf der Benutzeroberfläche eine Länge von etwa 3.000 Wörtern überschritten, bestand das Risiko, dass der Chatbot fehlerhafte oder thematisch abweichende Antworten generierte.

Im Vergleich zu den Vorgängermodellen GPT-1 und GPT-2 mit 512 und 1.024 Tokens war das bereits ein riesiger Fortschritt. Bei Redaktionsschluss dieses Buchs verfügte GPT-5 über ein Kontextfenster von 400.000 Tokens – das sind im Vergleich zu GPT-4o mit 128.000 Tokens mehr als doppelt so viele. Claude Sonnet 4 und Gemini 2.5 Pro bieten jeweils eine Million Tokens und nehmen damit aktuell die Spitzenposition ein. Damit sind Größenordnungen erreicht, bei denen längst ganze Buchinhalte und umfangreiche Datenbasen vollständig in ein Kontextfenster passen. Schon ein Umfang von 128.000 Tokens reicht ungefähr für ein 250-seitiges Buch.

Diese Angaben beziehen sich immer auf die Nutzung per API, also den programmgesteuerten Zugriff auf ein Modell. In Chatoberflächen arbeiten die Modelle häufig mit kleineren Kontextfenstern, unter anderem abhängig von der Implementierung und der aktuellen Auslastung durch Nutzeranfragen. Dennoch muss man sich auch in Chatbots über die Größe der Kontextfenster keine großen Gedanken mehr machen.

Man sollte allerdings im Hinterkopf behalten, dass mit zunehmend mehr Informationen gefüllte Kontextfenster auch die Rechenlast bei der Verarbeitung einer Anfrage erhöhen – und damit den Energie- und Wasserverbrauch. Verdoppelt man die Länge einer Eingabesequenz, wird für eine Anfrage etwa viermal mehr Speicher und Rechenleistung benötigt.

Gut zu wissen: Position im Kontextfenster beeinflusst Verständnis

Größere Kontextfenster verbessern die Performance von LLMs – bis zu einem gewissen Punkt. Eine Studie aus dem Jahr 2023 mit dem bezeichnenden Titel »Lost in the Middle: How Language Models Use Long Contexts« (arxiv.org/abs/2307.03172) beschreibt, dass die LLMs oft Informationen, die eher am Anfang oder am Ende des Kontextfensters stehen, besser finden, verstehen und berücksichtigen. Untersucht wurden allerdings heutzutage veraltete Modelle wie GPT-3.5 und Claude 1.3. Aber auch neuere Modelle zeigen laut verschiedenen Berichten das gleiche Verhalten.

Daraus ergibt sich folgender Tipp:

Tipp: Daten gegebenenfalls an den Anfang stellen

Falls Sie vorab wissen, dass Sie mit Ihren Prompts auf sehr lange Kontextinformationen zugreifen (sehr viele oder sehr lange Dokumente, Bücher oder Codebasen) und dass bestimmte Informationen besonders wichtig sind, könnte es also hilfreich sein, diese Daten an den Anfang zu stellen.

Übersteigt die Menge an Kontext die Größe des Kontextfensters, vergisst das Sprachmodell die ältesten Informationen. In diesem Fall kann es passieren, dass ein Modell inkohärente Antworten gibt, sich widerspricht oder den roten Faden verliert.

Um diesem Effekt entgegenzuwirken, gibt es unterschiedliche Ansätze: Beispielsweise können Memory-Management-Techniken so gestaltet werden, dass wichtige Inhalte mit speziellen Markierungen versehen werden, um sicherzustellen, dass sie im Kontext verbleiben. Beim Chunking zerlegt das Modell den Text in kleinere Abschnitte, die nach ihrer Relevanz priorisiert werden. Weniger wichtige Teile werden dabei ignoriert, während zentrale Informationen im Gedächtnis des LLM bleiben. Eine weitere Methode ist das gleitende Erstellen von Zusammenfassungen: Immer dann, wenn der bisherige Inhalt zu umfangreich wird und nicht mehr vollständig im Kontext präsent gehalten werden kann, wird der bisherige Gesprächsverlauf zusammengefasst und dadurch textlich komprimiert.

Auch die maximale Länge einer Antwort variiert je nach Modell und Nutzungsszenario und ist meist deutlich geringer als die Größe des Kontextfensters. Bei GPT-5 fasst das Kontextfenster bei der Nutzung per API 400.000 Tokens, während die Antwortlänge auf 128.000 Tokens begrenzt ist.

Die Kohärenz der Antworten nimmt im Verlauf eines Chats oft zu, solange die Kontextfenstergröße noch nicht überschritten ist, weil das Modell während des Gesprächs lernt (In-Context-Learning). Wenn Sie in einem Gespräch beispielsweise zuerst erwähnen, dass Sie zwei Katzen und drei Bernhardiner besitzen, und das Modell später danach fragen, wie viel Futter Sie für eine Woche ungefähr einkaufen müssen, erinnert sich das Modell an die Anzahl der Tiere und wird Ihnen einen entsprechenden Vorschlag machen. (Ob dieser Vorschlag inhaltlich sinnvoll ist, hängt dann von der Qualität des Modells und dessen Training ab.)

Gut zu wissen: In-Context-Learning

In-Context-Learning beschränkt sich normalerweise auf den aktuellen Chat. Sprachmodelle lernen nicht kontinuierlich aus jeder Unterhaltung (oder jeder API-Anfrage) dazu. LLMs sind im Kern zustandslos – und damit gedächtnislos: Sobald ein Gespräch endet, geht der gesamte Kontext verloren (bei API-Nutzung bei jedem Request), es sei denn, die Informationen werden explizit in einer Datenbank oder einem anderen Speicher persistiert und beim nächsten Chat wieder eingelesen, um das In-Context-Learning zu wiederholen.

Tokens

Im vorherigen Abschnitt haben Sie Tokens als Maß für die Größe des Kontextfensters kennengelernt. Schauen wir uns nun genauer an, wie Text in Tokens umgewandelt wird – und zurück. Wer versteht, wie die Tokenisierung funktioniert, kann oft besser nachvollziehen, warum LLMs bei bestimmten Aufgaben stolpern oder sogar scheitern.

Tokens sind, wie bereits erwähnt, die kleinsten Einheiten, mit denen ein Sprachmodell arbeitet. Diese Einheiten können kurze Wörter, Silben, Buchstaben oder einzelne Satzzeichen sein. Ob ein Token ein ganzes Wort oder nur ein Fragment ist, hängt von der verwendeten Tokenisierungsmethode ab. Modelle wie GPT setzen meist auf sogenannte Subword-Verfahren. Dabei werden häufig vorkommende Wörter als Ganzes behandelt, während seltene oder zusammengesetzte Wörter in kleinere Teile zerlegt werden.

Einzelne Tokens können, müssen aber nicht bedeutungstragend sein. Oft ergibt sich die volle Bedeutung erst aus der Kombination mehrerer Tokens.

Der Satz »Prompting ist faszinierend!« könnte beispielsweise in diese Tokens zerlegt werden (die Leerzeichen sind bei GPT-Tokenizern gewöhnlich Teil des Tokens):

»Prompt«

»ing«

»ist«

»faszinierend«

»!«

Bei einem längeren oder komplexeren Satz wären es entsprechend mehr Tokens. Je nach Modell und Sprache kann die Anzahl und Art der Tokens variieren, da für die Tokenisierung unterschiedliche Algorithmen zum Einsatz kommen.

Neuronale Netzwerke arbeiten intern letztlich mit Zahlen. Um einen Text verarbeiten zu können, muss dieser zuerst in eine numerische Repräsentation umgewandelt werden. Die Tokenisierung zerlegt den Text in kleinere Einheiten, die einfacher und effizienter zu verarbeiten sind, und stellt sie als Zahlen dar.

Dazu werden die gefundenen Tokens anhand eines vorgegebenen Token-Vokabulars in eindeutige Ganzzahlen übersetzt. Der obige Beispielsatz könnte etwa durch folgende Liste von Ganzzahlen repräsentiert werden, hier als Array-Darstellung: [1234,5678,90,23456,789].

Wörter, die nicht als Ganzes im Wörterbuch enthalten sind (man spricht dabei von OOV-Wörtern: Out-of-Vocabulary) und auch nicht durch Subword-Tokenisierung in bekannte Tokens zerlegt werden können, werden gegebenenfalls als einzelne Bytes verarbeitet. In früheren Modellen wurde dafür oft ein spezielles <UNK>-Token (für Unknown) verwendet, das durch eine eigene Ganzzahl dargestellt wurde.

Diese numerische Repräsentation der Tokens wird dann in einen sogenannten Vektorraum überführt, wobei jedes Token als Vektor in einem mehrdimensionalen Raum dargestellt wird. Man kann sich einen Vektorraum als eine Art mehrdimensionalen Zahlenraum vorstellen – ähnlich wie ein Koordinatensystem aus dem Mathematikunterricht, nur mit weit mehr als nur zwei oder drei Achsen. Wie genau ein Modell Tokens in Vektoren umwandelt und diese nutzt, um sinnvolle Zusammenhänge herzustellen, beleuchten wir später noch genauer.

Wenn ein Modell im weiteren Verlauf eine Antwort generiert, sagt es Schritt für Schritt voraus, welches Token als nächstes kommen soll. Dafür arbeitet es intern ebenfalls mit Vektoren, die dann in eine Token-ID und schließlich in lesbaren Text zurückübersetzt werden – also genau umgekehrt zur Eingabeverarbeitung. Dieser Vorgang wird als Detokenisierung bezeichnet.

Eine grobe Schätzung für die Umrechnung von Tokens in Text lautet:

1 Token ≈ 4 Zeichen (Englisch) sind ≈ 0,75 Wörter.

1 Buchseite (ca. 300 bis 500 Wörter) umfasst grob 400 bis 700 Tokens (je nach Layout, Sprache und Textart).

Englische Wörter sind im Durchschnitt kürzer, weshalb hier ein paar weniger Tokens anfallen als bei manch anderen Sprachen (beispielsweise Deutsch). Fachtexte oder sehr technische Inhalte können aufgrund der Häufigkeit komplexer Wörter, die nicht im Vokabular des Tokenizers enthalten sind und oft in sehr kleine Tokens zerlegt werden müssen, eine höhere Token-Dichte aufweisen.

OpenAI bietet, um das Verhältnis von Wörtern und Tokens bei größeren Textmengen besser abschätzen zu können, einen interaktiven Tokenizer (https://platform.openai.com/tokenizer) an, mit dem Sie die Anzahl der Tokens berechnen können, in die ein Text zerlegt wird. Die Token-Anzahl ist aber normalerweise nur interessant, wenn man per Programmierschnittstelle auf ein Modell zugreift und zu genaueren Kostenabschätzungen gelangen möchte.

Mein obiger Beispielsatz wird bei der spezifischen Tokenisierung des OpenAI-Modells GPT-4o übrigens in sechs Tokens zerlegt, nicht in fünf (siehe Abbildung 1.3). Ältere Modelle von OpenAI tokenisieren teilweise noch kleinteiliger.

Abbildung

1.3

: Der OpenAI-Tokenizer zerlegt einen Text in Tokens.

Inzwischen gibt es viele multimodale Modelle (vor allem solche, die in Chatbots genutzt werden), die nicht nur Text, sondern auch andere Datentypen wie Bilder, Audio oder Videos verarbeiten können. Diese multimodalen Daten werden ebenfalls als Tokens codiert. Ein Bild könnte zum Beispiel in Hunderte oder Tausende von kleineren Bildabschnitten von beispielsweise 16 × 16 Pixeln zerlegt werden – Patches genannt –, die dann zusammen mit den Texttokens ins Kontextfenster passen müssen. Das erfordert oft eine ausgeklügelte Priorisierung, da diese Daten mehr Speicherplatz beanspruchen als reiner Text.

Weiter oben wurde schon erwähnt, dass LLMs bei einigen Aufgabenstellungen scheitern oder zumindest mit ihnen zu kämpfen haben – etwa damit, Buchstaben in Wörtern zu zählen (siehe »Der Strawberry-Test« in Kapitel 3). Das liegt daran, dass Sprachmodelle keine algorithmische Analyse von Text durchführen (es sei denn, sie generieren Programmcode und führen diesen in einer Sandbox-Umgebung aus). Dass nicht Buchstaben als kleinste Texteinheiten dienen, sondern Tokens, erschwert die Arbeit auf Buchstabenebene zusätzlich.

Sprachmodelle – eine kompakte Theorie

Vielleicht fragen Sie sich, warum ein Buch über Prompting Erläuterungen zur Theorie von Sprachmodellen enthält. Der Grund ist einfach: Ich bin davon überzeugt, dass man Sprachmodelle umso besser bedienen und ihre Reaktionen (den KI-Output) umso besser einordnen kann, je besser man in den Grundzügen versteht, warum und wie sie funktionieren.

In der theoretischen Darstellung beschränke ich mich auf einige wesentliche Konzepte, die wichtig sind, um zu verstehen, wie LLMs Sprache verstehen und generieren. Es geht darum, ein Gefühl dafür zu entwickeln, wie Sprachmodelle ticken: wie sie Denken simulieren und uns die Ergebnisse dieses künstlichen Denkens durch generierte Sprache präsentieren. Um einige technische Details kommen wir nicht herum, der Fokus liegt dabei aber immer auf deren Bedeutung für Sprachverständnis und -erzeugung.

Was ist ein LLM?

Aber was genau ist ein Large Language Model, ein großes Sprachmodell eigentlich? Eine erste mögliche Definition könnte lauten:

Definition: Large Language Model

Ein LLM ist ein künstliches neuronales Netzwerk, das mit großen Mengen an Textdaten trainiert wurde, um mithilfe statistischer Methoden Sprache zu verstehen und zu generieren. Es ist in der Lage, komplexe Zusammenhänge zu erfassen und Antworten in menschenähnlicher Sprache zu formulieren.

Vielleicht fragen Sie sich jetzt, was denn mit all den anderen Dingen ist, die der Chatbot Ihrer Wahl neben Sprache verarbeitet, versteht und produziert. Zu Recht, denn moderne KI-Systeme können zunehmend mit unterschiedlichen Formen des Daten-Inputs umgehen, die auch als Modalitäten bezeichnet werden. Neben Text sind das typischerweise Bilder, Videos und Audiodaten, es können aber auch andere etwa von physischen Sensoren gelieferte Daten (Temperatur, Luftfeuchtigkeit, Gasgehalte etc.) sein. Auch der KI-Output ist zunehmend multimodal.

Da aber in jedem Fall Prompts nötig sind, um einer KI Anweisungen zu geben, bleibt das Verständnis von Sprache auch für multimodale Modelle zentral. Das gilt ebenfalls in der internen Übersetzung zwischen den einzelnen Modalitäten, wenn beispielsweise der Inhalt eines Bilds oder Videos beschrieben werden soll.

In diesem Buch spreche ich deshalb weiter von LLMs und Sprachmodellen, auch wenn viele generative KI-Systeme weitere Modalitäten beherrschen.

Ein anderer Blickwinkel

Es gibt Branchen, die sich dem Phänomen Sprache aus einem weniger technisch geprägten Blickwinkel nähern als die Informatik: beispielsweise Übersetzerinnen und Übersetzer, die die Auswirkungen von KI schon seit vielen Jahren spüren, spätestens seit dem Markteintritt von DeepL um 2017 herum. Hier eine Stellungnahme des Verbands deutschsprachiger Übersetzer/innen literarischer und wissenschaftlicher Werke, der sich berufsbedingt intensiv mit dem Wesen von Sprachmodellen beschäftigt hat:

Textgenerierende KI-Systeme können menschliche Sprache lediglich simulieren. Sie haben weder Gedanken noch Emotionen oder ästhetisches Empfinden, kennen keine Wahrheit, kein Weltwissen und keine Gründe für [ihre] … Entscheidungen.

Wer viel mit Sprachmodellen arbeitet, wird bald erkennen, dass ihr künstliches »Verstehen« von Sprache nicht immer bedeutet, dass sie auch eine beschriebene Aufgabe verstehen (oder ein Projekt, einen Hintersinn, ein Ziel). Ihr Verständnis beruht ganz auf einer erlernten, statistischen, funktionalen Verarbeitung von Sprache. Was fehlt, ist ein tieferes, bewusstes, introspektives Verständnis für die Inhalte der Sprache. Da die künstlich erzeugte Sprache auf den ersten Blick so beeindruckend der von Menschen erzeugten Sprache gleicht, ist der Unterschied nur schwer in Worte zu fassen – aber er ist spürbar.

Tausende von E-Books und Hörbücher

Ihre Zahl wächst ständig und Sie haben eine Fixpreisgarantie.

Sie haben über uns geschrieben: