Was kann künstliche Intelligenz? - Sepp Hochreiter - E-Book

Was kann künstliche Intelligenz? E-Book

Sepp Hochreiter

0,0
20,99 €

-100%
Sammeln Sie Punkte in unserem Gutscheinprogramm und kaufen Sie E-Books und Hörbücher mit bis zu 100% Rabatt.
Mehr erfahren.
Beschreibung

Retter der Welt oder doch nur gehypte Technologie: KI erklärt und bewertet Sie können beeindruckende Texte erzeugen und Bilder generieren: ChatGPT und andere KI-Anwendungen sind bereits fest in unserem Alltag verankert. Doch was kann Künstliche Intelligenz über einfache Prompts hinaus leisten? Ist sie vielleicht sogar die Lösung für alle Probleme, mit denen die Menschheit derzeit konfrontiert ist? Kann sie bisher tödliche Krankheiten heilen, den Klimawandel entschärfen und den Hunger aus der Welt schaffen? Sepp Hochreiter, einer der weltweit führenden KI-Experten zeigt auf, wie Mensch und Maschine in Zukunft zusammenarbeiten könnten. -  KI aus der Sicht eines Spezialisten: Sepp Hochreiter, Universitätsprofessor in Linz, hat mit der Erfindung der LSTM-Technologie die Grundlagen u.a. für viele heutige Sprachverarbeitungs-Tools geschaffen - Zeitersparnis durch Simulation: Wie KI die Medizin und industrielle Produktion revolutionieren kann - Die Zukunft der Künstlichen Intelligenz: Wo ist sie von Nutzen, wo Kontrolle notwendig? - Eine wechselvolle Geschichte: Die KI zwischen Erfolgen, Niederlagen, Durchbrüchen und Durststrecken - Überzogene Versprechungen? – Was KI-Technologien heute wirklich leisten Ein renommierter KI-Forscher über die Zukunft von Mensch und Maschine Sepp Hochreiter hat bereits in seiner Diplomarbeit über dynamische neuronale Netze geschrieben und skizziert, was mit KI heute schon Realität ist. Im vorliegenden Buch erklärt er auf leicht verständliche Art und Weise seine Vision einer Künstlichen Intelligenz, die die Welt tatsächlich zum Besseren verändert. Weit über die aktuellen Anwendungen hinaus strebt er eine KI an, die die reale Welt exakt abbilden kann. Durch die Simulation komplexer physikalischer und biologischer Prozesse wären beispielsweise Medikamententests und Forschungen zur Bekämpfung des Klimawandels möglich. Wo wir auf dem Weg dorthin stehen und wozu KI-Technologien derzeit bereits in der Lage sind, zeigt er kenntnisreich in diesem Buch über Künstliche Intelligenz auf.

Das E-Book können Sie in Legimi-Apps oder einer beliebigen App lesen, die das folgende Format unterstützen:

EPUB
MOBI

Seitenzahl: 206

Veröffentlichungsjahr: 2025

Bewertungen
0,0
0
0
0
0
0
Mehr Informationen
Mehr Informationen
Legimi prüft nicht, ob Rezensionen von Nutzern stammen, die den betreffenden Titel tatsächlich gekauft oder gelesen/gehört haben. Wir entfernen aber gefälschte Rezensionen.



Sepp Hochreiter

WAS KANN KÜNSTLICHE INTELLIGENZ?

Sepp Hochreiter

WAS KANN KÜNSTLICHE INTELLIGENZ?

Wird sie Wohlstand für alle schaffen, Krebs heilen und das Klimaproblem lösen?

Sämtliche Angaben in diesem Werk erfolgen trotz sorgfältiger Bearbeitung ohne Gewähr.

Eine Haftung der Autoren beziehungsweise Herausgeber und des Verlages ist ausgeschlossen.

1. Auflage

© 2025 ecoWing Verlag bei Benevento Publishing Salzburg – Wien, eine Marke der

Red Bull Media House GmbH, Wals bei Salzburg

Alle Rechte vorbehalten, insbesondere das des öffentlichen Vortrags, der Übertragung durch

Rundfunk und Fernsehen sowie der Übersetzung, auch einzelner Teile. Kein Teil des Werkes

darf in irgendeiner Form (durch Fotografie, Mikrofilm oder andere Verfahren) ohne schriftliche

Genehmigung des Verlages reproduziert oder unter Verwendung elektronischer Systeme

verarbeitet, vervielfältigt oder verbreitet werden.

Medieninhaber, Verleger und Herausgeber:

Red Bull Media House GmbH

Oberst-Lepperdinger-Straße 11–15; 5071 Wals bei Salzburg, Österreich

[email protected]

Layout und Satz: MEDIA DESIGN: RIZNER.AT

Gesetzt aus der Palatino, Resolve

Umschlagmotiv: © Nolan / stock.adobe.com, generiert mit KI

Umschlaggestaltung: b3K design, Andrea Schneider, diceindustries

Autorenillustration: Claudia Meitert / carolineseidler.com

Printed by PNB Print in Lettland

ISBN: 978-3-7110-5382-4

e-ISBN: 978-3-7110-0365-2

Inhaltsverzeichnis

Einleitung

1 Lernende Netze

2 KI mit Gedächtnis

3 Mensch versus Maschine

4 Was kommt nach ChatGPT?

5 Die Industrialisierung der KI

6 Die Welt simulieren

7 Digitale Zwillinge

8 Komplexität beherrschen

9 Chance für Europa

10 KI kontrollieren

11 Warum wir KI brauchen

GLOSSAR

Quellenhinweise

Einleitung

Als ich 1991 meine Diplomarbeit über »dynamische neuronale Netze« schrieb, skizzierte ich darin Methoden, die erst viele Jahrzehnte später ihre Anwendungen finden sollten: Computer, die Musik komponieren, künstliche Agenten, die selbstständig lernen, und Systeme, die komplexe Prozesse steuern.

Künstliche Intelligenz erlebt heute einen Boom, den ich selbst nicht für möglich gehalten hätte. Zugleich polarisiert keine Technologie so stark wie die KI. Während die einen grenzenlose Möglichkeiten sehen, warnen die anderen vor unkalkulierbaren Risiken. KI soll gewaltige Produktivitätsfortschritte bringen, das Klima retten und Krebs heilen. Aber was kann die Technologie wirklich? Stehen wir tatsächlich vor einer neuen industriellen Revolution – oder erleben wir nur einen Hype, der bald wieder verpuffen wird?

Dieses Buch handelt von meinem wechselvollen Weg in der KI-Forschung, es geht um Erfolge und Niederlagen, um Durchbrüche und Durststrecken. Vor allem aber geht es um die Möglichkeiten und Grenzen der KI.

Ein großer Teil der öffentlichen Diskussion wird durch überhöhte Versprechungen angetrieben. Es gibt Stimmen – etwa von Sam Altman, dem CEO von OpenAI –, die behaupten, wir stünden kurz davor, eine AGI (Artificial General Intelligence) zu erreichen. Das halte ich für übertrieben. Kein KI-System hat bisher die Breite menschlicher Fähigkeiten erreicht. Kein KI-System fährt autonom ein Auto, macht die Wäsche oder löst unsere Alltagsprobleme. Die Realität ist, dass KI sehr gut in spezifischen Bereichen arbeitet, wie etwa in der Verarbeitung und Reproduktion von Wissen. Aber von einer »allgemeinen Intelligenz« oder gar einer »Superintelligenz« sind wir weit entfernt. Ganz abgesehen davon, dass die Definition dieser Begriffe unklar ist.

Warum also solche Behauptungen? Möglicherweise spielen hier wirtschaftliche Interessen eine Rolle, etwa die Steigerung des Marktwerts von Unternehmen oder das Einwerben von Forschungsgeldern. Gleichzeitig gibt es Stimmen von Kritikern, die auf die offensichtlichen Schwächen aktueller KI-Modelle hinweisen, wie ihre Unfähigkeit, logisch zu folgern, sich auf neue Situationen einzustellen oder einen Kontext konsistent zu verarbeiten.

Die Entwicklung der KI steht derzeit an einem Wendepunkt. Seit der Veröffentlichung von ChatGPT haben vor allem amerikanische Technologiekonzerne Milliarden von Dollar in immer größere und leistungsfähigere Textmodelle investiert. Das von US-Präsident Donald Trump angekündigte Infrastrukturprojekt »Stargate« soll in den nächsten Jahren weitere 500 Milliarden Dollar in zusätzliche Rechenkapazitäten pumpen. Doch die Zweifel wachsen, ob dies der richtige Weg ist.

Da die großen Internetfirmen derzeit immer größere KI-Modelle vorstellen, könnte man meinen, dass Intelligenz aus großer Rechenleistung und großen Datenmengen entsteht. Die Realität ist jedoch anders. Die Schwächen aktueller großer KI-Systeme zeigen sich besonders in logischen Aufgaben. Ein oft zitiertes Beispiel ist das Problem mit Pfirsichen: Ein KI-Modell berechnet korrekt, wie viele Pfirsiche übrigbleiben, wenn man welche hinzufügt oder entfernt. Doch wenn zusätzliche, irrelevante Informationen eingebaut werden – etwa das Gewicht oder die Farbe der Pfirsiche –, scheitert das System. Menschen erkennen sofort, dass diese Details für die Aufgabe keine Rolle spielen. Ein KI-System hingegen verliert den Fokus und liefert falsche Ergebnisse.

Dieses Beispiel zeigt, dass KI zwar beeindruckend erscheinen kann, aber immer noch grundlegende Verständnisprobleme hat. So imitieren große Textmodelle Intelligenz, indem sie Texte reproduzieren und kombinieren, die sie während des Trainings gelernt haben. Sie »verstehen« jedoch nicht im menschlichen Sinne. Letztlich sind sie nichts anderes als Datenbanken, die riesige Textmengen wie Papageien auswendig gelernt haben. Das gilt auch für die Modelle des chinesischen Start-ups DeepSeek, die zuletzt viel Staub aufgewirbelt haben.

So beeindruckend die Textgenerierung auch ist: Was mich viel mehr interessiert, ist eine KI, die unsere Welt versteht und modellieren kann. Eine KI, die physikalische und biologische Prozesse nachbilden kann, um neue Medikamente zu finden, den Klimawandel zu bekämpfen oder komplexe industrielle Systeme zu optimieren.

Auf dem Weg zur Maschinenintelligenz fehlt meiner Überzeugung nach etwas Grundlegendes – eine entscheidende neue Idee. Genau darum geht es mir in diesem Buch. Wir müssen besser verstehen, wie wir Menschen aus wenigen Beispielen lernen. Wie man die physikalische Welt versteht. Und wie man Probleme löst, die man nie zuvor gesehen hat.

Wir stehen an der Schwelle zur dritten Phase der Künstlichen Intelligenz: der Industrialisierung. Nach der Grundlagenforschung und der Skalierung ist es nun an der Zeit, KI-Methoden in die wirtschaftliche Anwendung zu überführen. Gerade für Europa bietet sich jetzt eine einmalige Gelegenheit – wenn es gelingt, die Zusammenarbeit zwischen Forschungseinrichtungen und Unternehmen zu intensivieren und Innovationen gezielt in die Praxis zu bringen. Das nötige Wissen und das industrielle Know-how haben wir.

Das wahre Potenzial von KI liegt darin, komplexe Probleme zu lösen, die unsere menschlichen Fähigkeiten übersteigen. Wir brauchen sie, um den Klimawandel zu bekämpfen, um Krebs zu heilen, um das Energie- oder Verkehrsproblem zu lösen. Künstliche Intelligenz darf kein Selbstzweck sein. Am Ende muss sie uns Menschen dienen.

1 Lernende Netze

Als 13-Jähriger stieß ich in einer Regionalzeitung auf einen Artikel über Schach. Das Spiel zog mich sofort in seinen Bann. Ich wollte alles über Schach wissen, besiegte irgendwann meinen Onkel und trat einem Schachklub bei. Schach war für mich dabei mehr als nur ein Spiel. Es schärfte nicht nur mein logisches und strategisches Denken. Durch das Schachspielen lernte ich auch, mich über lange Zeiträume hinweg auf ein Problem zu konzentrieren – eine Fähigkeit, die mir bei meiner wissenschaftlichen Karriere später entscheidend half.

Ich wuchs auf einem Bauernhof in Bayern auf. Meine Kindheit war geprägt vom Landleben, von Fußball und Skifahren – und eigentlich war mein Weg vorgezeichnet: Als Erstgeborener sollte ich den elterlichen Hof übernehmen. Der Besuch eines Gymnasiums kam nicht in Frage. Doch ich war neugierig, ich wollte lernen. Im Schachklub traf ich auf Gymnasiasten, die mir Bücher über Physik und Mathematik empfahlen. Im Selbststudium eignete ich mir das Mathematikwissen der ersten Universitätssemester an. Ohne Abitur konnte ich zwar nicht Mathematik studieren. Mein Schulabschluss ermöglichte mir aber zumindest eine Studienberechtigung für ein Informatikstudium an der FH München, das dortige Vordiplom wiederum den Zugang zu einem Informatikstudium an der TU München. Diese Mischung aus Mathematik und Technik wurde später zu meinem größten Vorteil.

Als ich Mitte der 1980er-Jahre mein Studium begann, war die Informatik noch ein junges Fach. Von künstlicher Intelligenz war noch nicht viel zu sehen, zumindest nicht in der modernen Form, wie wir sie heute kennen. Es gab erste Ansätze, neuronale Netze zu verstehen und anzuwenden, aber es fühlte sich oft an wie Science-Fiction. Denn diese neue Disziplin versprach etwas, das über die Mathematik hinausging: Maschinen zu entwickeln, die menschliche Probleme lösen können. Die Idee, dass ein Computer nicht nur rechnen, sondern auch lernen und »denken« könnte, übte eine unwiderstehliche Faszination auf mich aus. Schon als Student spürte ich, dass hier etwas grundlegend Neues begann.

Eine neue Art zu denken

In der KI-Forschung gab es damals zwei Welten: die klassische symbolische KI – und das völlig neue, unerschlossene Feld der subsymbolischen KI, der neuronalen Netze also. Symbolische KI arbeitet mit Methoden, die auf klaren Regeln, Formeln und Logik basieren. Subsymbolische KI, wie typischerweise neuronale Netze, lernt hingegen aus Daten und generalisiert auf neue Fälle.

In Europa dominierte in den 80er-Jahren die symbolische KI. Expertensysteme, die mit symbolischem Wissen gefüttert wurden, lieferten damals durchaus beeindruckende Ergebnisse, insbesondere in spezialisierten Bereichen wie der Medizin oder der Ingenieurwissenschaft. Trotz ihrer Erfolge stieß die symbolische KI allerdings an Grenzen. Sie war stark abhängig von vorab definierten Regeln und konnte mit unstrukturierten oder unvollständigen Informationen kaum umgehen. Genau da setzte die subsymbolische KI an, die auf lernenden Systemen wie neuronalen Netzen basiert.

Die heutige KI-Forschung bewegt sich zunehmend in Richtung subsymbolischer Ansätze, da diese in vielen praktischen Anwendungen überlegen sind. Dennoch bleibt die symbolische KI relevant, insbesondere in Bereichen, die hohe Sicherheit und Genauigkeit erfordern.

Expertensysteme, Logiksysteme und andere Ansätze der symbolischen KI fand ich zwar interessant, doch mir fehlte darin die Faszination des Neuen und Unbekannten. Also stürzte ich mich auf das neue, kaum erforschte Gebiet der neuronalen Netze, das sich von der Funktionsweise des menschlichen Gehirns inspirieren ließ. Es war eine völlig neue Herangehensweise, die nicht auf starren Regeln beruhte. Was mich besonders interessierte, war die Fähigkeit neuronaler Netze, aus Beispielen zu lernen. Ein Netz wird mit Daten gefüttert – mit Eingaben und den dazugehörigen Ausgaben – und entwickelt daraus ein Modell, das diese Beziehung beschreibt. Das eröffnete ungeahnte Möglichkeiten, Probleme zu lösen.

Neuronale Netze waren zu dieser Zeit allerdings noch ein Nischenthema. Sie galten als unzuverlässig und schwer verständlich, und es gab kaum praktische Anwendungen. Ich spürte jedoch, dass die neuronalen Netze nicht nur sehr interessant waren, sondern zudem ein großes Potenzial hatten, auch wenn sie damals noch ganz am Anfang standen.

Heute sind neuronale Netze das Herzstück moderner KI-Systeme und haben sich von einem spekulativen Forschungsgebiet zu einer Schlüsseltechnologie entwickelt. Ihre Vielseitigkeit macht sie in zahlreichen Bereichen unverzichtbar, von der Bild-, Text- und Spracherkennung bis hin zu Anwendungen in der Informationstechnologie, der Medizin und der Finanzwelt. Doch was genau macht neuronale Netze so einzigartig?

Ein wesentlicher Vorteil liegt in ihrer Fähigkeit zur Generalisierung. Im Gegensatz zu klassischen regelbasierten Systemen lernen neuronale Netze Muster und Strukturen direkt aus Daten. Diese Herangehensweise ermöglicht es ihnen, auch in komplexen, unvorhersehbaren Situationen zu bestehen, für die keine Regeln bekannt sind. Beispielsweise können sie aus Millionen von Bildern lernen, Hunde von Katzen zu unterscheiden, ohne dass ihnen explizit Regeln vorgegeben werden.

Eine Sackgasse?

Als ich begann, mich intensiv mit KI zu beschäftigen, war vieles an den neuronalen Netzen noch spekulativ. Es gab keine Gewissheit, dass sie wirklich funktionieren würden, und viele Wissenschaftler hielten sie für eine Sackgasse. Ich erinnere mich an Diskussionen, in denen KI-Experten argumentierten, dass neuronale Netze keine Zukunft hätten. Die großen Erfolge, die wir heute mit Deep Learning feiern, waren damals kaum vorstellbar. Es war aber gerade diese Unsicherheit, die mich reizte. Etwas zu erforschen, das viele Möglichkeiten bietet, noch ungelöste Probleme hat, neue Ideen zulässt und noch nicht ausgeforscht ist.

Ich kam über Jürgen Schmidhuber, der an der TU München lehrte, mit neuronalen Netzen in Berührung. Wie gesagt, gehörte ich damals zu einer Minderheit in der KI-Forschung. Unsere Community war überschaubar; wir kannten uns fast alle persönlich. Auf den internationalen Konferenzen waren wir vielleicht 200 bis 300 Teilnehmer, während die symbolische KI die großen Bühnen bespielte. Was uns von den etablierten KI-Forschern unterschied, war nicht nur unser Forschungsthema, sondern auch unser Ansatz. Wir experimentierten, probierten neue Ideen aus. Wir lernten zu akzeptieren, dass vieles nicht funktionierte. Diese Offenheit machte die Arbeit aufregend, aber sie isolierte uns auch von der etablierten KI-Welt.

Zu neuronalen Netzen gab es damals auch wenig Literatur, kaum etablierte Methoden – wir mussten alles selbst herausfinden. Ich erinnere mich, wie ich als Student mit simplen Programmen experimentierte, die uns an der Universität zur Verfügung gestellt wurden. Wir hatten keine großen Modelle mit Milliarden von Parametern, keine Cloud-Infrastruktur, die uns unendliche Rechenleistung bot. Alles war handgemacht, von den Algorithmen bis zu den Experimenten.

Die Konferenz NeurIPS (Neural Information Processing Systems) war das Zentrum dieser Entwicklung, und obwohl sie damals kaum Teilnehmer aus Europa hatte, wurde dort die Zukunft der KI geschrieben. Heute kommen über 15.000 Menschen aus aller Welt zusammen, um die neuesten Entwicklungen zu präsentieren. Konferenzen wie NeurIPS, ICML (International Conference on Machine Learning) oder ICLR (International Conference on Learning Representations) sind der Puls der KI-Forschung – und sie zeigen, wie sehr das Feld gewachsen ist.

Die KI hat sich seither von einer Nischendisziplin zu einem globalen Phänomen entwickelt, das fast jede Branche verändert. Doch die Wurzeln liegen in den bescheidenen Anfängen, in den Tagen, als wir erste neuronale Netze bauten. Rückblickend war ich mittendrin in einer der spannendsten Phasen der KI-Geschichte: in der Zeit, als neuronale Netze zunächst ignoriert, dann belächelt und schließlich gefeiert wurden.

Der Aufbau neuronaler Netze

Neuronale Netze basieren auf einer Analogie zum menschlichen Gehirn. Dieses besteht aus Milliarden von Neuronen, die durch synaptische Verbindungen miteinander kommunizieren. Jedes Neuron kann Signale senden oder empfangen und dadurch andere Neuronen aktivieren oder hemmen. Künstliche neuronale Netze versuchen, diese Struktur nachzuahmen. Sie bestehen aus einer Vielzahl einfacher Verarbeitungseinheiten – Neuronen –, die miteinander vernetzt sind. Diese Netzwerke können durch Anpassung der synaptischen Verbindungen lernen, komplexe Aufgaben zu bewältigen.

Das einfachste neuronale Netz ist das sogenannte »Perzeptron«, das 1943 von Warren McCulloch und Walter Pitts konzipiert wurde. Es besteht aus nur einem einzigen Neuron, das externe Signale verarbeitet, ähnlich wie ein Neuron in der Retina unseres Auges. Doch unser Gehirn ist weit komplexer: Es verfügt über Neuronen, die in Netzwerken organisiert sind und miteinander Signale austauschen.

Ein neuronales Netz besteht aus Eingabeneuronen, die Informationen von außen aufnehmen, und Ausgabeneuronen, die Ergebnisse liefern. Dazwischen liegen oft mehrere Schichten, die die Verarbeitung der Daten ermöglichen. Der Unterschied zwischen verschiedenen Netzen liegt in der Stärke der Verbindungen zwischen den Neuronen. Einige Verbindungen können erregend sein, andere hemmend. Diese Unterschiede bestimmen, wie das Netz funktioniert.

Das Lernen in einem neuronalen Netz erfolgt durch Anpassung dieser Verbindungen. Stellen Sie sich vor, Sie möchten ein Netz so trainieren, dass es die mathematische Funktion f(x)=x2 repräsentiert. Das heißt, wenn das Netz x an den Eingabeneuronen erhält, dann soll es x2 an die Ausgabeneuronen liefern. Beim Training geben Sie dem Netz eine Reihe von Eingabewerten – zum Beispiel 1, 2, 3 – und die dazugehörigen Ausgaben – also 1, 4, 9. Anfangs sind die Verbindungen im Netz zufällig gesetzt, sodass das Netz falsche Ergebnisse liefert. Etwa: Es gibt für die Eingabe 2 die Ausgabe 3 statt 4. Das Netz passt daraufhin die Verbindungen an, um die Abweichung zu korrigieren. Dieser Prozess wiederholt sich, bis das Netz die korrekten Ausgaben für alle Trainingsdaten liefert.

Hat ein neuronales Netz fertig gelernt, werden die Daten, anhand derer es gelernt hat, weggenommen. Das neuronale Netz hat die wesentlichen Informationen aus den Daten in seinen Verbindungen gespeichert, so wie wir Menschen aus einem Buch lernen und dann das Buch nicht mehr verwenden, da wir die wesentlichen Dinge nun wissen.

Muster erkennen

Das Lernen neuronaler Netze unterscheidet sich grundlegend von herkömmlicher Informatik. In klassischen Computerprogrammen wird eine Lösung deduktiv entwickelt: Ein Mensch schreibt ein Programm, das auf Basis der von diesem Menschen erdachten Regeln ein Problem löst. Neuronale Netze hingegen lernen Muster und Regeln anhand von Daten basierend auf einem Lernalgorithmus. In beiden Fällen werden dann die Regeln (erdachte oder gelernte) auf neue, unbekannte Daten angewendet.

Ein Beispiel: Sie trainieren ein Netz mit Bildern von Hunden und Katzen. Jedes Bild ist mit einem Label versehen – »Hund« oder »Katze«. Das Netz passt seine Verbindungen so an, dass es anhand der Pixelmuster in den Bildern lernt, Hunde von Katzen zu unterscheiden. Nach dem Training soll das Netz auch Bilder korrekt klassifizieren, die es nie zuvor gesehen hat. Das ist das Prinzip der Generalisierung, das neuronale Netze so mächtig macht und das mit erdachten Regeln nicht erreicht wurde.

Doch dieser Ansatz hat seine Tücken. Ein Netz könnte statt der zugrunde liegenden Regeln nur die Trainingsdaten auswendig lernen – ein Phänomen, das als »Overfitting« bezeichnet wird. Ein überangepasstes Netz liefert zwar perfekte Ergebnisse für die Trainingsdaten, versagt jedoch bei neuen Eingaben. Um das zu vermeiden, setzt man spezielle Techniken ein, etwa die Nutzung von Regularisierungsmethoden, Validierungsdatensätzen oder die Begrenzung der Netzkomplexität. Die Techniken helfen dabei, dass ein KI-Modell auch mit neuen, unbekannten Daten umgehen kann und nicht nur die Trainingsdaten auswendig lernt.

Ein weiteres Problem ist die fehlende Garantierbarkeit. Anders als symbolische KI, die auf Logik und klaren Regeln basiert, bietet die subsymbolische KI keine vollständige Kontrolle. Das Netz könnte für bestimmte ungesehene Eingaben unerwartet falsche Ergebnisse liefern, und es gibt keine Möglichkeit, dies im Voraus sicher auszuschließen. Ein ungelöstes Problem ist bis heute die Black-Box-Natur der neuronalen Netze. Anders als bei symbolischer KI ist es schwierig zu erklären, warum ein Netz eine bestimmte Entscheidung trifft. Dieses Problem der Interpretierbarkeit ist gerade bei sicherheitskritischen Anwendungen sehr relevant. Denn wie kann man sicherstellen, dass ein KI-System die richtigen Gründe für eine Entscheidung hat?

Die Vielseitigkeit neuronaler Netze zeigt sich bei vielen modernen Anwendungen. Sie erkennen Gesichter auf Fotos, übersetzen Texte in Echtzeit oder analysieren komplexe Datenmuster in Finanzmärkten. Diese Erfolge basieren auf der Fähigkeit neuronaler Netze, generalisieren zu können. Doch die Generalisierung ist keine Selbstverständlichkeit. Ein Netz könnte sich an Mustern orientieren, die zwar mit der Datenerzeugung korreliert sind, aber nicht mit der Aufgabenstellung. Das Netz sollte allgemeine Muster der Aufgabenstellung in den Daten erkennen, die auch bei neuen Daten vorhanden sind.

Bleiben wir hierzu bei unserem Katzen-/Hunde-Beispiel: Wenn ein Netz Bilder von Katzen und Hunden unterscheiden soll, könnte es lernen, dass ein grüner Hintergrund häufiger bei Hundebildern vorkommt, anstatt die tatsächlichen Merkmale von Katzen und Hunden zu analysieren. Hunde werden öfter im Freien fotografiert als Katzen. Solche Fälle erfordern ein sorgfältiges Design der Lernmethoden und Tests nach dem Lernen, um sicherzustellen, dass das Netz Merkmale lernt, die generalisieren, die also bei neuen Bildern auch noch vorhanden sind.

Aus Fehlern lernen

Neuronale Netze haben in den letzten Jahrzehnten eine beeindruckende Entwicklung durchlaufen. Mit dem Aufkommen des Deep Learning wurden sie leistungsfähiger, vielseitiger und in vielen Bereichen unverzichtbar. Doch auf dem Weg dorthin waren einige technische und mathematische Probleme zu lösen. Einer der Schlüsselaspekte dabei ist, wie die sogenannten »Gewichte« und die Neuronen in den verschiedenen Schichten in einem neuronalen Netz zusammenarbeiten, um die gewünschten Ergebnisse zu liefern.

Heutige neuronale Netze arbeiten mit Millionen oder sogar Milliarden von Parametern, den genannten »Gewichten«, die für das Lernen der Netze entscheidend sind. Gewichte repräsentieren die Stärke der Verbindung zwischen Neuronen. Jede Verbindung trägt dazu bei, ein Signal von einem Neuron zum nächsten weiterzugeben. Die Gewichte funktionieren in gewisser Weise ähnlich wie Drehregler, die zum Beispiel die Lichtstärke regulieren. Ein höheres Gewicht bedeutet, dass das Signal verstärkt wird, während ein niedrigeres Gewicht das Signal schwächt.

Das Lernen der neuronalen Netze ist ein iterativer, also ein sich wiederholender Prozess, der sich auf die Anpassung der Gewichte konzentriert. Zu Beginn des Trainings sind diese Gewichte zufällig gewählt, und das Netz liefert zumeist fehlerhafte Ausgaben. Während des Trainingsprozesses passt ein Lernalgorithmus die Gewichte an, um die Fehler in den Vorhersagen zu minimieren, damit das Netz die gewünschte Aufgabe besser erfüllt.

Eine zentrale Lernmethode ist der Backpropagation-Algorithmus. Dieses Verfahren – schon 1970 von dem Finnen Seppo Linnainmaa beschrieben, dann in den 1980er-Jahren von Forschern wie David Rumelhart und Geoffrey Hinton popularisiert – ermöglicht es, neuronale Netze effizient zu trainieren. Der Backpropagation-Algorithmus analysiert dabei, wie stark sich die Ausgabe des Netzes vom gewünschten Ergebnis unterscheidet, und passt daraufhin die Gewichte an. Die Anpassung der Gewichte erfolgt so, dass der Unterschied zum gewünschten Ergebnis kleiner wird. Dieser Prozess wird wiederholt, bis die Fehler klein genug sind. Dabei werden nicht nur die Neuronen der Ausgabeebene angepasst, sondern die Informationen werden durch die Neuronenschichten zurückgeleitet, sodass jede Neuronenschicht lernt, ihre Ausgabe so zu adaptieren, dass der Fehler an der Ausgabe kleiner wird.

Die Anwendungen dieses Algorithmus blieben damals allerdings begrenzt, denn die Hardware war nicht leistungsfähig genug, um größere Netze zu verarbeiten, die komplexere Probleme bewältigen können. Es fehlten nicht nur Rechenressourcen, sondern auch die großen Datensätze, die wir heute selbstverständlich nutzen.

Mit den Fortschritten Mitte der 2000er-Jahre wurde deutlich, dass neuronale Netze mehr Potenzial hatten als ursprünglich gedacht. Das Ende des KI-Winters und die Wiederbelebung der Forschung an neuronalen Netzen begann 1986 mit den Arbeiten von David Rumelhart, Geoffrey Hinton und Ronald Williams. Sie betrachteten neuronale Netze mit »Hidden Layers«, also versteckten Schichten, die es den Netzen erlaubten, nichtlineare Probleme zu lösen, bei denen eine Veränderung der Eingabe nicht zu einer proportionalen Veränderung der Ausgabe führt. Diese versteckten Schichten waren der Schlüssel, um komplexere Muster in Daten zu erkennen und zu verarbeiten. Eine wichtige mathematische Erkenntnis dieser Zeit war, dass neuronale Netze mit genügend vielen Neuronen und mindestens einer versteckten Schicht oder genügend vielen versteckten Schichten mit mindestens zwei Neuronen jede beliebige Funktion approximieren können.

In den frühen Tagen neuronaler Netze war es üblich, mit nur einer Hidden Layer zu arbeiten. Dies reichte für einfache Aufgaben aus, doch die begrenzte Tiefe schränkte die Fähigkeit des Netzes ein, komplexere Muster zu erkennen. Der große Durchbruch kam mit Netzen, die Dutzende oder sogar Hunderte von Schichten enthalten. Diese tiefen Netze, das sogenannte »Deep Learning«, konnten viel abstraktere Merkmale aus den Daten extrahieren, was ihre Anwendungsbereiche erheblich erweiterte.

In frühen Netzwerken dieser Art gab es nur wenige Dutzend Gewichte, die die Neuronen miteinander verbanden. Mit dem Aufkommen leistungsfähiger Hardware und umfangreicher Datenmengen konnten jedoch Netze mit Hunderten oder Tausenden von Gewichten trainiert werden.

Ein anschauliches Beispiel ist wieder die Klassifikation von Bildern mit Katzen und Hunden. Zu Beginn hat das Netz keinerlei Vorstellung von den relevanten Merkmalen, die es erlauben, Katzenbilder von Hundebildern zu unterscheiden. Es beginnt mit zufälligen Gewichten und passt diese Schritt für Schritt an, basierend auf den Fehlern, die es bei den Klassifikationen macht. Nach vielen Wiederholungen ist das Netz in der Lage, auch unbekannte Bilder korrekt zu klassifizieren, indem es Muster in den Pixeln erkennt.

Die automatische Generierung von Mustern führte zu großen Fortschritten in der Bild-, Text- und Sprachverarbeitung. In der Bildverarbeitung zeigten neuronale Netze, dass sie lernen können, komplexe Muster zu erkennen, ohne dass menschliches Eingreifen notwendig ist. Auch in der Sprach- und Textverarbeitung konnten sie komplexe Muster identifizieren, was maschinelle Übersetzungen, , Texterzeugung, Spracherkennung und andere Anwendungen verbesserte.

Vor der Ära der tiefen neuronalen Netze war das »Feature-Engineering« die vorherrschende Methode, d. h. Menschen haben sich »Features«, d. h. Muster bzw. Merkmale, ausgedacht. Expertinnen und Experten aus den jeweiligen Fachgebieten entwickelten manuell Muster oder Merkmale, die für die jeweilige Aufgabe relevant sein könnten. In der Bildverarbeitung etwa wurde untersucht, welche Kanten, Formen oder Texturen als Muster oder Merkmale geeignet sein könnten, um Objekte zu erkennen. Diese Features wurden dann in Algorithmen integriert. Neuronale Netze revolutionierten diesen Ansatz. Statt Features manuell zu entwickeln, lernen sie diese automatisch aus den Daten. In den ersten Schichten eines Netzes werden grundlegende Merkmale wie Kanten erkannt. In den mittleren Schichten werden diese zu komplexeren Mustern kombiniert, etwa zu Linien, Halbkreisen oder Ovalen. Die obersten Schichten können schließlich spezifische Merkmale wie Augen, Schnauze oder Schnurrhaare einer Katze oder eines Hundes erkennen.

Diese Fortschritte stellten etablierte Methoden infrage und führten zu einem Paradigmenwechsel. Forschende, die zuvor Jahrzehnte in manuelles Feature-Engineering investiert hatten, mussten akzeptieren, dass neuronale Netze mit ausreichend Daten und Rechenleistung bessere Ergebnisse erzielen konnten – und das ohne tiefgehendes Domänenwissen.

Der Durchbruch von Deep Learning kam 2012, als Alex Krizhevsky, Ilya Sutskever und Geoffrey Hinton mit ihrem »AlexNet« den »ImageNet«-Wettbewerb gewannen, einen Wettbewerb, bei dem Forschende ihre Algorithmen zur Objekterkennung anhand einer umfangreichen, manuell annotierten Bilddatenbank testen. Ihr Deep Learning hatte alle Methoden, die von Expertinnen und Experten in der Bildverarbeitung entwickelt wurden, in den Schatten gestellt, ohne dass die Forschenden Wissen im Bereich der Bildverarbeitung hatten. Dieser AlexNet-Moment zeigte, dass neuronale Netze traditionelle Methoden der Bildverarbeitung deutlich übertreffen können – der Beginn einer neuen Ära der KI-Forschung.

Ein weiterer Meilenstein war die Einführung der Verwendung von GPUs (Graphics Processing Units) für das Training von neuronalen Netzen. Ursprünglich für die Grafikdarstellung in Computern entwickelt, erkannten Forschende bald, dass GPUs ideal für die parallele Verarbeitung von Daten geeignet waren. Insbesondere konnten große Matrixmultiplikationen parallel gerechnet werden, wobei die Gewichte der Verbindungen in Matrizen gespeichert werden. Diese Fähigkeit der Parallelverarbeitung ermöglichte es, neuronale Netze mit Millionen von Parametern effizient zu trainieren. Plötzlich konnten Modelle entwickelt werden, die weitaus komplexer und leistungsfähiger waren als alles, was zuvor möglich gewesen war.

Zu leistungsfähigeren Computerchips kam die Verfügbarkeit großer Datensätze hinzu. In den frühen Jahren der KI war es oft schwierig, genügend Daten zu sammeln, um ein Netz so zu trainieren, dass es eine Aufgabe hinreichend gut lösen konnte. Doch mit dem Aufstieg des Internets und der Digitalisierung entstanden riesige Mengen an Daten, die neue Möglichkeiten eröffneten. Datensammelprojekte, wie das oben erwähnte ImageNet, wurden zu entscheidenden Katalysatoren für die Forschung.

Lernalgorithmen, insbesondere der bereits genannte Backpropagation-Algorithmus, wurden weiter optimiert und für große Netze angepasst. Neue Regularisierungstechniken halfen, das Problem des Overfittings zu bewältigen, bei dem ein Modell die Trainingsdaten auswendig lernt und dadurch bei neuen Daten schlecht generalisiert. Eine neue Regularisierungstechnik war damals »