38,99 €
Was nützt Künstliche Intelligenz im Gesundheitswesen, wenn diese nicht verantwortungsvoll entwickelt und genutzt wird? Das vorliegende Buch beschäftigt sich mit den grundlegenden Modellen und aktuellen Entwicklungen im Bereich der Künstlichen Intelligenz im Gesundheitswesen, diskutiert konkrete Anwendungsszenarien und stellt die enge Verbindung mit ethischen Fragestellungen her. In kompakter und verständlicher Form wird dies von ausgewiesenen Expert:innen aus unterschiedlichen Teilbereichen und Thematiken präsentiert.
Das E-Book können Sie in Legimi-Apps oder einer beliebigen App lesen, die das folgende Format unterstützen:
Veröffentlichungsjahr: 2024
Andreas Klein / Sebastian Dennerlein (Hg.) / Helmut Ritschl
Health Care und Künstliche Intelligenz
Ethische Aspekte verstehen – Entwicklungen gestalten
Narr Francke Attempto Verlag · Tübingen
PD Dr. Andreas Klein lehrt Ethik, Dogmatik und Philosophie an der Evangelisch-Theologischen Fakultät der Universität Wien und Ethik im Gesundheitswesen an mehreren Hochschulen und Ausbildungsstätten.
Prof. Dr. Sebastian Dennerlein lehrt und forscht zur Regulation und Förderung von Lernen am Arbeitsplatz an der University Twente.
Prof. Dr. Helmut Ritschl leitet das Institut für Radiologietechnologie an der FH JOANNEUM in Graz und beschäftigt sich mit der digitalen Transformation im Gesundheitswesen und deren Implikationen.
Umschlagabbildung: DALL-E 3 über ChatGPT4; Prompting: Christof Wolf-Brenner, Robert Gutounig & Sebastian Dennerlein
https://doi.org/10.36198/9783838562575
© Narr Francke Attempto Verlag GmbH + Co. KG 2024Dischingerweg 5 • D-72070 Tübingen
Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheberrechtsgesetztes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen.
Alle Informationen in diesem Buch wurden mit großer Sorgfalt erstellt. Fehler können dennoch nicht völlig ausgeschlossen werden. Weder Verlag noch Autor:innen oder Herausgeber:innen übernehmen deshalb eine Gewährleistung für die Korrektheit des Inhaltes und haften nicht für fehlerhafte Angaben und deren Folgen. Diese Publikation enthält gegebenenfalls Links zu externen Inhalten Dritter, auf die weder Verlag noch Autor:innen oder Herausgeber:innen Einfluss haben. Für die Inhalte der verlinkten Seiten sind stets die jeweiligen Anbieter oder Betreibenden der Seiten verantwortlich.
Internet: www.narr.deeMail: [email protected]
utb-Nr. 6257
ISBN 978-3-8252-6257-0 (Print)
ISBN 978-3-8463-6257-0 (ePub)
Das vorliegende Buch geht zu guten Teilen auf eine Webinarreihe mit dem Titel „AI in Healthcare & Ethics“ vom Herbst 2021 zurück. Diese Vortragsreihe verfolgte die Absicht, Expert:innen, Studierende und die interessierte Öffentlichkeit zusammen zu bringen, um durch den Austausch von Wissen, Sorgen und Ideen einen konstruktiven Dialog und gemeinsamen Weg zu fördern. Sie bestand aus insgesamt sieben Sessions zu jeweils zwei Vorträgen durch ausgewiesene Expert:innen in ihrem Tätigkeitsfeld mit anschließender Diskussion. Die Expert:innen präsentierten grundlegende Konzepte zu Künstlicher Intelligenz (KI) sowie aktuelle Anwendungsbeispiele im Kontext des Gesundheitswesens und diskutierten diese mit den Teilnehmer:innen. Dabei wurden die zahlreichen Chancen und Weiterführungen durch KI-basierte Systeme beispielsweise im Rahmen von Diagnostik und Therapie aufgezeigt, aber auch die aktuellen Begrenzungen und grundsätzlichen Problematiken. Vor dem Hintergrund der gut besuchten Webinarreihe, die für alle Beteiligten eine erhebliche Bereicherung darstellten, legte sich den Herausgebern die Überlegung nahe, die Inhalte und Einsichten einer breiteren Öffentlichkeit in Form eines Sammelbandes zur Verfügung zu stellen.
Der vorliegende Band greift die reichhaltigen Aspekte aus Präsentation und Diskussion auf und führt sie durch Integration neuer Erkenntnisse und Themen vertieft weiter. Die Entwicklung und Anwendung der KI schreitet derart rasant voran, dass beinahe jeder einzelne Beitrag fortwährend mit neuen Studien ergänzt werden müsste. Insofern bedarf es auch eines gewissen Mutes zur Lücke und zur Fragmentarizität – wie überhaupt jedes Leben stets nur fragmentarisch bleiben kann („vita brevis“).
Das Konzeptdes Buches zielt zum einen darauf ab, einen gutverständlichen Überblick über die zentralen Themenstellungen zu bieten und damit auch als Lehrbuch zu dienen. Zum anderen möchten die einzelnen Beiträge auch in die Tiefe gehen und aus den verschiedenen Forschungsgebieten auch ‚Insidern‘ neue Erkenntnisse erlauben. Diese ambitionierte Doppelstrategie, nämlich spezifische Fachkompetenzen im KI-Bereich mit nachvollziehbaren Darstellungen zu verbinden, ermöglicht den Bezug zu vielfältigen Handlungsfeldern, so dass unterschiedliche Ausbildungs- und Berufsgruppen davon profitieren können. Hier sind etwa zu nennen die Berufe rund um die Herstellung und Konstruktion von KI-Systemen für konkrete Anwendungsszenarien, sodann die zahlreichen Gesundheitsberufe im ärztlichen und nicht-ärztlichen Bereich und in der medizinischen Forschung samt ihren Standesvertretungen, weiterhin auch Ethiker:innen, die hierzu ein valides Reflexionsverhältnis erarbeiten wollen oder sollen, vielfältige Ausbildungsstätten und Hochschulen und schließlich End-User (z. B. Patient:innen, pflegende Angehörige usw.) oder auch Entscheidungsträger in Gesellschaft und Politik. Insofern adressiert das Buch eine breite Leserschaft.
In allen jenen Handlungsfeldern geht es letztlich um einen verantwortungsvollen Umgang mit diesen neuen und teilweise auch disruptiven Entwicklungen, die schon jetzt deutlich in den gesellschaftlichen Subsystemen als Herausforderungen wahrgenommen werden. Quer durch sämtliche Beiträge wird deutlich, dass Verantwortung hier nicht einfach verschoben und delegiert werden kann bzw. darf, sondern auf jeder Ebene rational und proaktiv zu übernehmen ist. Eine einseitige (aber durchaus klassische) Verantwortungszuschreibung entweder an Teams von Entwickler:innen und Betreiber:innen oder umgekehrt an Anwender:in und User ist je für sich unplausibel und unreflektiert. Verantwortung besteht stets für die eigenen Handlungen.
Die Herausgeber und Autor:innen dieses Buches beabsichtigen, die Themenstellungen rund um KI im Gesundheitswesen für eine große Leser:innengruppe zugänglich zu machen. Es sollte für jede Gruppe möglich sein, sich ein eigenes, begründetes Urteil zu bilden. Denn auch hier geht es um einen fortwährenden, (vorläufig) unabschließbaren kritischen Diskurs. Erst die aktive Teilnahme am Diskurs schafft Bewusstsein, und erlaubt uns die Zukunft rund um das Thema konstruktiv mitzugestalten und Verantwortung zu übernehmen.
Dank gilt daher zunächst allen Teilhabenden der seinerzeitigen Webinarreihe sowie den beitragenden Autor:innen. Wir danken aber insbesondere auch dem Verlag Narr Francke Attempto, der von Beginn an seine Bereitschaft zu dieser Publikation erklärt hat. Seitens des Verlages ist es vor allem Herr Stefan Selbmann, der sämtliche Vorarbeiten und Prozesse umsichtig und geduldig begleitet und betreut hat. Darüber hinaus gilt auch der Verlagearbeitsgemeinschaft UTB großer Dank für die Übernahme des Buches in diese Reihe. So möge das vorliegende Sammelwerk nun seine Leser:innen und Anwendung in Ausbildung und Praxis finden.
Andreas Klein, Sebastian Dennerlein und Helmut Ritschl
Wien, Twente und Graz im Winter 2023
Andreas Klein, Sebastian Dennerlein und Helmut Ritschl
Künstliche Intelligenz (KI) hat spätestens seit der öffentlichen Verfügbarkeit von ChatGPT im November 2022 die breite Bevölkerung erreicht und dort erhebliche Wirkungen erzielt. Seitdem überschlägt sich die mediale Berichterstattung im Tagesrhythmus mit Neuerungen, Veränderungen, euphorischen oder kritischen Stellungnahmen hierzu. Ergänzt wurde das Spektrum an ‚Conversational Agents‘ nach ChatGPT durch die neue Bing-Suche im Edge-Browser, Copilot-Funktionen in Windows 11 oder Bard von Google.1 Weitere (Gratis-) Anbieter:innen stehen bereits in den Startlöchern. Was generative KI-Systeme dieser Art können, wird jedem rasch begreiflich, der sie ausprobiert: Sie liefern erstaunliche Ergebnisse zu unterschiedlichsten, in normaler Sprache formulierten Suchanfragen – und die Antworten sind zudem in überzeugend guter Sprachqualität formuliert. Schrittweise werden weitere Modi (Funktionen) wie etwa Bild- bzw. Grafikgenerierung (z. B. Dall-E in der Bing-Suche) integriert und der Öffentlichkeit zur Verfügung gestellt.
Was KI überhaupt ist und dementsprechend KI-Systeme charakterisiert, wo ihre Probleme liegen, welche Potenziale und existenziell-gesellschaftlichen Herausforderungen sie in sich bergen, ist weit weniger bekannt. Vielfach (bzw. Vielen) reicht es schon, dass sie (irgendwie) funktionieren und einen Output generieren, der sowohl individuell als auch öffentlich oder unternehmerisch äußerst nützlich zu sein scheint.
Längst ist KI auch im Gesundheitswesen angekommen, selbst wenn sie dort aufgrund der heiklen Problemkonstellation äußerst zögerlich integriert wird. Die Vorteile und Chancen, die auch im vorliegenden Sammelband in den unterschiedlichsten Domänen dargestellt werden, liegen auf der Hand: KI-Systeme eröffnen Verbesserungen in so gut wie allen Bereichen des Gesundheitswesens. In Zukunft wird kein Weg daran vorbeiführen und unzählige Forschungsprogramme sind bereits angelaufen, wie schon ein flüchtiger Blick in entsprechende Literaturdatenbanken oder nationale wie internationale Förderprogramme zeigt.
Die Zögerlichkeit einer standardisierten Integration von KI-Systemen hat aber auch berechtigte Gründe. Der Gesundheitsbereich ist ein äußerst prekäres gesellschaftliches System, so dass hier mit außerordentlicher Vorsicht vorgegangen werden muss. Gemäß AI Act, also dem im Dezember 2023 beschlossenen EU-weiten regulatorischen Instrument2, handelt es sich hier um einen technologischen Hochrisikobereich, der adäquater Rahmenbedingungen bedarf. Fehler an irgendeiner Stelle können gravierende, inakzeptable Konsequenzen nach sich ziehen. Darüber hinaus sind zahlreiche ethische Fragestellungen zu bearbeiten und klären, nicht zuletzt die, wie sich die gesamte Interaktion im Gesundheitswesen durch die Integration KI-gestützter Systeme transformieren könnte und in welcher Weise dies als wünschenswert oder kritikbedürftig betrachtet wird. Sämtliche Schnittstellen im Gesundheitswesen wären hiervon betroffen, bis hinein in die Weiterentwicklung von Gesundheitsberufen und ihre Kompetenzen. Eine umsichtige und umfassende Abwägung von Chancen und Risiken im Sinne der Patient:innensicherheit ist also unentbehrlich.
Diesen vielschichtigen Bezügen und Perspektiven ist der vorliegende Band verpflichtet. Die Anlage des Buches ist dabei so gestaltet, dass in vier Abschnitten thematisch zusammengehörende Themenkomplexe dargestellt werden. Im ersten Teil werden schwerpunktmäßig Grundlagen der bzw. zu KI erläutert. Hierzu zählt neben den wichtigen theoretischen und technischen Konzepten und deren Beziehungen zum Gesundheitswesen auch eine ethische Grundorientierung mit fundamentalen Beurteilungsoptionen. Im zweiten Abschnitt werden Anwendungsbeispiele ethisch verantwortungsvoller KI-Systeme im Gesundheitswesen erörtert. Im drittenTeil werden ethische und rechtliche Aspekte von KI beschrieben und diskutiert. Der vierte Bereich des Buches widmet sich den Konsequenzen von KI im Blick auf die Gesundheitsversorgung bzw. auf die Handlungsfelder einzelner Gesundheitsberufe.
Sämtliche Beiträge stellen sich als Querschnittthematik unterschiedlichen ethischen Fragen, die sich unmittelbar aus konkreten KI-Anwendungen im jeweiligen Kontext ergeben. Hierin spiegelt sich eine Grundüberzeugung des gesamten Buches und aller Autor:innen wider: (Neue) Technologien sind nicht wertneutral, sondern beruhen auf Zielsetzungen, moralischen Zwecksetzungen und Wertungen, da Hersteller:innen ihrerseits in sozialen Kontexten mit inhärenten moralischen Ansprüchen und Zielsetzungen verwurzelt sind und Technologien zudem unmittelbar ethische Fragen auslösen. Die sog. Neutralitätsthese, wonach Technik ganz allgemein zweckfrei und insofern wertneutral ist und konkrete Zwecke allererst bei der Verwendung ins Spiel kommen, erscheint mittlerweile selbst als naiv (vgl. Fenner 2022: 270ff). Schon für die Herstellung oder Planung technologischer Systeme sind bestimmte Zwecke und Realisierungsvorstellungen leitend3, damit aber auch die Inkaufnahme eventueller Risiken oder Nachteile. Insofern sind solche Konstrukte nicht wertneutral, sondern umgekehrt enorm werthaltig – und deshalb bedürfen sie auch von Anfang an der ethisch-kritischen Reflexion. Moralische Verantwortung auf allen Ebenen kann demzufolge als gemeinsame Querschnittsmaterie aller Beiträge dieses Buches betrachtet werden (vgl. auch Nida-Rümelin 2011; Bayertz 1991, 1995; Wittwer 2002).
Im Rahmen dieser Einleitung sollen bereits ein paar Grundlagen undBegriffe vorgestellt und reflektiert werden, um die folgenden Sektionen vorzubereiten und Leser:innen schrittweise an die Thematik heranzuführen. Dies betrifft zunächst einmal den Begriff der „Künstlichen Intelligenz“ selbst. Hieran schließen sich weitere Bereiche an wie beispielsweise Machine Learning, (Künstliche) Neuronale Netze, Deep Learning, aber auch verschiedene etablierte Lernmethoden für KI-Systeme. In einschlägigen Diskursen werden an dieser Stelle regelmäßig unterschiedliche Verständnisse vorausgesetzt, so dass bereits hier mögliche Missverständnisse vorprogrammiert sind (auf spezifisch philosophische Erörterungen darüber, was überhaupt unter einem „Begriff“ zu verstehen ist, wird hier verzichtet; vgl. Seiffert 1975: 15ff). Eine historische Darstellung der Theorie- und Entwicklungsgeschichte von KI wird hier aus Platzgründen ausgespart (vgl. Heinrichs / Heinrichs / Rüther 2022: 1ff; Russell / Norvig 2012: 39ff; Eberl 2018).
Die Einleitung beschließen wird ein Kurzüberblick über die einzelnen Beiträge.
Betritt man den Themenbereich „Künstliche Intelligenz“ (engl. Artificial Intelligence), fällt zunächst eine unüberschaubare Anzahl von Definitionen, Beschreibungen und Charakterisierungen auf. Hinzu kommen unterschiedliche (technische oder mathematische) Konzepte, die ebenfalls unter KI subsumiert werden. Dieser Umstand führt in Debatten fortwährend zu Unklarheiten und wechselseitigen Missverständnissen. Dementsprechend fallen auch die jeweiligen Einschätzungen recht different aus: Handelt es sich hier überhaupt um eine Form von Intelligenz oder doch nur um verständnislose Algorithmen? Sind künftige KI-Systeme eine massive Bedrohung für die Menschheit und den Planeten Erde (z. B. ChaosGPT1) – wogegen dann entsprechende Maßnahmen zu ergreifen wären (so etwa Elon Musk oder die Rede von einem Fukushima der KI2) – oder doch nur ein Mailüftchen im großen Pool technologischer Entwicklungen?
Zumindest hat die breite Bevölkerung durch die omnipräsente Zugänglichkeit zu ChatGPT, GPT-3.5 bzw. 4, Bard, usw. mittlerweile einen Eindruck davon gewonnen, was sich mit diesen großen (und teilweise schon multimodalen) Sprachmodellen (LLM: Large Language Model) erreichen lässt. Durch die sprachliche Zugänglichkeit (Conversational Agent/AI) werden diese generativen Systeme auch schon ausgiebig genutzt. Kürzlich hat Google mit Gemini bereits die nächste, offenbar deutlich stärkere (multimodale) Generation in Umlauf gebracht. Das bedeutet allerdings nicht, dass man auch verstanden hat, was diese Systeme sind, was sie ausmacht, wie sie funktionieren und worin ihre Problemfelder liegen.
Eine zentrale Schwierigkeit mit dem Begriff „Künstliche Intelligenz“ steckt in einem angemessenen Verständnis von „Intelligenz“. Diese Problematik betrifft jedoch nicht nur künstliche Systeme (vgl. Müller 2024), sondern auch biologische. Je nachdem, was in den Intelligenzbegriff integriert wird, differiert die Zuschreibung, welche Entitäten Intelligenz haben (können), zu welchen Zeiten oder Gelegenheiten (z. B. nur im Wachzustand) oder in welchen Graden. Je höher die Anforderungen an den Intelligenzbegriff angesetzt werden, umso weniger Entitäten fallen letztlich hierunter – und manche Entitäten, wie etwa der Mensch, auch nur zu bestimmten Gelegenheiten. Anstatt sich mit dem Intelligenzbegriff bei künstlichen Systemen herumzuschlagen, wäre es auch möglich, direkt z. B. von Maschinellem Lernen (Machine Learning: ML3) zu sprechen. Einem begrifflichen Wechsel steht jedoch entgegen, dass sich einerseits der Begriff KI längst gesellschaftlich und wissenschaftlich etabliert hat und sich andererseits auch bei einem Sprachwechsel analoge Probleme ergeben dürften.
Hinzu kommt der (erschwerende) Umstand, dass mit KI unterschiedliche Bereiche adressiert werden können: ein wissenschaftliches Forschungsgebiet, eine technologische Methode, konkrete Applikationen (wie etwa im Gesundheitswesen) oder philosophische Erörterungen zu grundlegenden Begriffen und Verständnissen.
Häufig werden mit „Intelligenz“ ganz bestimmte grundlegende Fähigkeiten oder Kompetenzen verbunden (vgl. Legg / Hutter 20074; König u. a. 2022), wie etwa (logisches) Denken, Planen, Problemlösung, Wahrnehmung, Lernen, Informationsverarbeitung, Verarbeitung von (natürlicher) Sprache und evtl. Metakognition (Denken über das Denken oder über Lernprozesse5). Diese Fähigkeiten müssen (biologische oder künstliche) Systeme nicht zu allen Zeiten in gleicher Weise ausüben. Darüber hinaus kann mit dieser Zuschreibung Bezug zu bestimmten Interaktionen mit der Umwelt oder Akteursfähigkeiten genommen werden: z. B. räumliche, soziale, körperlich-kinästhetische, musikalische, sprachliche, logisch-mathematische oder inter- und intrapersonelle Intelligenz. Umstritten ist jedoch (vgl. Heinrichs / Heinrichs / Rüther 2022: 16ff), inwieweit sämtliche dieser Fähigkeiten – und in welcher Reihenfolge und Gruppierung – realisiert sein müssen oder etwa nur grundlegende (z. B. Lernen oder Anpassungsfähigkeit).
Mit dem Gesagten wird nun ein weiterer wichtiger Aspekt in der Debatte um KI sichtbar, nämlich eine explizite oder implizite Ausrichtung an menschlicher Intelligenz, also eine sog. anthropozentrische Verkürzung (vgl. König u. a. 2022: 23; Müller 2024). Dies kann dann jedoch zu einer einseitigen, vereinfachten Sicht auf den Diskussions- und Untersuchungsgegenstand führen. In der Ethik würde an dieser Stelle der bekannte Vorwurf des Speziesismus ansetzen, wonach Intelligenz primär oder ausschließlich dem Menschen vorbehalten wäre (Artegoismus). Es ist jedoch inzwischen weitgehend Konsens, auch Tieren eine bestimmte Form von Intelligenz – wenn auch in unterschiedlichen Graden – zumindest nicht abzusprechen; von Phänomenen wie Schwarmintelligenz oder kollektiver Intelligenz ganz zu schweigen. Orientiert man sich beim Intelligenzbegriff an bestimmten Fähigkeiten, erweitert sich per se auch die Gruppe der zu inkludierenden Akteure; samt künstlichen Systemen.
Eine weitere wichtige Unterscheidung für eine KI-Charakterisierung betrifft jene zwischen Verhalten und Denken. Bereits die klassische Arbeit zu KI von Stuart Russell und Peter Norvig (2012: 22ff) konstruierte ein Koordinatensystem nach den Unterscheidungen Verhalten/Denken und (faktisch) menschlich/ideal. Hieraus ergeben sich folgende Orientierungsmöglichkeiten für eine KI-Charakterisierung: (faktisches) menschliches Denken oder menschliches Handeln, rational-ideales Denken oder rational-ideales Handeln. Russell und Norvig entscheiden sich für die Orientierung an rationalem Handeln, weil „eine perfekte Rationalität ein guter Ausgangspunkt für die Analyse“ sei (Russell / Norvig 2012: 26) und zudem die Schwächen des faktischen menschlichen – und häufig unintelligenten – Denkens und Verhaltens vermieden wird. Darüber hinaus würde diese Orientierung den Fortschritt eher befördern. Weiters bestehe der Vorteil gegenüber einer Orientierung am rein rationalen Denken darin, nicht auf logische oder mathematische Operationen festgelegt zu sein, sondern auf die Tauglichkeit in der Praxis fokussieren zu können. Nachteilig erweist sich an diesem Konzept allerdings die einseitige Privilegierung des Menschen und der Idealität, wodurch sowohl der Abstand zum Tier als auch zum alltäglichen Handeln offensichtlich wird.6
Deutlich konträr zum Gesagten fassen Russell und Norvig ihr Verständnis von KI wie folgt zusammen (2012: 14):
„Wir definieren die KI als die Lehre von Agenten, die Wahrnehmungen aus der Umgebung erhalten und Aktionen ausführen. Jeder dieser Agenten implementiert eine Funktion, die Wahrnehmungsfolgen auf Aktionen abbildet, und wir beschreiben unterschiedliche Möglichkeiten, diese Funktionen darzustellen, wie zum Beispiel reaktive Agenten, Echtzeitplaner, neuronale Netze und entscheidungstheoretische Systeme.“
Von idealer Rationalität im Handeln ist hier keine Rede (mehr).
Um herauszufinden, ob bestimmte (biologische oder künstliche) Systeme Intelligenz aufweisen, wurden bislang häufig gewisse (hypothetische) Tests herangezogen, wie etwa der Turing-Test, das Chinese-Room-Argument oder auch Intelligenztests. Allen Turing (1950) schlug – in behavioristischer Manier – vor, dass man ab dem Zeitpunkt Intelligenz unterstellen müsse, ab dem ein menschlicher Kommunikator nicht mehr adäquat entscheiden kann, ob er mit einem Menschen oder einer Maschine kommuniziert (vgl. Oppy / Dowe 2021). Der Fokus liegt hier ganz offensichtlich wieder auf der menschlichen Interpretation bzw. Bewertung eines bestimmten Outputs. Unter diesen Gesichtspunkten wären Menschen wohl unter gewissen Umständen bereit, Sprachassistenten oder ChatGPT Intelligenz zuzusprechen7, während dies bei Tieren nur eingeschränkt möglich wäre. Ähnlich dürfte es sich bei Intelligenztests verhalten, da diese bereits von neueren KI-Systemen bewältigt wurden.
Das Chinese-Room-Argument von John Searle (1980) widerspricht vehement dieser Schlussfolgerung und generell einer solchen Herangehensweise. Sein Gegenbeispiel lautet: In einem geschlossenen Raum befindet sich ein Mensch, der kein Chinesisch versteht. Dieser erhält Fragen in chinesischer Schrift (die er natürlich nicht versteht) und gibt sogar sinnvolle Antworten ebenfalls in chinesischer Schrift. Dies ist möglich durch eine entsprechende Anleitung in seiner Muttersprache. Die Personen außerhalb des Raumes schließen aus den Antworten, dass der Mensch Chinesisch beherrscht, obwohl er das faktisch nicht tut. Searle schließt hieraus, dass es sich hier nicht um Intelligenz handelt, da die Befolgung einer Syntax (wie in Computern) noch nicht zur Semantik befähigt, denn hierfür brauche es Intentionalität bzw. Verstehen. Folglich können Computer per se auch nicht intelligent sein.
Searles Gedankenexperiment und vor allem seine Schlussfolgerungen stoßen allerdings auf zahlreiche Kritik (Bringsjord / Govindarajulu 2022; Beckermann 2008: 313ff; Pauen 2001: 149ff). Recht unklar ist bei Searle, was er hier mit „Verstehen“ meint und welchen Mehrwert dieses Verstehen (praktisch) erbringt (Legg / Hutter 2007: 438f). Offenbar geht es um (das Erfassen von) Bedeutung und Referenz. Aber selbst in der Hermeneutik, also der Lehre vom Verstehen und seinen Bedingungen, stellt in einer Konversation ein adäquater Outcome, also eine plausible Antwort, den Gesprächspartner weitgehend zufrieden; wir können nicht in die Köpfe der anderen schauen (vgl. etwa den Klassiker: Gadamer 1990). Jedenfalls erscheint es voreilig, z. B. aktuellen generativen KI-Systemen semantische Fähigkeiten abzusprechen. Für Funktionalisten (vgl. Beckermann 2008: 141ff; Pauen 2001: 128ff; Esfeld 2005: 85ff), gegen die sich Searles Kritik richtet, besteht hier kaum ein Problem, da diese sich mit den jeweils funktionalen Rollen zufriedengeben, also primär am Verhalten von Systemen interessiert sind.
Unklar ist bei Searle darüber hinaus, warum Computer keine Intentionalität (vgl. Müller 2024) oder künftig sogar Bewusstsein (so etwa Chalmers) haben können. Thomas Metzinger (2003: 171) verschärft die Kritik an Searle um einen weiteren Aspekt:
„Wir sollten ein System spätestens dann als bewusstes Objekt behandeln, wenn es uns gegenüber auf überzeugende Weise demonstriert, dass die philosophische Frage nach dem Bewusstsein für es selbst ein Problem geworden ist, zum Beispiel wenn es eine eigene Theorie des Bewusstseins vertritt, d. h. wenn es mit eigenen Argumenten in die Diskussion um künstliches Bewusstsein einzugreifen beginnt.“8
Hinzuweisen ist noch auf die Unterscheidung zwischen „starker“ und „schwacher“ KI, die ebenfalls auf John Searle zurückgeht. Starke KI würde (für Searle) demnach selbst „Geist“ sein und insofern Verstehen und kognitive bzw. mentale Zustände aufweisen.9 Dies ist freilich ein ambitioniertes Ziel, von dem unklar ist, wie weit sich aktuelle Systeme dieser Vision bereits annähern. Man spricht hier gegenwärtig auch von einer allgemeinen oder generellen künstlichen Intelligenz (AGI: Artificial General Intelligence), bei der – wie der Name andeutet – von allgemeineren rationalen Standards unter verschiedenen Herausforderungen ausgegangen wird, also ein „umfassender Problemlöser“ (Heinrichs / Heinrichs / Rüther 2022: 18). Dem entspricht auch eine bekannte Definition von Intelligenz von Legg und Hutter (2007: 402): „Intelligence measures an agent’s ability to achieve goals in a wide range of environments.“ Dies wäre unter Bedingungen multimodaler Funktionen, also der Verbindung mehrerer Fähigkeiten in einer KI, durchaus erwägenswert. Bei den neuesten Generationen generativer KI-Systeme wird über die Zuschreibung von AGI jedenfalls laut nachgedacht (Bubeck u. a. 2023; Lake / Baroni 2023).
Derzeitige KI-Systeme bewegen sich vornehmlich auf dem Niveau einer schwachen (weak) KI, so dass diese Systeme nur eine besondere Leistungsfähigkeit für die Erreichung ganz konkreter Ziele darstellen. Gegenüber einer starken KI, so Searle, würden sie „Geist“ lediglich simulieren oder uns so erscheinen, als ob sie Geist wären, jedoch nicht selbst Geist sein. Wie der „Geist“ jedoch evolutionär in das biologische System „Mensch“ gelangt, wird nicht beantwortet. Im menschlichen Gehirn jedenfalls laufen zunächst auch nur binäre physische Prozesse ab, indem Neuronen entweder ein Signal zum Feuern aussenden – oder eben nicht.
Als letzte, alles überragende Option steht die Vision einer sog. Superintelligenz im Raum, die sich durch die völlige Überlegenheit gegenüber menschlichen Fähigkeiten in allen Bereichen auszeichnen würde (Bostrom 2014; Russell 2020: 143 ff; Heinrichs / Heinrichs / Rüther 2022: 169ff). Ob es wünschenswert ist, eine echte starke KI oder gar eine Superintelligenz überhaupt zu entwickeln, ist nicht zuletzt eine Frage der Ethik.
Eine andere (spannende) Frage ist, ob es möglich sein könnte, dass KI-Systeme ihrerseits höher entwickelte „Nachkommen“ entwickeln könnten – was in der Evolutionsgeschichte auf biologischem Weg offenbar gelungen ist. In diesem Zusammenhang dürfte es zumindest zu denken geben, dass manche KI-Systeme bereits sog. emergente Systemeigenschaften hervorgebracht haben sollen, also solche Fähigkeiten, die im gesamten Trainings- und Lernprozess nirgends intendiert oder erwartet waren.10
Zusammenfassend kann hier auf die sehr brauchbare und recht umfassende Definition von KI durch die „unabhängige hochrangige Expertengruppe für Künstliche Intelligenz“ (HEG-KI) der Europäischen Kommission (2019) in ihren Ethik-Leitlinien verwiesen werden (Nr. 143):
„Künstliche-Intelligenz-(KI)-Systeme sind vom Menschen entwickelte Software- (und möglicherweise auch Hardware-) Systeme, die in Bezug auf ein komplexes Ziel auf physischer oder digitaler Ebene agieren, indem sie ihre Umgebung durch Datenerfassung wahrnehmen, die gesammelten strukturierten oder unstrukturierten Daten interpretieren, Schlussfolgerungen daraus ziehen oder die aus diesen Daten abgeleiteten Informationen verarbeiten und über die geeignete(n) Maßnahme(n) zur Erreichung des vorgegebenen Ziels entscheiden. KI-Systeme können entweder symbolische Regeln verwenden oder ein numerisches Modell erlernen, und sie können auch ihr Verhalten anpassen, indem sie analysieren, wie die Umgebung von ihren vorherigen Aktionen beeinflusst wird.“
Diese Definition beinhaltet eine ganze Reihe von Aspekten und Fähigkeiten, wobei hier offen bleiben kann, inwieweit dies bereits auf aktuelle KI-Systeme zutrifft.
In den folgenden Abschnitten sollen weitere Begriffe und Konzepte überblicksartig erläutert werden, die für die gesamte Diskussion von zentraler Bedeutung sind.
ML kann als Oberbegriff für unterschiedliche Arten von künstlich generiertem Wissen aus Erfahrung betrachtet werden. Dabei geht es um die Entwicklung lernfähiger Systeme und Algorithmen, die nicht – wie etwa ein Taschenrechner – auf festgelegte Reaktionsweisen beschränkt sind (vgl. insgesamt zu diesen Abschnitten Heinrichs / Heinrichs / Rüther 2022). Das Lernen wird durch Beispiele unter Zuhilfenahme von Methoden der Statistik und der Informationstheorie initiiert.1 Am Ende soll ein verallgemeinerbares Ergebnis erzielt werden. Der jeweilige Algorithmus entwirft aufgrund der zur Verfügung gestellten Trainingsdaten ein statistisches Modell, wobei eine Testung gegen die Trainingsdaten vorgenommen wird – und der Algorithmus schrittweise verbessert wird. Das System versucht Muster und Gesetzmäßigkeiten in den Trainingsdaten zu erkennen und diese für weitere Verwendungen – z. B. Prognosen – auszuwerten. Von besonderer Bedeutung ist hier das Bewerten unbekannter Daten, so dass ML auch (in begrenzter Weise) für unbekannte Szenarien einsatzfähig ist.
Eine technische Voraussetzung für die Leistungsfähigkeit von ML besteht in der erheblichen Weiterentwicklung von Computersystemen bzw. der Hardware-Basis. Die Einsatzgebiete von ML sind umfangreich und reichen von Übersetzungen, Textproduktionen, Spracherkennung, Spielen, visuellen Erkennungen, Diagnoseverfahren bis hin zu Sicherheitskonzepten und autonomem Fahren.
Hinsichtlich der Lernmethoden werden primär drei unterschiedliche Ansätze verfolgt, die jeweils ihre Vor- und Nachteile haben: 1) Überwachtes Lernen (Supervised Learning), 2) Unüberwachtes Lernen (Unsupervised Learning) und 3) Bestärkendes Lernen (Reinforcement Learning).
Beim überwachten Lernen wird dem System eine umfangreiche, bereits klassifizierte Datenmenge zur Verfügung gestellt, woraus das System ein entsprechendes Modell entwickelt. Insofern wird hier mit Vorgaben gearbeitet, z. B. mit Typen (Klassifizierungen), wobei die Eingabe- und Ausgabewerte bekannt sind. Metaphorisch ausgedrückt: Es wird dem System gesagt, was es überhaupt sehen soll, z. B. Katzen. Anhand dieses Modells kann das System daraufhin auch unbekannte Daten (Informationen) entsprechend analysieren und bewerten. Überwachtes Lernen wird häufig eingesetzt, z. B. bei Handschriftenerkennung, Vorhersagen eines Verkaufspreises oder künftigen Nachfragen nach einem Produkt. Ein Nachteil dieses Lerntyps sind einerseits die benötigten großen Datenmengen und andererseits die vorgegebenen Klassifizierungen. Als Unterkategorien können hier noch das teilüberwachte Lernen, das aktive Lernen und das selbstständige Lernen genannt werden.
Beim unüberwachten Lernen wird zwar ebenfalls eine große Datenmenge benötigt, allerdings wird keine Klassifizierung vorgegeben. Muster und Gesetzmäßigkeiten (Klassifizierungen) werden vom System selbst (also eigenständig) aus den Trainingsdaten gebildet (z. B. Gruppen) – Eingabe- und Ausgabewerte sind nicht bekannt. Wiederum metaphorisch ausgedrückt: Dem System wird nicht beigebracht, dass es Katzen erkennen soll. Neue „Eindrücke“ werden dann den jeweils gebildeten Kategorien zugeordnet.
Ein großer Vorteil dieser Methode besteht darin, dass vom System Muster entdeckt werden können, die menschliche Akteure nicht gesehen oder erwartet hätten. Hier besteht somit großes Potenzial für Innovationen und Neuerungen. Dies kann jedoch auch zum Nachteil ausschlagen, weil eventuell Gruppen gebildet werden, die gar nicht relevant sind oder – ethisch betrachtet – in Richtung eines unerwünschten Ergebnisses (z. B. Diskriminierung) tendieren.
Wie der Begriff bestärkendes Lernen bereits nahelegt, wird hier mit Bestärkungen (Belohnungen: rewards) für „richtiges Verhalten“ gearbeitet (evtl. im umgekehrten Fall mit Sanktionen). Erstellt das System eigenständig einen gewünschten Output, wird dies belohnt und das System versucht, weitere Belohnungen durch wiederum richtiges Verhalten zu erhalten (trial and error). Mit der Zeit wird das System allmählich optimiert. Dieses Verfahren erinnert an menschliche Erziehungsprozesse oder an (problematische) gesellschaftliche Optimierungsstrategien wie etwa das Nudging (Thaler / Sunstein 2009; zur Kritik: Tafani 2017). Verstärkendes Lernen wird in zahlreichen Umgebungen eingesetzt, beispielsweise bei Spielen.
Schlaglichtartig seien hier noch weitere Lernmethoden zumindest genannt: das Online-Lernen (permanentes Training durch neu hinzukommende Daten), adaptives Lernen (Anpassung an neue Daten während des Betriebs), Transfer-Lernen (bereits generiertes Wissen wird zur Bewältigung anderer Aufgaben eingesetzt), Meta-Lernen (schnelles Anpassen an neue Aufgaben), stochastisches Lernen (z. B. bei Künstlichen Neuronalen Netzen, wobei nicht sämtliche Daten, sondern zufällig ausgewählte verwendet werden), evolutionäre Lernstrategien (Mutation, Selektion, Kreuzung und Rekombination), Bayessches Lernen (Wahrscheinlichkeitsberechnungen aufgrund vorangehender Informationen), Fuzzy-Logik (Umgang mit Unschärfen zwischen Kategorien), Lernen durch Beobachtung (Agenten lernen von anderen Agenten), schwaches Lernen (aufgrund weniger oder keiner Daten). Sämtliche Lernstrategien haben ihre spezifischen Vorzüge und Nachteile und werden demzufolge für bestimmte Aufgaben, Ausgangslagen oder Zielsetzungen eingesetzt.
Die Entwicklung künstlicher neuronaler Netze (KNN) hat die gesamte Bandbreite des Maschinellen Lernens und die Möglichkeiten in der KI erheblich bereichert. In der Folge kam es zu einer engen Kooperation zwischen Neurowissenschaften und KI-Entwicklung und zur Etablierung des Forschungsbereichs Computational Neuroscience sowie der Vertiefung der Arbeit am Forschungsansatz des Konnektionismus. KNN lehnen sich – wie der Name bereits vermuten lässt – an die Architektur des Gehirns und den mentalen Aktivitäten an, die über neuronale Verknüpfungen und Gewichtungen von Neuronen erfolgen (vgl. Beckermann 2008: 321ff.). Neuronale Netze sind Sammlungen von Einheiten, die miteinander verbunden sind, wobei die Eigenschaften eines solchen Netzes durch die jeweilige Topologie – also die Struktur bzw. Zuordnung von Neuronen (Knoten) zu Schichten und ihren Verbindungen – und die Eigenschaften der Neuronen bestimmt wird (vgl. Russell / Norvig 2012: 846). Gegenwärtig sind KNN die wohl bekanntesten und effektivsten Lernsysteme im Bereich der KI.
Einfache KNN bestehen (1) aus Eingabeschichten bzw. -ebenen, zumeist (2) internen Verknüpfungen und Gewichtungen (Hidden Layer oder Units: interne Schichten) und (3) Ausgabeschichten. Informationen an der Eingabeseite werden in den Schichten und ihren Verknüpfungen verarbeitet und führen schließlich zu einem (hoffentlich) adäquaten Output, wobei die Systeme permanent lernen und dementsprechend ihre inneren Gewichtungen neu justieren. Dabei empfängt jeder Knoten bzw. jede Einheit (Neuronen) Eingaben der vorgelagerten Knoten, gewichtet diese und gibt entsprechende Signale (ähnlich dem „Feuern“ der Synapsen im Gehirn) an nachgelagerte Knoten weiter. Rekurrente bzw. rückgekoppelte neuronale Netze besitzen darüber hinaus – wie das Gehirn – die Eigenschaft, die jeweiligen Ausgaben als neuerliche Eingaben über alle Schichten hinweg zu verwenden, wodurch Schleifen entstehen und das System insgesamt dynamisch wird. Durch diese Rückkoppelungen erhält das Gesamtsystem so etwas wie ein Gedächtnis.
Diese Vorgänge machen es jedoch schwierig, die Prozesse solcher Netze zu verstehen bzw. nachzuvollziehen. Hier entsteht das berühmt-berüchtigte Black-Box-Problem (auch Opazitätsproblem genannt): Es ist nicht mehr offensichtlich, wie das Gesamtsystem (aufgrund seiner Interoperabilität und Komplexität) zum jeweiligen Output gelangt, auch wenn dieser letztlich völlig adäquat ist. Damit wird jedoch die Überprüfbarkeit schwierig bis beinahe unmöglich und stellt somit auch für die Patient:innensicherheit ein gravierendes Problem dar. Herkömmlich muss bei Arzneimitteln und Medizinprodukten die Ursache-Wirkung-Beziehung durch eine klinische Prüfung nachgewiesen werden. Grundsätzlich legt sich damit aber neuerlich der Vergleich zu biologischen Gehirnen nahe, bei denen die Verbindung zwischen Input und Output ebenfalls wenig nachvollziehbar erscheint. In der menschlichen Kommunikationsgemeinschaft wird dieses Problem dadurch zu entschärfen versucht, dass man nach Gründen für ein Verhalten fragt. Dadurch ist aber keinesfalls sichergestellt, dass die jeweils (retrospektiv) angegebenen Gründe tatsächlich auch diejenigen Ursachen sind1, die das Gehirn (oder den Organismus) zur Ausführung einer Handlung veranlasst haben.
Rekurrente neuronale Netze lassen sich demzufolge auch als nicht-triviale Maschinen im Sinne Heinz von Foersters (1998: 66; 1999; 1990) beschreiben. Triviale Maschinen sind durch einfache Input-Output-Relationen charakterisiert (etwa ein Fotoapparat), die meist eine gute Vorhersagbarkeit ermöglichen. Nicht-triviale Maschinen dagegen nutzen ihren Output rekursiv als neuerlichen Input, sind vom internen Zustand abhängig und somit auch von ihrer eigenen Vergangenheit bzw. ihren Erfahrungen. Dadurch wächst die Komplexität und unübersichtliche Schleifen entstehen, die den Output nicht mehr in gleicher Weise prognostizierbar machen. Gleichwohl kann es sich um deterministische Systeme handeln, die jedoch ein chaotisches (anfangssensibles) Verhalten zeigen. Darum ist es auch nicht ungewöhnlich, dass bestimmte deterministische Systeme (aktuell zumindest) nicht vorhersagbar sind. Darüber hinaus sind nicht-triviale Maschinen durch Selbstorganisation (Eigenwerte und Eigenverhalten) (vgl. Krohn / Küppers 1990; 1992) und Adaptivität an ihre Umgebung gekennzeichnet.
Der Lernprozess von KNNs erfolgt über die zuvor genannten Trainingsmethoden, die allererst ihre enorme Effektivität ermöglichen.2 Ausgehend von einer gewissen Grundkonfiguration des Systems werden dem System bestimmte Datensätze zur Verfügung gestellt, die das Netz in komplexen Berechnungsprozessen verwertet, um einen Output zu generieren. Entspricht das Ergebnis nicht dem erwarteten Wert, werden die Variablen angepasst, wobei dieser Prozess so lange wiederholt wird, bis die gewünschten Ausgaben erreicht sind, das System also gut definiert ist. Dabei werden die Gewichte der Verbindungen von Neuronen durch Fehlerfunktionen aktualisiert. Hierzu können z. B. evolutionäre Algorithmen oder Fehlerrückführungen (Bestimmung der Gradienten als steilster Anstieg einer Funktion und Anpassung der Gewichte zur Optimierung / Fehlerminimierung) eingesetzt werden, wodurch das Netz lernt.
Iterative und rekursiveAlgorithmen (Rekurrente Netze) ermöglichen die Erledigung hoch komplexer, nicht-linearer Funktionen. KNN eignen sich insbesondere für Aufgaben, bei denen vorab kein oder nur ein geringes Vorabwissen zur Verfügung steht. Dies betrifft etwa Text-, Sprach-, Bild- oder Gesichtserkennung, wobei die Anwendungsszenarien äußert umfangreich sein können. Insofern sind diese Systeme auch für Anwendungen im Gesundheitswesen attraktiv, wie beispielsweise in der Interpretation von medizinischen Bildinformationen.
Obwohl KNN strukturelle Ähnlichkeiten zum biologischen System „Gehirn“ aufweisen und von diesem inspiriert sind, unterscheiden sich dennoch beide Bereiche. Insbesondere arbeitet das Gehirn äußerst energieeffizient und parallelverarbeitend. Neuronale Chips bzw. virtuelle Neuronen (sog. Memristoren) könnten diese strukturelle Differenz künftig besser bewältigen, wobei bereits der Einsatz von GPUs (Grafikprozessoren) enorme Leistungssteigerungen erzielen konnte. Mittlerweile gibt es auch erfolgversprechende Ansätze zur Kombination von Chips und biologischen Neuronen, sog. DishBrain (vgl. etwa: Akcay / Luttge 2023; Wang u. a. 2018; Kofman u. a. 2022), auch zur Verbesserung der KI-Effizienz3.
Neben dem Black-Box-Problem ergeben sich für KNN noch weitere kritische Problemlagen, die insbesondere in ethischer Hinsicht von zentraler Relevanz sind. Aufgrund der Notwendigkeit, passende Trainingsdaten auszuwählen und zur Verfügung zu stellen, können unerwünschte Eigenschaften, die bereits in den Trainingsdaten enthalten sind, auf die Ergebnisse durchschlagen. Dieses Problem tritt bereits beim ML auf, verstärkt sich hier allerdings aufgrund der mangelnden Nachvollziehbarkeit. Es entsteht das berüchtigte Verzerrungsproblem (Bias), wodurch sexistische, rassistische oder insgesamt diskriminierende Ergebnisse die Folge sein können.4 Dementsprechend muss das System kontrolliert und bei Bedarf nachjustiert werden. Es kann aber auch der Fall eintreten, dass ein KNN Muster eruiert und priorisiert, die zwar mit den Trainingsdaten tatsächlich korreliert sind, die jedoch für den gewünschten Outcome irrelevant sind (sog. Adversarial Examples). Auch hier müssen dann im Nachgang Anpassungen (weitere Lernprozesse) vorgenommen werden, wie dies etwa bei ChatGPT der Fall ist. Darüber hinaus kann es zu Übergeneralisierung bzw. Überanpassung (overfitting) kommen, weil KNN offenbar dazu tendieren, Trainingsdaten gewissermaßen auswendig zu lernen. Neue Daten tragen dann zur Generalisierung kaum noch etwas bei, was jedoch im Einzelfall abträglich wäre. Mittlerweile gibt es hierfür jedoch unterschiedliche Lösungsoptionen. Erwähnt sei noch, dass auch die Kodierung der Trainingsdaten, also in welcher Form die Daten präsentiert werden, einen (erheblichen) Einfluss auf die Leistungsfähigkeit hat. Darüber hinaus ist auch die Voreinstellung der Gewichtung für die Weiterverarbeitung von Informationen relevant.
Deep Learning (vgl. Goodfellow / Bengio / Courville 2016; Haykin 2008) kann als Weiterführung und Vertiefung gelten, indem KNNs mit zahlreichen Zwischenschichten (Hidden Layer) ausgestattet werden, wodurch eine enorm komplexe innere Struktur erreicht bzw. erzeugt wird. Zumeist fungieren gerade diese Systeme als Synonyme für KI und ML, was – wie schon früher angedeutet – zu begrifflichen Unklarheiten in Diskursen führen kann, sofern hier nicht genauer differenziert wird. In dieser Hinsicht ähneln sie Gehirnen und ihrer Funktionsweise, mit Ausnahme der bereits oben genannten Unterschiede. Allerdings verstärken sich durch diese Architektur auch die angesprochenen Problemkonstellationen: Während sie einerseits enorme Leistungsfähigkeit aufweisen und insofern für zahlreiche komplexe Aufgaben herangezogen werden können, steigert sich andererseits auch das Nachvollziehbarkeitsproblem. Ihre Leistungsfähigkeit wird insbesondere bei Mustererkennungen wie z. B. Gesichts-, Sprach-, Text- oder Emotionserkennung eingesetzt und mittlerweile in beinahe sämtlichen gesellschaftlichen Bereichen genutzt, natürlich auch in komplexen Szenarien im Gesundheitswesen. Einer der mittlerweile bekanntesten Erfolge war die bislang unmögliche Vorhersage von Proteinfaltungen im Jahr 2020.1 Diese Systeme profitieren von ihrer Architektur: Es muss nicht sämtliches „Wissen“ eingespeist werden, sondern der Rückgriff auf „Erfahrung“ und die jeweils eingesetzten Lernmechanismen ermöglichen ein (selbst-)adaptives Verhalten, wodurch schließlich ein gewünschter Output erzeugt wird. Man spricht auch von Repräsentationalem Lernen, so dass sich im komplexen Verarbeitungsprozess Abstraktionen einstellen, wodurch neue Reize besser integriert und verarbeitet werden können.
Die ethischen Herausforderungen, die sich durch DL-Systeme ergeben, wurden bereits im Kontext von KNN erwähnt, treten hier jedoch in verstärkter Form auf. In den einzelnen Beiträgen dieses Buches werden diese Probleme deshalb auch beharrlich aus unterschiedlichen Perspektiven und in den jeweiligen Domänen beleuchtet und kritisch erörtert. KI-Systeme wie ChatGPT und vergleichbare Pendants neigen darüber hinaus dazu, auf bestimmte Anfragen mit sog. „Halluzinationen“ oder „Fabulierungen“ zu reagieren, da sie gelegentlich Informationen zusammenführen oder ergänzen, die in bestimmten Fällen jedoch schlichtweg unrichtig und falsch sind. Das bedeutet, dass Unsicherheiten des Systems durch derartige Informationskonstruktionen überspielt werden, dies jedoch in durchaus bestechender sprachlicher Ausdrucksform.1 Auf menschlicher Seite spielen dann wiederum psychologische Faktoren eine entscheidende Rolle2, indem beispielsweise auf eine (nachträgliche) Überprüfung der Ergebnisse verzichtet wird, weil man etwa davon ausgeht, dass diese Systeme ohnehin vertrauenswürdig seien und sie auch den Anschein der wissenschaftlichen Validität erheischen. Genau an dieser Stelle wird künftig ein Beobachtungsschwerpunkt liegen müssen, also in der Kontrolle und Überprüfung der angebotenen Ergebnisse – selbst bei sehr einfachen Fragen und Antworten. Im alltäglichen Gebrauch von ChatGPT und Co empfiehlt es sich beispielsweise, nicht nur ein einziges System heranzuziehen, sondern zumindest zwei oder drei für heikle Anfragen zu konsultieren. Für wissenschaftliche Zwecke werden ohnehin deutlich höhere Standards und Kontrollkompetenzen erwartet und gefordert.
Um beispielsweise diesem Halluzinationsproblem zu begegnen, wäre es äußerst nützlich, wenn die Systeme unter Unsicherheitsbedingungen nicht damit beginnen, wahllos falsche Informationen zusammenzustellen und anzubieten, sondern diese Unsicherheit klar deklarieren. Ein diesbezüglicher Ansatz wird derzeit etwa unter dem Titel Out-of-Distribution-Erkennung (OOD) z. B. von Sharon Li entwickelt (Tran u. a. 2022).3 Dabei handelt es sich um technische Arrangements, die Fehlfunktionen weitgehend eindämmen oder zumindest reduzieren sollen, um Sicherheit und Robustheit zu gewährleisten. KI-Anwendungen sollen hierdurch rechtzeitig erkennen, wenn sie mit Szenarien konfrontiert werden, für die sie nicht trainiert wurden. Sie sollen also ihre Grenzen respektieren und offenlegen.
In eine ähnliche Richtung argumentiert Stewart Russell (2020: 183ff) in seinen KI-Prinzipien. Er plädiert anstatt des klassischen Verstärkungslernens für ein „kooperatives inverses Verstärkungslernen“. KI-Systeme sollten, insbesondere unter Bedingungen der Unsicherheit, stets Rücksprache mit dem Menschen halten, vor allem in Gesundheitsanwendungen. Dementsprechend sollten die Systeme nicht einfach mit einer bestimmten Strategie „rücksichtslos“ fortfahren – was übrigens wenig intelligent ist –, sondern einerseits grundsätzliche ethische Prinzipien integrieren (u. a. auch durch Ethics-by-Design) und andererseits – auch ihre eigenen – Unsicherheiten respektieren und gemeinsam nach plausiblen Lösungen suchen. An dieser Stelle dürfte die KI-Entwicklung noch deutlich Nachholbedarf haben. Allerdings müssen sich auch die Interaktionspartner, also Menschen, in diesem Kontext allererst darüber im Klaren werden, was eigentlich – in ethischer Hinsicht – das Gute ist.
Das bereits mehrfach angesprochene Problem mangelnder Nachvollziehbarkeit bzw. Erklärbarkeit bestimmter KI-Systeme wird seit einiger Zeit durch bestimmte (technische) Lösungen versucht zu bewältigen. Hierfür hat sich inzwischen ein eigener Forschungszweig unter dem Titel Explainable AI (XAI: erklärbare Künstliche Intelligenz) (vgl. Gunning u. a. 2021; Kaminski 2019; Kaminski / Malgieri 2021; Holzinger 2018) etabliert. Zu klären ist hierbei allerdings, welche Stärke bzw. Art von Nachvollziehbarkeit gefordert werden soll. So ist es für Nutzer:innen kaum von Interesse, die genauen mathematischen oder algorithmischen Details eines KNN zu kennen – für Konstrukteure wiederum ein wichtiges Kriterium zur Reflexion. Sehr wohl von Interesse ist allerdings, warum ein gewisser Outcome generiert wird; also die Frage nach so etwas wie Gründen. Letztlich sollen XAI-Technologien einen konstruktiven Beitrag zur Vertrauenswürdigkeit (trustworthiness) in KI-Systeme leisten.
Details zu den einzelnen technischen Ansätzen (z. B. BETA, LRP, LIME und GAM) können hier übergangen werden (vgl. etwa Holzinger 2018), jedoch sind ein paar wenige Hinweise nützlich. So kann beispielsweise eruiert werden, welche Eingangssignale bzw. -daten in welcher Weise den Output bestimmen. Entsprechend können auch nach einem Ergebnis (Output) die Input-Daten gezielt verändert werden, um ihre Relevanz für die Verarbeitung zu bestimmen – und im Bedarfsfall anzupassen. Hier kommen etwa die bekannten Trainingsmethoden zum Einsatz, um z. B. unerwünschte Ergebnisse durch weitere Trainingsanpassungen zu reduzieren – wobei hierdurch freilich der Prozess selbst noch nicht hinreichend verstanden wird. Bei KI-gestützten Robotern kann auch eine verbale Erklärung gefordert werden, wobei dies allerdings schon für KI-Sprachmodelle (LLM) wie ChatGPT und Co gilt. Insbesondere bei sog. Ante-Hoc-Ansätzen (im Unterschied zu Post-Hoc-Ansätzen) besteht eine recht gute Basis zur Nachvollziehbarkeit, weil dies durch die Vorabkonstruktion und durch Gewichtungen bereits ermöglicht wird.
Vor allem im Gesundheitsbereich – aber auch in anderen gesellschaftlich relevanten Domänen – ist die Nachvollziehbarkeit von besonderer Bedeutung. Fehler etwa im diagnostischen Sektor können sich für einzelne Betroffene gravierend auswirken. Nur wenn hinreichend deutlich ist, wie KI-Systeme zu ihren Diagnosen oder Therapieempfehlungen gelangen, kann ihnen auch eine entsprechende Vertrauenswürdigkeit entgegengebracht werden. Aufgrund der immer noch bestehenden Unklarheiten und Fehleranfälligkeit ist aktuell die menschliche Aufsicht und Kontrolle (human-in-the-loop) unumgänglich. Gleichwohl besteht die Gefahr, dass bei zunehmend besser werdenden Systemen der Kontrollbedarf aufgrund psychologischer Gewöhnungseffekte abnimmt, was im Einzelfall zu schwerwiegenden Problemen führen kann. Allerdings besteht dieses Problem naturgemäß auch bei anderen technischen Lösungen im Gesundheitswesen: Man verlässt sich auf sie, weil sie in der Vergangenheit hinreichend adäquate Ergebnisse erzielt haben. Niemand rechnet etwa die unzähligen Prozesse eines Computers im Gesundheitswesen eigens nach oder bezweifelt ad hoc die Ergebnisse von EKGs, CTs, fMRTs oder dergleichen. Jedenfalls braucht es – auch international – solide ethische Standards hinsichtlich der Vertrauenswürdigkeit von KI-Systemen, wozu die EU indessen wichtige Vorarbeiten und Beiträge geleistet hat4 – wie auch schon durch die DSGVO, in der eine entsprechende Erklärbarkeit festgelegt ist. Auch unter dem Aspekt des informed consent und der Patient:innenautonomie, also zentrale ethischen Normen im Arzt-Patienten-Verhältnis, ist Transparenz bei der Entscheidungsfindung unabdinglich. Vor einem „blinden“ Einsatz von KI-Systemen mit zudem großen Datenmengen (Big Data) kann also – insbesondere im Gesundheitswesen – nur gewarnt werden.
Da sich die Fehleranfälligkeit von KI-System insbesondere in der kritischen Infrastruktur, wozu auch das Gesundheitswesen zählt, katastrophal auswirken kann, werden diese Domänen im AI Act auch als Hochrisikobereiche mit entsprechenden regulatorischen Erfordernissen eingestuft. Ein Kernproblem besteht dabei in den verwendeten Trainingsdaten, aber u. a. auch in den jeweils genutzten Wahrscheinlichkeitsberechnungen.5 Sind etwa die Trainingsdaten nicht ausreichend, solide und ausgewogen, entstehen die erwähnten Fehler und Biases (Verzerrungen). Umfassende adäquate Schutzmechanismen sind hier also unverzichtbar. Analog gilt dies auch für die Probleme der Nachvollziehbarkeit, Erklärbarkeit oder Opazität (u. a. das Black-Box-Problem). Möglicherweise wird es an dieser Stelle jedoch gerechtfertigte, also rational konsensfähige Kompromisse (Güterabwägung) zwischen Nachvollziehbarkeit und Nutzen bedürfen.
Beim verstärkenden Lernen kommt hinzu, dass die Systeme zu Eskalationen neigen können, da sie schrittweise immer noch weitere, stärkere Szenarien aus der ursprünglich gewünschten Gruppe auswählen könnten. Dieses Problem trat einige Zeit bei YouTube auf: Zu gewünschten Inhalten suchte das System nach ähnlichen, aber drastischeren (brutaleren) Optionen, wodurch eine Spirale (Eskalation) in Gang gesetzt wurde. Genau an dieser Stelle optiert etwa Stewart Russell (2020: 183ff) für ein „kooperatives inverses Verstärkungslernen“ (s. oben). ML-Systeme müssen sich Russell zufolge also an faktischen Werten und Zielen von Menschen orientieren und dürfen nicht „rücksichtslos“ ihre vorprogrammierten Ziele verfolgen (alignment problem).
Auch an dieser Stelle müssen ethische Rahmenbedingungen und kritische Reflexionen sinnvoll in den Lernprozess und die Überwachung bzw. Kontrolle von Systemen (z. B. durch geeignete Lernmethoden) integriert werden. Bereits die Robotergesetze von Isaac Asimov haben hinreichend verdeutlicht, dass einfach-hierarchische Gesetze letztlich untauglich sind (vgl. Decker 2019) und einen kritisch-reflexiven, prinzipienorientierten Diskurs nicht ersetzen können. Wären ethische Reflexion und Ergebnisgenerierung so einfach zu haben, hätte es keine derart lange Tradition ethischer Theoriebildung bedurft. Dies bedeutet aber freilich auch, dass sich Menschen ihrerseits über ihre Ziele und Werte, insbesondere in Konfliktsituationen, hinreichend Rechenschaft geben müssen. Ein durchaus tauglicher Ansatz hierzu sind die EU-Ethikleitlinien (2019).
Die ersten vier Beiträge des Buches sind den Grundlagen von KI gewidmet, wobei stets Bezüge zum Gesundheitswesen hergestellt und vor allem zentrale ethische Aspekte eingeführt werden. Im ersten Artikel von Wolfgang Granigg und Klaus Lichtenegger werden Grundlagen zur KI vermittelt, zentrale Begriffe wie beispielsweise Big Data, künstliche Intelligenz, schwache oder starke KI, geklärt und Zusammenhänge zwischen Data Science und KI dargestellt. Es wird erörtert, wie Computerprogramme lernen (supervised Learning, unsupervised Learning, reinforcement Learning) sowie die damit verbundenen Herausforderungen diskutiert (over fitting, under fitting).
Der anschließende Beitrag von Klaus Lichtenegger, Raphaele Raab und Wolfgang Granigg beschäftigt sich mit der Darstellung und Interpretationen von Daten, mit Verzerrungen und menschlichen Denkfallen. Die Autoren erklären dabei die drei Zugänge der Statistik (deskriptive, explorative und schließende Statistik). Am Beispiel des Mittelwerts wird erläutert, dass Werte nicht für sich alleine stehen, sondern stets im jeweiligen Kontext betrachtet werden müssen. Der Bogen spannt sich bis hin zu dem Bereich der bedingten Wahrscheinlichkeiten und dem Satz von Bayes.
Im dritten Beitrag betrachten Marco Tilli, Michael Melcher, Debora Stickler und Raphaele Raab die Hintergründe von KI mit besonderer Sicht auf das Gesundheitswesen, die verwendeten Modelle, Verfahren und Anwendungen. Dies wird anhand von Beispielen veranschaulicht: (1) BIP und Kindersterblichkeit, (2) das Gruppieren von Brustkrebs-Merkmalen, (3) die Klassifikation COVID-19 im Vergleich zu Grippe aufgrund der Symptome, (4) Bildverarbeitung und -klassifikation sowie (5) Befunde verstehen und schreiben.
Im ersten der beiden Beiträge von Andreas Klein stehen vor allem die EU-Ethikleitlinien im Fokus. Diese empfehlen sich als detailliertes ethisches Rahmenwerk zur Beurteilung von KI-Systemen und basieren ihrerseits auf Menschenrechten und moralischen Prinzipien, die auf weitgehende Zustimmung Anspruch erheben können. Eingerahmt wird dieser Fokusteil durch Erörterungen zu KI und Intelligenz, zu Ethik und zu ethischen Reflexionen über mögliche künftige Entwicklungen im KI-Bereich.
Der zweite Themenkreis des Buches ist „Anwendungsbeispielen von KI-Anwendungen in unterschiedlichen Domänen des Gesundheitswesens“ gewidmet. Wolfgang Birkfellner gibt einen kurzen Überblick zum Thema Artificial Intelligence und Machine Learning in der medizinischen Bilddatenverarbeitung. Thematisiert werden u. a. Klassifikation, Objekterkennung, die semantische Segmentierung und die Segmentierung von Bildinstanzen. Die Klassifikation erfolgt durch geometrische, intensitätsbasierte, texturbasierende oder transformationsbasierte Feature-Extraktion in Regions of Interest (ROI). Besonders wertvoll ist die Anleitung zu Experimenten mittels anonymisierter Bilddatensätze und der frei verfügbaren Bildverarbeitungsplattform 3D-Slicer.
Lars Mehnen, Stefanie Gruarin, Mina Vasileva und Bernhard Knapp beschäftigen sich mit Generative-Pretrained-Transformer-(GPT-)Modellen im Kontext ärztlicher Diagnostik. Sie führen eine experimentelle Studie zur diagnostischen Genauigkeit bei häufigen und seltenen Krankheiten durch und betrachten die Treffergenauigkeit sowie die Konsequenzen in Bezug auf die Rolle der Gesundheitsberufe und die Auswirkung auf das Gesundheitsverhalten von Patient:innen.
Bianca Buchgraber-Schnalzer und Bernhard Neumayer beschreiben aktuelle Anwendungsszenarien und -beispiele von KI-Systemen in Diagnostik und Therapie und spannen den Bogen von Clinical-Decision-Support-Systemen (CDSS), über die Anwendungen in der medizinischen Bildgebung, über Frühwarnsysteme bei kardiologischen Erkrankungen, KI in der Physiotherapie, KI im Bereich Mental Health, bis hin zur Dermatologie und dem KI-gestützten Wundmanagement.
Der Beitrag von Hannes Hilberger, Helmut Ahammer und Markus Bödenler beschäftigt sich mit den Möglichkeiten von „Federated Learning“ als „Versprechen und Herausforderung bei der Entwicklung von KI-Systemen“, die auf dezentralen Gesundheitsdaten basieren. Neben der Erklärung, Definition und Anwendung von Federated Learning – einem Konzept unter dem Dach des Distributed Machine Learning – geht es um regulatorische Herausforderungen und Datenschutz. Es werden technische Grundlagen erläutert, wie beispielsweise die parallele Durchführung des Trainingsprozesses (Daten-, Modell- und Pipelineparallelisierung), Aggregationsmethoden und Topologien.
Martin Baumgartner, Aaron Lauschensky, Hannes Perko, Tobias Allgeier, Stefan Beyer und Klaus Donsa widmen sich Medizinprodukten mit KI in der klinischen Praxis und erläutern dies exemplarisch an zwei Beispielen: (A) Ein regelbasierter Algorithmus beim telemedizinischen Monitoring von Patient:innen mit Herzinsuffizienz und (B) eine Deep-Learning-basierte KI-Anwendung zur EEG-Analyse. Beide Medizinprodukte werden vorgestellt, die Funktionsweise der KI-Anwendung beschrieben und die medizinischen, regulatorischen, technischen und ethischen Aspekte dargelegt.
Das Thema „Moderner Datenschutz und vertrauenswürdige KI“ wird im Betrag von Lea Demelius, Michael Jantscher und Andreas Trügler bearbeitet. Sie beschreiben den konkreten Umgang mit äußerst sensiblen Daten und Anwendungen und Ihren Kontroll- und Regulierungsmechanismen. Eine zentrale Rolle spielt dabei der Begriff der vertrauenswürdigen KI (engl. trustworthy AI) und damit verbunden u. a. die Transparenz, die Nachvollziehbarkeit und der Diskriminierungsschutz. Darüber hinaus werden Datenschutz-Richtlinien vorgestellt, die sich das gesellschaftliche und ökologische Wohlergehen zum Ziel setzen.
Claire Jean-Quartier und Fleur Jeanquartier beleuchten in ihrem Beitrag ethische Aspekte von medizinischer KI in der Grundlagen- und präklinischen Krebsforschung. Die Autor:innen diskutieren vier Beispiele vor dem Hintergrund der klassischen vier biomedizinethischen Prinzipien: Respekt der Autonomie, Schadensvermeidung, Fürsorge und Gerechtigkeit. Sie gehen dabei u. a. auf den Ersatz von Tierversuchen durch in Computersimulationen und rechnergestützten Verfahren (sog. in silicio-Ansätze) ein, und besprechen, wie offene Forschung im Sinne der transparenten Darstellung aller Aspekte einer wissenschaftlichen Tätigkeit zum Nutzen der Gesellschaft beitragen kann.
Ein wesentliches Anwendungsfeld von KI-gestützten Verfahren liegt in der Pharmaindustrie. Sarah Stryeck und Johannes Khinast beschreiben Entwicklungen bei der Wirkstoffentdeckung und -entwicklung sowie in der Produktion. Diskutiert werden Herausforderungen wie u. a. Aufbau von Know-how, Akzeptanz und Ressourcen, Umgang mit großen Datenmengen und neue Analysemethoden sowie Datenqualität und Sicherheit. Ebenso werden Chancen durch KI-gestützte Verfahren in der Pharmaindustrie dargestellt, wie etwa effizientere Versorgung mit Arzneimitteln (aus Europa) oder Technologiesouveränität und Nachhaltigkeit.
Der dritte Abschnitt fokussiert auf „ethische und rechtliche Aspekte von KI-Anwendungen im Gesundheitswesen“. Andreas Klein setzt sich in seinem zweiten Beitrag mit Kompetenzen zur Verwirklichung einer vertrauenswürdigen KI auseinander. Anknüpfend an den ersten Beitrag und die EU-Ethikleitlinien werden die sog. Anforderungen an eine vertrauenswürdige KI während des gesamten Lebenszyklus (kontinuierliche Bewertung) dargestellt. Weitere Schwerpunkte sind Ethikkodizes, der AI Act, die (potenzielle) Rolle von Ethikkommissionen und exemplarisch das MEESTAR-Modell, welches komplexe Wechselwirkungen soziotechnischer Systeme thematisiert.
Der Beitrag von Sebastian Dennerlein, Christof Wolf-Brenner, Robert Gutounig, Stefan Schweiger und Viktoria Pammer-Schindler setzt sich mit der Frage auseinander, wie Entwickler:innen in der ethischen Reflexion von Systemen auf Basis von KI unterstützt werden können. Dafür wird einleitend ein Verständnis von Reflexion und agiler Entwicklung aufgebaut, bevor die Kluft zwischen den Anforderungen an Entwickler:innen und den limitierten Unterstützungsmechanismen thematisiert wird. Vor diesem Hintergrund werden im Anschluss sieben aktuelle Methoden und Tools ausgewählt und vorgestellt, um abschließend einen Ausblick über offene Herausforderungen in der ethisch reflektierten Gestaltung von KI und entsprechenden Unterstützungsmechanismen zu geben.
Matthias Wendland befasst sich mit Rechtsrahmen, Haftungsfragen und ethischen Grundlagen der KI in der Medizin. Er behandelt europäische und nationale Regulierungsinstrumente, u. a. die KI-Verordnung (AI Act) der EU, die Medizingeräteverordnung (Medical Device Directive – MDR) sowie die Verordnung über In-vitro-Diagnostika (In-Vitro Diagnostic Medical Device Regulation – IVDR). Diese werden zu konkreten Anwendungsgebieten, spezifischen Risiken und Cybersicherheit kontextualisiert.
Sabrina Linzer, Christoph Matoschitz und Klaus Donsa erklären Grundlagen und Wissenswertes über die regulatorischen Rahmenbedingungen für KI-basierte Medizinprodukte für Akteure aus dem Gesundheitsbereich. Zentrale Themen sind die Klassifizierung von Medizinprodukten, die Konformitätsbewertungsverfahren und CE-Kennzeichnung, insb. grundlegende Sicherheits- und Leistungsanforderungen (GRUSULA). Es werden Methoden zur Beweisführung im Rahmen der technischen Dokumentation besprochen, wie etwa die Risikomanagementakte, Gebrauchstauglichkeitsakte, Prüfberichte und Zertifikate von akkreditierten Prüfstellen, Evaluierungsberichte, Gutachten, interne Testungen oder Prüfungen. Ergänzend werden Hinweise für die praktische Umsetzung gegeben, wie etwa Erklärungen zur Verantwortung von Herstellern und Anwendern von Medizinprodukten bis hin zu Haftungsfragen.
Der abschließende vierte Themenkomplex erörtert „Konsequenzen von KI für die Gesundheitsversorgung“. Einerseits wird hier auf Transformationen von Handlungsfeldern in Gesundheitsberufen eingegangen, andererseits auf Chancen von KI-basierten Anwendungen für das Gesundheitswesen insgesamt. Die Einbettung von KI und Ethik in Curricula der Gesundheitsberufe am Beispiel eines cMOOCs ist Thema der Autor:innen Helmut Ritschl, Waltraud Jelinek-Krikl, Rupert Beinhauer, Julia Tomanek, Bianca Buchgraber-Schnalzer und Marco Tilli
