Praxishandbuch KI und Recht - Carsten Ulbricht - E-Book

Praxishandbuch KI und Recht E-Book

Carsten Ulbricht

0,0
69,99 €

-100%
Sammeln Sie Punkte in unserem Gutscheinprogramm und kaufen Sie E-Books und Hörbücher mit bis zu 100% Rabatt.
Mehr erfahren.
Beschreibung

Das Buch von Carsten Ulbricht, Danilo Brajovic, Thorsten Duhme, Jessica Hawighorst, Marco Huber, Varinia Iber und Carolin Nemecbietet eine umfassende Orientierungshilfe zu den wichtigsten Rechtsfragen im Zusammenhang mit dem Einsatz Künstlicher Intelligenz (KI). Es führt in die technischen Grundlagen ein und erklärt zentrale Funktionsweisen und Begriffe. Anschließend werden urheberrechtliche Fragen zu KI-generierten Inhalten und datenschutzrechtliche Herausforderungen und Vorgaben beleuchtet. Zudem behandelt das Buch Haftungsfragen und Möglichkeiten zur Minimierung von Haftungsrisiken sowie die Patentierbarkeit von KI-Innovationen. Ein besonderer Schwerpunkt liegt auf der neuen KI-Verordnung der EU (AI Act), deren rechtliche Aspekte, technische Implikationen und Umsetzungsvorgaben ausführlich erläutert werden. Inhalte:  - Die wichtigsten Fachbegriffe und Problemstellungen im Zusammenhang mit KI - Urheberrecht und Immaterialgüterrecht - Datenschutzrecht: Herausforderungen und rechtlichen Vorgaben im Umgang mit personenbezogenen Daten - Haftungsfragen im Zusammenhang mit Künstlichen Intelligenzen - Patentierbarkeit von KI-bezogenen Erfindungen - Die Europäische Verordnung über Künstliche Intelligenz (KI-VO)Die digitale und kostenfreie Ergänzung zu Ihrem Buch auf myBook+: - E-Book direkt online lesen im Browser - Persönliche Fachbibliothek mit Ihren BüchernJetzt nutzen auf mybookplus.de.

Das E-Book können Sie in Legimi-Apps oder einer beliebigen App lesen, die das folgende Format unterstützen:

EPUB
MOBI

Seitenzahl: 431

Veröffentlichungsjahr: 2024

Bewertungen
0,0
0
0
0
0
0
Mehr Informationen
Mehr Informationen
Legimi prüft nicht, ob Rezensionen von Nutzern stammen, die den betreffenden Titel tatsächlich gekauft oder gelesen/gehört haben. Wir entfernen aber gefälschte Rezensionen.



Inhaltsverzeichnis

InhaltsverzeichnisHinweis zum UrheberrechtmyBook+ImpressumVorwort1 Einführung: KI und die wichtigsten damit zusammenhängenden Begriffe und Probleme1.1 Eine kurze Geschichte der KI1.2 Die wichtigsten Begriffe im Zusammenhang mit KI1.2.1 Künstliche Intelligenz1.2.2 Maschinelles Lernen1.2.2.1 Training1.2.2.1.1 Überwachtes Lernen (Supervised Learning)1.2.2.1.2 Unüberwachtes Lernen (Unsupervised Learning)1.2.2.1.3 Bestärkendes Lernen (Reinforcement Learning)1.2.2.2 Generalisierung1.2.2.3 Over- und Underfitting1.2.2.4 Entscheidungsbäume und Regelbasierte Systeme1.2.2.5 Deep Learning und neuronale Netze1.2.2.6 Transformer 1.2.2.7 Reinforcement Learning from Human Feedback (RLHF)1.2.3 Natural Language Processing (NLP)1.2.4 Large Language Models (LLMs)1.2.5 Generative KI1.2.6 General Purpose AI (GPAI)1.2.7 Foundation-Modelle1.2.8 FLOPS1.3 Daten 1.3.1 Trainingsdaten1.3.2 Testdaten 1.3.3 Validierungsdaten1.3.4 ImageNet1.3.5 Common Crawl1.4 Weitere Probleme im Zusammenhang mit KI 1.4.1 Erklärbarkeit1.4.2 Unsicherheit1.4.3 Privacy1.4.4 Data Poisoning1.4.5 Robustheit1.4.6 Fairness1.4.7 Concept Drift und kontinuierlich lernende Systeme1.4.8 Deep Fakes und WasserzeichenDie Autoren2 Urheberrecht2.1 Grundlagen des Urheberrechts2.1.1 Anwendbares Recht2.1.2 Schutzfähige Werke2.1.2.1 Arten von Werken2.1.2.2 Persönlich geistige Schöpfung2.1.2.3 Daten, Datenbanken und Datenbankwerke2.1.2.3.1 Daten2.1.2.3.2 Schutz als Datenbankwerk2.1.2.3.3 Schutz als Datenbank2.1.3 Urhebereigenschaft2.1.4 Rechte des Urhebers2.1.4.1 Urheberpersönlichkeitsrechte2.1.4.2 Verwertungsrechte2.1.4.2.1 Vervielfältigungsrecht2.1.4.2.2 Öffentliche Zugänglichmachung2.1.4.3 Bearbeitung2.1.5 Gemeinfreie Werke2.1.5.1 Zeitliche Begrenzung des Urheberrechtsschutzes2.1.5.2 Amtliche Werke2.1.6 Ausnahme bei Privatgebrauch2.1.7 Übertragung von Nutzungsrechten2.1.7.1 Einfaches Nutzungsrecht 2.1.7.2 Ausschließliches Nutzungsrecht2.1.7.3 Beschränkungen2.1.7.4 Unbekannte Nutzungsarten2.1.7.5 Nutzung durch KI-System als eigene Nutzungsart? 2.1.7.6 Vertragliche Gestaltung2.1.7.7 Vergütung 2.1.8 Rechtsfolgen von Urheberrechtsverletzungen2.2 Schutzrechte an KI-Systemen2.2.1 Untrainiertes KI-System2.2.2 Trainiertes KI-System2.2.2.1 Schutzfähigkeit des trainierten KI-Systems (neuronales Netz)2.2.2.2 Schutzfähigkeit des Trainingsergebnisses (neuronales Netz)2.3 Urheberrechtliche Einordnung von Training eines KI-Systems2.3.1 Text und Data Mining 2.3.1.1 Rechtmäßig zugängliche Werke2.3.1.2 Kein Nutzungsvorbehalt2.3.1.3 Löschung2.3.2 Vorübergehende Vervielfältigungshandlungen 2.3.3 Text und Data Mining für wissenschaftliche Forschung2.4 Urheberrechtliche Einordnung von Input in ein KI-System2.4.1 Schutzfähigkeit von Prompts2.4.2 Verletzung von Urheberrechten durch Input2.4.2.1 Upload von Werken2.4.2.2 Prompts2.5 Urheberrechtliche Einordnung von Output eines KI-Systems2.5.1 Schutzfähigkeit des Outputs2.5.2 Verletzung von Urheberrechten durch Output2.5.2.1 Vervielfältigung von Werken durch KI-Systeme2.5.2.2 Öffentliche Zugänglichmachung 2.5.2.3 Bearbeitung 2.5.3 Transparenz-/Kennzeichnungspflichten2.6 Besonderheiten bei Open Source Software2.6.1 Lizenzarten2.6.2 Open Source Software in den Trainingsdaten2.6.3 Open Source Software im Input2.6.4 Open Source Software im Output2.6.5 Einsatz von Open-Source-KI-Systemen2.7 Vertragsgestaltung im urheberrechtlichen Kontext2.7.1 Auftraggeberperspektive2.7.2 Auftragnehmerperspektive2.8 Urheberrechts-Compliance im Unternehmen2.9 Zusammenfassung Die Autorin3 Datenschutzrecht3.1 Einführung3.1.1 Grundlagen3.1.2 Phasen der Verarbeitung 3.1.2.1 Datenerhebung für KI-Systeme 3.1.2.2 Training von KI-Systemen 3.1.2.3 Nutzung von KI-Systemen 3.1.2.4 Verwendung von KI-basierten Ergebnissen 3.1.3 Datenschutzrechtliche Grundlagen 3.2 Verarbeitung personenbezogener Daten3.2.1 Definition personenbezogener Daten3.2.2 Personenbezogene Daten bei Large-Language-Modellen3.2.3 Arten personenbezogener Daten3.2.4 Vermeidung der Verarbeitung personenbezogener Daten 3.2.5 Anonymisierung 3.2.5.1 Maskierung/Ersetzung3.2.5.2 Aggregation/Kohortenbildung3.2.5.3 Kryptografische Methoden 3.2.5.4 Federated Learning 3.2.6 Pseudonymisierung3.3 Legitimation der Datenverarbeitung3.3.1 Allgemeine Legitimationsgrundlagen (Art. 6 DSGVO)3.3.1.1 Einwilligung (Art. 6 Abs. 1 lit. a DSGVO)3.3.1.2 Vertragszwecke (Art. 6 Abs. 1 lit. b DSGVO)3.3.1.3 Rechtliche Verpflichtung (Art. 6 Abs. 1 lit. c DSGVO) 3.3.1.4 Lebenswichtige Interessen (Art. 6 Abs. 1 lit. d DSGVO)3.3.1.5 Öffentliches Interesse (Art. 6 Abs. 1 lit. e DSGVO)3.3.1.5.1 Öffentliches Interesse oder öffentliche Gewalt, Art. 6 Absatz 1 lit. e DSGVO3.3.1.6 Berechtigte Interessen (Art. 6 Abs. 1 lit. f DSGVO) 3.3.1.6.1 Berechtigtes Interesse3.3.1.6.2 Erforderlichkeit3.3.1.6.3 Abwägung3.3.2 Spezielle Legitimationsgrundlagen 3.3.2.1 Verarbeitung von besonderen Kategorien personenbezogener Daten (Art. 9 DSGVO)3.3.2.1.1 Einwilligung (Art. 9 Abs. 2 lit. a DSGVO)3.3.2.1.2 Arbeitsrecht und Sozialschutz (Art. 9 Abs. 2 lit. b DSGVO)3.3.2.1.3 Lebenswichtige Interessen (Art. 9 Abs. 2 lit. c DSGVO)3.3.2.1.4 Öffentliches Interesse (Art. 9 Abs. 2 lit. e DSGVO)3.3.2.1.5 Rechtliche Ansprüche (Art. 9 Abs. 2 lit. f DSGVO)3.3.2.1.6 Öffentliches Interesse im Bereich der öffentlichen Gesundheit (Art. 9 Abs. 2 lit. h und i DSGVO)3.3.2.1.7 Forschungszwecke (Art. 9 Abs. 2 lit. j DSGVO)3.3.2.2 Daten von Beschäftigten und Bewerbern (§ 26 BDSG)3.3.2.2.1 Einwilligung (§ 26 Abs. 2 BDSG bzw. Art. 6 Abs. 1 lit.a DSGVO)3.3.2.2.2 Vertragszwecke (§ 26 Abs. 1 BDSG bzw. Art. 6 Abs. 1 lit. b DSGVO)3.3.2.2.3 Betriebsvereinbarung (§ 26 Abs. 4 BDSG)3.3.2.2.4 Neues Beschäftigtendatenschutzrecht3.4 Erfüllung der Informationspflichten3.4.1 Erfüllung der Informationspflichten (Art. 13 DSGVO)3.4.2 Erfüllung der Informationspflichten (Art. 14 DSGVO)3.5 Rollen und Verantwortlichkeiten 3.5.1 Auftragsverarbeitung (Art. 28 DSGVO)3.5.2 Gemeinsame Verantwortung (Art. 26 DSGVO)3.5.3 Getrennte Verantwortung des Betreibers und des Nutzers des KI-Systems3.6 Datenschutzfolgenabschätzung (DSFA)3.6.1 Anforderungen und Zwecke einer Datenschutzfolgenabschätzung3.6.2 Notwendigkeit einer Datenschutzfolgenabschätzung3.6.3 Durchführung einer Datenschutzfolgenabschätzung3.7 Technische und organisatorische Maßnahmen 3.7.1 Technische Maßnahmen3.7.2 Organisatorische Maßnahmen3.7.3 Anforderungen der Datenschutzbehörden3.7.3.1 Technische Anforderungen und Umsetzung bei KI-Systemen3.7.3.2 Organisatorische Anforderungen und Umsetzung bei KI-Systemen3.7.3.3 Bewertung des Positionspapiers der Datenschutzkonferenz3.8 Konkrete Umsetzung 3.8.1 Prüfung und Umsetzung der datenschutzrechtlichen Anforderungen3.8.2 Abschluss der notwendigen Verträge3.8.3 Einführung von KI-Richtlinien 3.8.4 Anforderungen der Datenschutzbehörden3.9 Fazit und AusblickDer Autor4 Haftungsfragen im Zusammenhang mit Künstlichen Intelligenzen4.1 Einführung 4.2 Grundlagen der Haftung4.2.1 Vertragliche Haftung4.2.2 Deliktische Haftung 4.2.2.1 Grundlagen4.2.2.2 Unerlaubte Handlungen4.2.2.3 Produzenten- und Produkthaftung (Status quo)4.2.2.3.1 Produzentenhaftung4.2.2.3.2 Produkthaftung4.3 Neue Regelungen des Haftungsrechts für KI4.3.1 Die KI-Haftungsrichtlinie4.3.1.1 Hintergrund und Ziele der KI-Haftungs-RL4.3.1.2 Überblick über die KI-Haftungs-RL4.3.1.3 Wesentliche Regelungen der KI-Haftungs-RL4.3.1.3.1 Gegenstand und Anwendungsbereich (Art. 1)4.3.1.3.2 Begriffsbestimmungen (Art. 2)4.3.1.3.3 Leichtere Offenlegung von Beweismitteln (Art. 3)4.3.1.3.4 Kausalitätsvermutung (Art. 4)4.3.1.3.5 Evaluierung und gezielte Überprüfung (Art. 5)4.3.2 Neue Produkthaftungsrichtlinie4.3.2.1 Hintergrund und Ziele der Produkthaftungs-RL 20244.3.2.2 Überblick über die Produkthaftungs-RL 20244.3.2.3 Wesentliche Neuerungen der Produkthaftungs-RL 20244.3.2.3.1 Erweiterter Produktbegriff (Art. 4 Abs. 1)4.3.2.3.2 Ersatzfähiger Schaden (Art. 5a)4.3.2.3.3 Neuer Fehlerbegriff (Art. 6)4.3.2.3.4 Erweiterter Haftungskreis (Art. 7)4.3.2.3.5 Offenlegungspflicht (Art. 8)4.3.2.3.6 Beweiserleichterung für Geschädigte (Art. 9)4.3.2.3.7 Einschränkung von Haftungsbefreiungen (Art. 10, 14)4.3.3 Parallelität von KI-Verordnung, KI-Haftungs-RL und Produkthaftungs-RL 2024Die Autorin5 Die Europäische Verordnung über Künstliche Intelligenz (KI-VO)5.1 Einleitung: Der Weg zum europäischen KI-Gesetz5.2 Überblick über die KI-VO5.3 Anwendungsbereich der KI-VO (Kapitel I der KI-VO)5.3.1 Sachlicher Anwendungsbereich: Die KI-Definition nach der KI-VO (Art. 3 Nr. 1)5.3.2 Persönlicher und räumlicher Anwendungsbereich (Art. 2 Abs. 1)5.3.2.1 Anbieter 5.3.2.2 Betreiber5.3.2.3 Sonstige (insb. Einführer und Händler) 5.3.3 Von der Verordnung ausgenommene Bereiche,Personen und Stellen 5.4 Der risikobasierte Ansatz und hieraus folgende Pflichten (Inhalt der KI-VO)5.4.1 Verbotene KI (Kapitel II der KI-VO)5.4.2 Hochrisiko-KI (Kapitel III der KI-VO)5.4.2.1 Einordnung als Hochrisiko-KI (Art. 6)5.4.2.1.1 KI-Systeme i. S. d. Art. 6 Abs. 1 (Anhang I)5.4.2.1.2 KI-Systeme i. S. d. Art. 6 Abs. 2 (Anhang III)5.4.2.2 Anforderungen an Hochrisiko-Systeme (Art. 8 bis 15)5.4.2.2.1 Einhaltung der Anforderungen (Compliance, Art. 8)5.4.2.2.2 Risikomanagementsystem (Art. 9)5.4.2.2.3 Daten und Daten-Governance (Art. 10)5.4.2.2.4 Technische Dokumentation (Art. 11)5.4.2.2.5 Aufzeichnungspflichten (Protokollierung, Art. 12)5.4.2.2.6 Transparenz und Informationsbereitstellung für Betreiber (Art. 13)5.4.2.2.7 Menschliche Aufsicht (Art. 14)5.4.2.2.8 Genauigkeit, Robustheit, Cybersicherheit (Art. 15)5.4.2.3 Pflichten der Hochrisiko-KI-Anbieters5.4.2.3.1 Überblick (Art. 16) 5.4.2.3.2 Qualitätsmanagementsystem (Art. 17)5.4.2.3.3 Aufbewahrungspflichten (Art. 18 und Art. 19)5.4.2.3.4 Korrekturmaßnahmen und Informationspflicht (Art. 20)5.4.2.3.5 Zusammenarbeit mit zuständigen Behörden (Art. 21)5.4.2.3.6 Konformitätsbewertung, Konformitätserklärung und CE-Kennzeichnung (Art. 40 ff.)5.4.2.3.7 Registrierung in der EU-Datenbank (Art. 49)5.4.2.3.8 Bevollmächtigte (Art. 22)5.4.2.3.9 Weitere Pflichten nach Inverkehrbringen des Hochrisiko-KI-Systems5.4.2.4 »Pflichtenfalle«: Übergang der Anbieterpflichten auf ­andere ­Personen (Art. 25)5.4.2.5 Pflichten der Einführer und Händler (Art. 23 und Art. 24) 5.4.2.6 Pflichten von Zulieferern (Art. 25 Abs. 4)5.4.2.7 Pflichten der Betreiber (Art. 26 und Art. 27)5.4.3 Transparenzpflichten für bestimmte KI-Systeme (Kapitel IV der KI-VO)5.4.4 Sonderanforderungen für »KI-Modelle mit allgemeinem Verwendungszweck« (GPAI) (Kapitel V der KI-VO)5.4.4.1 Der GPAI-Begriff 5.4.4.2 Die GPAI-Klassifizierung (Systemisches Risiko)5.4.4.3 Anforderungen an (alle) GPAI-Modelle (Art. 53 und Art. 54)5.4.4.4 Weitere Anforderungen an GPAI-Modelle mit systemischem Risiko (Art. 55)5.5 Freiwillige Unterwerfung unter die Hochrisiko-Anforderungen 5.6 Maßnahmen zur Innovationsförderung (Kapitel VI der ­KI-VO)5.7 Governance, Aufsicht und Durchsetzung 5.8 Sanktionen (Kapitel XII der KI-VO)5.9 Geltungsbeginn und Umsetzungsfristen 5.10 Fazit und AusblickDie Autorin6 Vertiefung: Anhaltspunkte für eine technische Umsetzung der KI-Verordnung6.1 Normungsprozess und Harmonisierung6.2 Technische Hochrisiko-Anforderungen (Art. 9 ff. KI-VO)6.2.1 Risikomanagementsystem (Art. 9)6.2.2 Daten und Daten-Governance (Art. 10)6.2.2.1 Daten-Governance- und Datenverwaltungsverfahren6.2.2.2 Datenqualität6.2.3 Technische Dokumentation (Art. 11 und Anhang IV)6.2.4 Aufzeichnungspflichten (Art. 12)6.2.5 Transparenz und Bereitstellung von Informationen (Art. 13)6.2.5.1 Betriebsanleitung6.2.5.2 Erklärbarkeit6.2.6 Menschliche Aufsicht (Art. 14)6.2.7 Genauigkeit, Robustheit und Cybersicherheit (Art. 15)6.2.7.1 Genauigkeit6.2.7.2 Robustheit6.2.7.3 Cybersicherheit6.2.8 Qualitätsmanagement (Art. 17)6.3 Transparenz gegenüber Nutzern bei bestimmten Systemen (Art. 50)6.4 KI-Systeme mit allgemeinem Verwendungszweck (GPAI) (Art. 51 ff.)6.5 ZusammenfassungDie Autoren7 KI und Patente – drei Blickwinkel7.1 Patente – ein kurzer Überblick7.1.1 Gewerbliches Schutzrecht7.1.2 Territoriales Verbotsrecht7.1.3 Kein Benutzungsrecht7.1.4 Amtliche Prüfung7.1.5 Schutz für technische Innovationen7.1.6 Weitere Schutzrechte7.2 Patentierbarkeit von KI-bezogenen Erfindungen 7.2.1 Überblick7.2.1.1 KI als computerimplementierte Erfindung7.2.1.2 Bestandteile einer Patentanmeldung7.2.1.3 Patentansprüche7.2.1.4 Patentierungsvoraussetzungen7.2.1.5 Ausschlusstatbestände7.2.1.6 Wirkung in der physisch-realen Welt 7.2.1.7 Situation in den USA7.2.1.8 Technischer Beitrag7.2.1.9 Programme für Datenverarbeitungsanlagen7.2.1.10 Mehrere Anspruchskategorien7.2.2 Neuheit7.2.2.1 Einzelvergleich7.2.2.2 Zeitrang7.2.2.3 Neuheit bei KI-bezogenen Erfindungen7.2.3 Erfinderische Tätigkeit7.2.3.1 Entscheidendes Kriterium7.2.3.2 Aufgabe-Lösungs-Ansatz (Problem Solution Approach)7.2.3.3 COMVIK-Entscheidung7.2.3.4 Finanzielles und administratives Konzept7.2.3.5 Erfinderische Tätigkeit von KI-bezogenen Erfindungen7.2.3.6 Sichtweise des BGH7.2.4 Gewerbliche Anwendbarkeit7.2.5 KI-bezogene Erfindungen in der Patentpraxis 7.2.5.1 Exponentieller Anstieg7.2.5.2 Erfolgsaussicht7.2.5.3 Angabe von Trainingsdaten und Trainingsmethoden7.2.6 Fazit7.2.6.1 Patentschutz für KI-bezogene Erfindungen ist möglich7.2.6.2 Bezug zu Anwendung in der physisch-realen Welt7.2.6.3 Einzelfallbetrachtung 7.2.6.4 Verwendung einer bekannten KI7.3 KI als Erfinder oder Miterfinder einer patentierbaren ­Erfindung7.3.1 Generative KI als Erfinder7.3.2 Patente als Vermögensgegenstand7.3.3 Dr. Thaler und DABUS7.3.3.1 Erfinderbenennung als formale Voraussetzung7.3.3.2 Mangelnde Erfinderbenennung7.3.3.3 DABUS in Deutschland7.3.3.4 DABUS in den USA, Großbritannien und weiteren Ländern7.3.3.5 DABUS in Südafrika7.3.4 KI als Werkzeug7.3.5 Erfinderischer Beitrag7.3.6 Erfindervergütung7.4 KI als Werkzeug für Patentämter und Patentanwälte7.4.1 KI-gestützte Patentanmeldung7.4.2 Grenzen7.4.3 KI-Einsatz beim EPA7.4.4 KI-generierte Übersetzungen7.4.5 Roadmap ist vorgezeichnetDer AutorSchlusswortIhre Online-Inhalte zum Buch: Exklusiv für Buchkäuferinnen und Buchkäufer!Stichwortverzeichnis

Buchnavigation

InhaltsubersichtCoverTextanfangImpressum
[1]

Hinweis zum Urheberrecht

Alle Inhalte dieses eBooks sind urheberrechtlich geschützt.

Bitte respektieren Sie die Rechte der Autorinnen und Autoren, indem sie keine ungenehmigten Kopien in Umlauf bringen.

Dafür vielen Dank!

myBook+

Ihr Portal für alle Online-Materialien zum Buch!

Arbeitshilfen, die über ein normales Buch hinaus eine digitale Dimension eröffnen. Je nach Thema Vorlagen, Informationsgrafiken, Tutorials, Videos oder speziell entwickelte Rechner – all das bietet Ihnen die Plattform myBook+.

Ein neues Leseerlebnis

Lesen Sie Ihr Buch online im Browser – geräteunabhängig und ohne Download!

Und so einfach geht’s:

Gehen Sie auf https://mybookplus.de, registrieren Sie sich und geben Sie Ihren Buchcode ein, um auf die Online-Materialien Ihres Buches zu gelangen

Ihren individuellen Buchcode finden Sie am Buchende

Wir wünschen Ihnen viel Spaß mit myBook+ !

Bibliografische Information der Deutschen Nationalbibliothek

Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.dnb.de abrufbar.

Print:

ISBN 978-3-648-17701-3

Bestell-Nr. 17032-0001

ePub:

ISBN 978-3-648-17702-0

Bestell-Nr. 17032-0100

ePDF:

ISBN 978-3-648-17703-7

Bestell-Nr. 17032-0150

Carsten Ulbricht/Danilo Brajovic/Torsten Duhme/Jessica Hawighorst/Marco F. Huber/Varinia Iber/Carolin Nemec

Praxishandbuch KI und Recht

1. Auflage, Oktober 2024

© 2024 Haufe-Lexware GmbH & Co. KG

Munzinger Str. 9, 79111 Freiburg

www.haufe.de | [email protected]

Bildnachweis (Cover): Cover: KI-generiert mit Adobe Firefly

Produktmanagement: Jürgen Fischer

Lektorat: Gabriele Vogt

Dieses Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Alle Rechte, insbesondere die der Vervielfältigung, des auszugsweisen Nachdrucks, der Übersetzung und der Einspeicherung und Verarbeitung in elektronischen Systemen, vorbehalten. Alle Angaben/Daten nach bestem Wissen, jedoch ohne Gewähr für Vollständigkeit und Richtigkeit.

Sofern diese Publikation ein ergänzendes Online-Angebot beinhaltet, stehen die Inhalte für 12 Monate nach Einstellen bzw. Abverkauf des Buches, mindestens aber für zwei Jahre nach Erscheinen des Buches, online zur Verfügung. Ein Anspruch auf Nutzung darüber hinaus besteht nicht.

Sollte dieses Buch bzw. das Online-Angebot Links auf Webseiten Dritter enthalten, so übernehmen wir für deren Inhalte und die Verfügbarkeit keine Haftung. Wir machen uns diese Inhalte nicht zu eigen und verweisen lediglich auf deren Stand zum Zeitpunkt der Erstveröffentlichung.

Vorwort

Die rasante Entwicklung der Künstlichen Intelligenz (KI) prägt zunehmend unsere Gesellschaft und Wirtschaft. Von automatisierten Entscheidungsprozessen bis hin zu kreativen Anwendungen erstreckt sich das Einsatzspektrum der KI, was neue rechtliche Herausforderungen und Fragestellungen mit sich bringt. Die zunehmende Verbreitung von KI-Technologien hat somit zur Folge, dass die diesbezüglichen rechtlichen Rahmenbedingungen kontinuierlich weiterentwickelt und angepasst werden müssen. Insbesondere die jüngst verabschiedete KI-Verordnung der EU (KI-VO) bringt weitreichende Neuerungen und Anforderungen für den Einsatz von KI-Systemen mit sich. Diese Regulierungen zielen darauf ab, die Chancen der KI-Technologie zu fördern, gleichzeitig aber auch Risiken zu minimieren.

Leider sorgt die bereits als »German Angst« bezeichnete Zögerlichkeit, die häufig auf mangelndem Verständnis neuer digitaler Technologien beziehungsweise rechtlichen Unsicherheiten gründet, gerade in Deutschland zunehmend dafür, dass Unternehmen und andere Organisationen digitale Entwicklungen und Opportunitäten verpassen. Das sollte im Bereich KI, welche sich als »Basistechnologie« gerade erst entwickelt, möglichst vermieden werden.

Unser »Praxishandbuch KI und Recht: Rechtliche Aspekte beim Einsatz von Künstlicher Intelligenz« bietet deshalb eine umfassende Orientierungshilfe zu den wichtigsten Rechtsfragen. Das Buch gliedert sich in sieben Themenkapitel, die sowohl rechtliche als auch insoweit relevante technische Aspekte der Technologie und des Einsatzes von KI-Systemen betrachten.

Beginnend mit den technischen Grundlagen (Kapitel 1) werden die wesentlichen Funktionsweisen und Begriffe der KI verständlich erklärt, um eine fundierte Basis für die folgenden rechtlichen Ausführungen zu schaffen.

Das Urheberrecht (Kapitel 2) untersucht die urheber- und immaterialgüterrechtlichen Fragen im Zusammenhang mit KI-generierten Inhalten und deren Nutzung. Der Umgang mit urheberrechtlich geschützten Werken wird ebenso thematisiert wie die mögliche Gestaltung von Lizenzverträgen.

Das Datenschutzrecht (Kapitel 3) beleuchtet die Herausforderungen und rechtlichen Vorgaben im Umgang mit personenbezogenen Datenpersonenbezogene Daten in KI-Anwendungen und gibt praktische Empfehlungen für eine datenschutzkonforme Implementierung.

In Kapitel 4 wird die Haftung im Zusammenhang mit dem Einsatz von KI-Systemen behandelt. Dieses Kapitel stellt die aktuellen gesetzlichen Entwicklungen und Gestaltungsmöglichkeiten zur Minimierung von Haftungsrisiken dar.

Die KI-Verordnung wird in zwei separaten Kapiteln besprochen: Kapitel 5 widmet sich zunächst den rechtlichen Aspekten der KI-VO, während Kapitel 6 die technischen Implikationen und Umsetzungsvorgaben der Verordnung näher ausführt.

Abschließend wird im letzten Kapitel Patentrecht (Kapitel 7) die Frage der PatentierbarkeitPatentierbarkeit von KI-Technologien und -Innovationen erörtert. Dieses Kapitel bietet wesentliche Einblicke in die Voraussetzungen und Möglichkeiten des Patentschutzes im Bereich der Künstlichen Intelligenz.

Dieses Praxishandbuch richtet sich an die jeweiligen Verantwortlichen in Unternehmen und anderen Organisationen, die sich mit den rechtlichen Rahmenbedingungen der Künstlichen Intelligenz auseinandersetzen. Es soll als pragmatischer und zugleich möglichst lösungsorientierter Leitfaden dienen, um den rechtssicheren Einsatz von KI-Systemen zu gewährleisten und die Chancen dieser innovativen Technologie optimal zu nutzen.

Carsten Ulbricht1

1 Dr. Carsten Ulbricht M.C.L. ist Rechtsanwalt und Partner der Kanzlei Menold Bezler in Stuttgart.

1 Einführung: KI und die wichtigsten damit zusammenhängenden Begriffe und Probleme

Danilo Brajovic und Marco Huber

Künstliche Intelligenz (engl. Artificial Intelligence (AI)) hat in den letzten Jahrzehnten einen bemerkenswerten Aufstieg erlebt und wird in den nächsten Jahren zweifellos immer stärker unseren Alltag beeinflussen. Dabei wirft die rasante Entwicklung der KI eine Vielzahl an Problemen auf, die neben technischen und ethischen Fragen vor allem auch den rechtlichen Umgang mit KI betreffen. Um diese Problematik besser zu verstehen, ist es hilfreich, KI selbst näher zu betrachten und zu verstehen.

1.1 Eine kurze Geschichte der KI

Üblicherweise wird hierfür zunächst ein Blick auf die geschichtliche EntwicklungKI, geschichtliche Entwicklung geworfen. Wie es in vielen aktuellen Arbeiten gerade üblich ist, haben wir ein KI-System, nämlich ChatGPTChatGPT, selbst nach der Geschichte der KI befragt. Hierzu führt ChatGPT aus:

»Die Geschichte der künstlichen Intelligenz (KI) ist ebenso faszinierend wie komplex und lässt sich bis in die Antike zurückverfolgen, wo Philosophen über die Prinzipien des Denkens und maschinelle Intelligenz sinnierten. Doch die eigentliche Geburtsstunde der KI als wissenschaftliches Feld schlug in den 1940er und 1950er Jahren. Größen wie Alan Turing, der mit seinen Arbeiten zur Turing-Maschine und dem Turing-Test grundlegende Konzepte lieferte, standen an der Wiege dieser Disziplin.

In den 1950er Jahren erlebte die KI-Forschung erste Höhepunkte. Wissenschaftler waren optimistisch, dass eine Maschine bald menschenähnliche Intelligenz erreichen könnte. Ein Ausdruck dieses Optimismus war die Vorhersage des Mathematikers und ›Vaters der Informationstheorie‹ Claude Shannon, der annahm, dass Computer innerhalb von 15 Jahren intelligent sein würden.

Die Dartmouth Conference von 1956 gilt als der offizielle Startpunkt der künstlichen Intelligenz als Forschungsfeld. Auf dieser Konferenz kamen führende Wissenschaftler zusammen, um die Möglichkeiten zu diskutieren, Maschinen das Denken beizubringen. Die Konferenz wurde von John McCarthy, Marvin Minsky, Nathaniel Rochester und Claude Shannon organisiert, die auch den Begriff ›Artificial IntelligenceArtificial Intelligence‹ prägten. Dieses Ereignis markierte den Beginn einer neuen Ära des wissenschaftlichen Strebens, eine der grundlegendsten menschlichen Fähigkeiten – das Denken – auf Maschinen zu übertragen. Die Dartmouth Conference setzte eine Welle der Forschung in Gang, die von einer Mischung aus theoretischer Arbeit und praktischer Anwendung geprägt war und schuf die Grundlage für viele nachfolgende Entwicklungen in der KI.

Doch die anfängliche Euphorie kühlte in den 1970er und 1980er Jahren ab, als die KI-Forschung in eine Phase der Stagnation eintrat, die heute als ›KI-Winter‹ bekannt ist. Die hohen Erwartungen konnten nicht erfüllt werden, was zu einer deutlichen Reduzierung der Investitionen und des Interesses an der KI führte.

Erst in den 1990er Jahren erholte sich das Feld langsam. Neue Ansätze, insbesondere in der Entwicklung von neuronalen Netzen, sowie signifikante Verbesserungen in der Rechenleistung führten zu einem erneuten Aufschwung der KI.

Ein Wendepunkt war das Jahr 2012, als das tiefe neuronale Netzwerk ›AlexNetAlexNet‹ die ­ImageNetImageNet Large Scale Visual Recognition Challenge dominierte. Dieser Erfolg markierte den Beginn einer neuen Ära des tiefen Lernens (Deep LearningDeep Learning), das seitdem zu einem der wichtigsten Treiber in der KI-Forschung und -Anwendung geworden ist. AlexNet zeigte eindrucksvoll, dass tiefe Lernmodelle in der Lage sind, komplexe Aufgaben wie die Bilderkennung mit zuvor unerreichter Genauigkeit zu bewältigen.

Diese Meilensteine der KI-Geschichte sind zentral für das Verständnis, wie weit die Technologie gekommen ist und welche Potenziale noch in ihr stecken. Sie bilden die Grundlage für den aktuellen Diskurs rund um den AI ActAI Act und die Regulierung von KI-Systemen.«

Neben einer Einleitung in das Thema KI bietet dieser Text auch einen guten ersten Einblick, wozu heutige KI-Systeme in der Lage sind, aber auch, wo ihre Grenzen liegen und warum eine Regulierung von der EU für notwendig gehalten wird. Während der Text sprachlich und grammatikalisch korrekt ist, enthält er inhaltlich einige (wenn in diesem Fall auch nur kleinere) Fehler. So beschreibt ChatGPTChatGPT nur einen »KI-Winter« in den 70er und 80er Jahren und eine Erholung in den 90ern. Tatsächlich gab es aber zwei »KI-Winter«, nämlich einen ersten in den 1970er und einen zweiten in den 1990er Jahren. In beiden Perioden wurden Forschungsausgaben für KI stark reduziert und das generelle Interesse an KI fiel stark. In den 1980ern erlebte KI aufgrund neuer Forschungserkenntnisse und Methoden einen »Boom«, der erst in dem zweiten ­»KI-Winter« wieder stagnierte. Der von ChatGPT generierte Text lässt es demgegenüber aber so dastehen, dass sich das in den 70ern beginnende Desinteresse an KI erst in den 90ern wieder erholen konnte. Obwohl wir ChatGPT auf diesen Fehler hingewiesen haben, wurde die generierte Antwort nicht verbessert. Stattdessen hat das Programm seinen Text mehrfach umformuliert, nicht aber inhaltlich ergänzt.

Wenn man sich mit den Fähigkeiten des Systems auseinandersetzt, ist der Grund hierfür leicht zu verstehen: ChatGPTChatGPT ist in der Lage, sprachlich korrekte Texte zu formulieren, und soll hierbei möglichst »menschlich« klingen. Einen unbedingten Anspruch an inhaltliche Korrektheit hat ChatGPT allerdings nicht. Weil ChatGPT seine Informationen aus dem Internet erhält, werden die generierten Antworten zwar regelmäßig richtig sein, müssen es aber keinesfalls. Wenn ChatGPT keine Informationen zu dem Thema einer Frage hat, wird das System im Zweifel trotzdem eine »menschlich« klingende Antwort formulieren, auch wenn diese inhaltlich falsch ist. Wenn ChatGPT aber nur Fehlinformationen zur Hand hat, wird es ebenso falsche Antworten geben. Die von ChatGPT generierten Texte und Antworten müssen daher stets auch mit einer gebotenen Prise Skepsis betrachtet werden.

1.2 Die wichtigsten Begriffe im Zusammenhang mit KI

Nachfolgend werden für das allgemeine KI-Verständnis die wichtigsten Begriffe in diesem Themenfeld erläutert.

1.2.1 Künstliche Intelligenz

Künstliche Intelligenz ist ein Überbegriff, der eine große Menge an Methoden und Konzepten beinhaltet, für die es in den Naturwissenschaften und der Informatik bislang keine einheitlich anerkannte Definition gibt. Von »der« KI lässt sich daher nicht wirklich sprechen. Auch ist die Grenze zwischen »schon KI« und »noch (herkömmlicher) Software« umstritten und nicht einfach zu ziehen. Als die Europäische Union den Vorsatz fasste, ein Gesetz zur Regulierung von KI (siehe hierzu Kap. 5) zu schaffen, stand sie daher vor der Hürde, dass sie nicht auf eine bestehende Definition zurückgreifen konnte, sondern gezwungen war, eine eigene zu schaffen. In einem ersten Entwurfsvorschlag2 schlug die EU-Kommission vor, KI anhand von bestimmten Algorithmen und mathematischen Prozessen zu beschreiben, was jedoch zu heftiger Kritik führte. So sah die EU-Kommission ein Programm, das sich »statistischer Methoden« bediente, bereits als KI an.3 Unter statistische Methoden können jedoch auch einfache Berechnungen fallen, die von einer Vielzahl herkömmlicher Softwareprogramme ausgeführt werden. Für den finalen Gesetzestext wurde sich letztendlich stark an der DefinitionKI, Definition der Organisation for Economic Co-operation and Development (OECD) orientiert, die (aus dem Englischen übersetzt) lautet: »Ein KI-System ist ein maschinengestütztes System, das für explizite oder implizite Ziele aus den empfangenen Eingaben ableitet, wie es Ergebnisse, wie Vorhersagen, Inhalte, Empfehlungen oder Entscheidungen, erzeugen kann, die physische oder virtuelle Umgebungen beeinflussen können. Verschiedene KI-Systeme unterscheiden sich in ihrem Grad an AutonomieAutonomie und Anpassungsfähigkeit nach dem Einsatz.«4

Trotz der bestehenden Differenzen in Bezug auf eine KI-Definition, besteht weitgehende Einigkeit darin, dass es sich bei KI um Computersysteme handelt, die menschenähnliche Intelligenz nachahmen. Eine Definition auf der Website des Europäischen Parlaments beschreibt KI daher als »die Fähigkeit einer Maschine, menschliche Fähigkeiten wie logisches Denken, Lernen, Planen und Kreativität zu imitieren«.5 Die Schwierigkeit liegt jedoch auch bei einem solchen KI-Verständnis zumindest in der Klärung, was überhaupt unter »Menschenähnlichkeit« zu verstehen ist oder was man unter den Begriff der »Intelligenz« fassen möchte. Während man bei ChatGPTChatGPT durchaus von einem »intelligenten« System mit »menschlicher« Sprachfähigkeit sprechen dürfte, werfen andere Programme diesbezüglich Abgrenzungsfragen auf: Ist ein Schachcomputer bereits eine KI? Oder der Netflix-Algorithmus, der seinen Nutzern intelligente Filmvorschläge macht? Oder eine automatische Gesichtserkennung zum Entsperren des Smartphones? Was »schon« oder »noch nicht« KI ist, bleibt daher zum Teil der eigenen Interpretation überlassen und hat in der Praxis eine geradezu inflationäre Verwendung des Begriffs – nicht zuletzt auch zu Marketingzwecken – zur Folge. Fest steht allerdings, dass heutige KI-Systeme weit davon entfernt sind, »intelligent« nach menschlichen Maßstäben zu sein. Intelligenz erfordert tiefes Modellwissen über die Zusammenhänge der Welt und die Möglichkeit, diese Modelle geeignet zu verknüpfen, um eine Aufgabe zu lösen – eine Fähigkeit, die KI-Systemen derzeit noch fehlt.

1.2.2 Maschinelles Lernen

Das maschinelle Lernen (kurz auch als »ML« bezeichnet) stellt in der KI-Forschung eine Schlüsselkomponente dar, die es einer KI ermöglicht, aus Daten zu lernen und intelligente Entscheidungen zu treffen, ohne dass sie explizit hierauf programmiert werden muss. Vereinfacht ausgedrückt liegt dem maschinellen Lernen der Gedanke zugrunde, einem KI-System beizubringen, wie es »denken« muss. Zu den prominenten auf der Methode des maschinellen Lernens basierenden Beispielen zählen Entwicklungen wie ChatGPTChatGPT oder Midjourney, die in jüngerer Vergangenheit große mediale Aufmerksamkeit erlangt haben.

1.2.2.1 Training

Der Prozess des Lernens im maschinellen Lernen wird als Training bezeichnet. Während des Trainings wird die KI mit einer Fülle von TrainingsdatenTrainingsdaten konfrontiert, die als Grundlage für ihr Lernen dienen. Diese Daten können z. B. Bilder, Texte oder andere Arten von Informationen sein, je nachdem, welche Art von Aufgabe sie lernen soll. Die »fertig trainierte« KI wird dann als »KI-ModellKI-Modell« bezeichnet. Insgesamt unterscheidet man drei verschiedene Arten des Lernens:

1.2.2.1.1 Überwachtes Lernen (Supervised Learning)

Beim überwachten Lernen, auch Supervised LearningSupervised Learning genannt, wird die KI anhand von Daten trainiert, die bereits mit korrekten Antworten (»Labels«) versehen sind (d. h., die Daten sind annotiert). Diese Art des Lernens ähnelt der Unterweisung durch einen Lehrer, der erklärt, wie bestimmte Aufgaben zu lösen sind. Für die TrainingsdatenTrainingsdaten bedeutet das, dass sie mit entsprechenden Labels versehen sein müssen, die das gewünschte Ergebnis angeben. Ein KI-ModellKI-Modell, das beispielsweise Hunde und Katzen unterscheiden soll, benötigt somit Trainingsbilder, die ebenfalls die Information enthalten, ob auf dem Bild ein Hund oder eine Katze zu sehen ist.

1.2.2.1.2 Unüberwachtes Lernen (Unsupervised Learning)

Beim unüberwachten Lernen, auch Unsupervised LearningUnsupervised Learning genannt, erhält das KI-ModellKI-Modell keine expliziten Handlungsanweisungen zu den Daten – die TrainingsdatenTrainingsdaten sind also nicht mit Labels versehen, die Auskunft darüber geben, welches Ergebnis zu welchem Datum gehört. Die Aufgabe der KI besteht darin, selbstständig Strukturen, Muster oder Gruppierungen in den Daten zu entdecken und hieraus zu lernen. Anknüpfend an das obige Beispiel würde die KI bei diesem Lernprozess einen Datensatz mit Bildern von Hunden und Katzen erhalten, ohne zu wissen, welches Bild einen Hund und welches eine Katze zeigt. Die KI muss sodann selbst anhand von Mustern – z. B. der Gesichtsform, den Ohren, der Größe usw. – zu einem eigenen Ergebnis gelangen.

1.2.2.1.3 Bestärkendes Lernen (Reinforcement Learning)

Das bestärkende Lernen, auch Reinforcement LearningReinforcement Learning genannt, folgt dem Prinzip von »Trial and Error« und umfasst somit ein Lernen ohne Handlungsanweisungen, dafür aber mit einem Belohnungssystem. Dem KI-System wird ein bestimmtes Ziel vorgegeben, jedoch ohne konkrete Anleitung, wie dieses Ziel zu erreichen ist. Ein klassisches Anwendungsfeld für Reinforcement Learning ist die Robotik: Ein Roboter kann beispielsweise die Aufgabe erhalten, einen Gegenstand aus einer Kiste zu entnehmen und an einem vorgegebenen Ort abzulegen. Anstatt dem Roboter den genauen Vorgehensprozess vorzugeben – Öffnen der Hand, Zugreifen, Herausnehmen usw. –, lernt der Roboter durch eigene Versuche und erhält eine Belohnung für jedes Mal, wenn er das Ziel erreicht.

1.2.2.2 Generalisierung

Das Ziel beim Training einer KI im Rahmen des maschinellen Lernens ist die Entwicklung eines Modells, das »generalisieren« kann. Das bedeutet, dass das Modell allgemeingültige Regeln und Muster ableiten kann und in der Lage ist, auch mit unbekannten Daten zu arbeiten. Wenn also die KI im Rahmen ihres Trainings mit 500 Bildern von Hunden und Katzen trainiert wurde, soll sie als fertig trainiertes Modell nicht nur diese 500 Bilder aus ihrem Trainingsprozess richtig zuordnen können, sondern auch gänzlich unbekannte Hunde- und Katzenbilder. Um zu überprüfen, ob die Fähigkeit zur Generalisierung vorliegt, wird das KI-ModellKI-Modell mit einem separaten Testdatensatz, der aus für die KI unbekannten Daten besteht, überprüft. Diese Vorgehensweise ermöglicht es, die Leistungs- und Generalisierungsfähigkeit des finalen KI-Modells objektiv zu beurteilen.

1.2.2.3 Over- und Underfitting

Im Rahmen des Trainingsprozesses kann es unerwünschterweise passieren, dass das KI-System seine TrainingsdatenTrainingsdaten »auswendig« lernt, anstatt wie gewünscht allgemeine Muster zu erkennen. Man spricht vom sogenannten »OverfittingOverfitting«. Das System kann in diesem Fall zwar auf seinen Trainingsdaten sehr gute Leistungen erzielen, neue Daten aber nur schlecht korrekt zuordnen. Die KI, die mit 500 Bildern von Hunden und Katzen trainiert wurde, kann dann alle diese Bilder nahezu fehlerlos der Kategorie »Hund« oder »Katze« zuordnen, macht aber bei neuen Hunde- und Katzenbildern außerhalb dieser 500 Daten viele Fehler.

Das gewissermaßen gegenteilige Problem entsteht, wenn das KI-System nicht leistungsfähig genug ist, um die bestehenden Zusammenhänge und Regeln aus seinen TrainingsdatenTrainingsdaten zu erfassen (sogenanntes »UnderfittingUnderfitting«). In diesem Fall wäre das KI-System nicht einmal in der Lage, Regeln aus seinen 500 Trainingsbildern abzuleiten und hier überhaupt Hunde oder Katzen zu erkennen.

1.2.2.4 Entscheidungsbäume und Regelbasierte Systeme

Entscheidungsbäume zählen zu den einfachsten und am weitesten verbreiteten Algorithmen des maschinellen Lernens. Sie extrahieren eine Sammlung von Entscheidungsregeln aus einem vorhandenen Datensatz, welche dann verwendet werden können, um Aussagen über neue, unbekannte Daten zu treffen. Die zugrundeliegenden Entscheidungsregeln lassen sich effektiv in Form eines Baumdiagramms visualisieren, was Entscheidungsbäume besonders anschaulich macht.

Regelbasierte Systeme wiederum bauen auf einem festgelegten Regelwerk auf, das nach dem Schema »wenn X, dann Y, sonst Z« operiert. Bis auf die Baumstruktur ähnelt dies grundsätzlich einem Entscheidungsbaum. Im Gegensatz zu Entscheidungsbäumen werden die Regeln bei regelbasierten Systemen jedoch (meistens) nicht aus den Daten abgeleitet, sondern sind von Menschen vorgegeben. Sie werden daher auch nicht dem maschinellen Lernen zugeordnet.

Früher waren regelbasierte Systeme weit verbreitet. Fortschritte im Bereich des maschinellen Lernens haben aber dazu geführt, dass Entscheidungsbäume und andere datengetriebene Ansätze zunehmend an Bedeutung gewonnen haben.

1.2.2.5 Deep Learning und neuronale Netze

Deep LearningDeep Learning ist eine spezielle Methode des maschinellen Lernens, die auf sogenannten künstlichen neuronalen Netzen basiert. Diese Netze bestehen aus mathematischen Funktionen, die in ihrer Struktur und Funktionsweise von den neuronalen Netzen des menschlichen Gehirns inspiriert sind. Sie stellen das Fundament vieler jüngster Fortschritte in der KI-Forschung dar.

Eines der berühmtesten Beispiele hierzu ist das 2012 veröffentlichte AlexNetAlexNet6, das durch den Einsatz künstlicher neuronaler Netze eine signifikante Verbesserung in der Bilderkennung demonstrierte, hierdurch ein weltweites Interesse am Deep LearningDeep Learning auslöste und damit sogar einen Wendepunkt in der KI-Forschung markierte.

Für den Inhalt dieses Buches ist ein tiefgreifendes technisches Verständnis neuronaler Netze nicht erforderlich. Dennoch kann es hilfreich sein, zumindest einen groben Überblick über die Architektur und Funktionsweise solcher Modelle zu bekommen. Die nachfolgende Abbildung 1 illustriert daher beispielhaft die Architektur von einem kleinen neuronalen Netz. Solche und ähnliche Visualisierungen werden oft genutzt, um die Architektur neuronaler Netze und Deep LearningDeep Learning anschaulich darzustellen. Ganz links befindet sich die Eingabeschicht, in der das Eingabebild in das neuronale Netz eingespeist wird. Über dieses Eingangsbild werden nacheinander kleinere Filter gelegt, um Merkmale wie Kanten, Texturen oder Formen zu extrahieren. Dieser Vorgang wiederholt sich über mehrere Ebenen des neuronalen Netzwerks, wobei jede Ebene darauf fokussiert ist, bestimmte Merkmale des Bildes auf unterschiedlichen Abstraktionsebenen zu erkennen. Dabei werden in den frühen Schichten einfache Merkmale wie Kanten oder Ecken identifiziert, während in den tieferen Schichten immer komplexere und abstraktere Merkmale wie Gesichter oder Objekte erkannt werden.

Abb. 1

: Häufig verwendete schematische Darstellung eines neuronalen Netzes. Die einzelnen Rechtecke repräsentieren die Schichten des tiefen neuronalen Netzes. Die Entscheidung darüber, was auf dem Bild zu sehen ist, wird im hellblauen Rechteck ganz rechts (Ausgangsebene) getroffen. In diesem Fall erkennt die KI einen »Hund«.

Weil die extrahierten Merkmale über die große Anzahl an Schichten immer »tiefer« gereicht werden, spricht man von »Deep LearningDeep Learning«.7 Die grundlegende Architektur (Anzahl an Schichten, Anzahl an Filter, Größe der Filter) wird dabei vom Menschen festgelegt, während die Filter selbst aber vom Lernalgorithmus anhand der Daten festgelegt werden, indem der Algorithmus selbst entscheidet, welche Merkmale besonders hilfreich für die Aufgabe sind.

1.2.2.6 Transformer

Transformer-ModelleTransformer-Modelle stellen einen speziellen Typ künstlicher neuronaler Netze dar. Auch wenn es sich dabei ebenfalls um eine Form des Deep Learnings handelt, sieht ihre Netzarchitektur etwas anders aus als bei herkömmlichen künstlichen neuronalen Netzen. Während Letztere sich auf eher lokale Merkmale und primär auf Muster fokussieren, lernen Transformer globale Zusammenhänge und können auf Bildern daher »das Aussehen« als Ganzes erkennen. Ein klassisches neuronales Netz würde beispielsweise bei einem Bild eines Elefanten mit Katzenfell eher eine Katze erkennen, ein Transformer hingegen einen Elefanten.

Ursprünglich wurden Transformer für die Verarbeitung natürlicher Sprache (Natural Language Processing, NLPNatural Language Processing, NLP) wie maschinelle Übersetzung und Textzusammenfassung entwickelt, mittlerweile finden sie aber auch in anderen Bereichen, wie etwa der Bildverarbeitung, breite Anwendung. Ihre Bedeutung kommt vor allem daher, dass sie als Grundlage für sogenannte große SprachmodelleSprachmodelle wie ChatGPTChatGPT dienen. Das »GPT« in ChatGPT steht für »Generative Pretrained Transformer«, zu Deutsch in etwa »generativ vortrainierter Transformer«.

1.2.2.7 Reinforcement Learning from Human Feedback (RLHF)

Das sogenannte Reinforcement LearningReinforcement Learning from Human Feedback (RLHF) ist eine Trainingsmethode, die unter anderem bei der Entwicklung von ChatGPTChatGPT zum Einsatz kam.8 Das Training von ChatGPT und ähnlicher Systeme erfolgt(e) in zwei Hauptphasen: Zunächst wird das Basismodell darauf trainiert, aus einer enormen Menge an Daten – im Wesentlichen aller frei im Internet verfügbaren Texte – das jeweils nächste Wort vorauszusagen. Dieser Schritt wird als selbstüberwacht (self-supervised) bezeichnet, da dem System keine direkten Handlungsanweisungen vorgegeben werden, dafür allerdings ähnliche Trainingsalgorithmen wie beim überwachten Lernen zum Einsatz kommen. Das Ergebnis dieses Prozesses sind Modelle wie GPT-3 oder GPT-4, die die Basis für ChatGPT darstellen.

Als zweiter Schritt erfolgt eine Feinabstimmung des vortrainierten Modells unter Einsatz menschlicher AnnotatorenAnnotatoren, die die Qualität der generierten Antworten bewerten und so die Leistung des Systems verbessern. Dieser Prozess ist notwendig, weil die unverarbeiteten TrainingsdatenTrainingsdaten aus dem Internet oft fehlerhafte, irreführende oder unangemessene Inhalte enthalten können. Allerdings besteht hier auch die Gefahr, dass Meinungen oder Vorurteile der Annotatoren in das Netz »hineintrainiert« werden. Die Arbeit von Perez et al. (2023) zeigt beispielsweise, dass durch RLHF die Modelle eher politisch linke Ansichten aufweisen.9

1.2.3 Natural Language Processing (NLP)

NLP steht für Natural Language Processing, also die Verarbeitung natürlicher Sprache. Als Teilgebiet der Künstlichen Intelligenz beschäftigt es sich damit, wie Computer menschliche Sprache verstehen, interpretieren und manipulieren können.

1.2.4 Large Language Models (LLMs)

Modelle wie ChatGPTChatGPT gehören zur Kategorie der Large Language Models (LLMs)Large-Language-Modelle, die sich durch ihre beträchtliche Größe und die damit verbundene lange Trainingsdauer auszeichnen. So besteht GPT-3, das als Grundlage für ChatGPT dient, bereits aus 175 Milliarden Parametern.10 Im Gegensatz dazu verfügte AlexNetAlexNet (2012) lediglich über 60 Millionen Parameter11 und konnte daher innerhalb einer Woche auf einer einzelnen Grafikkarte trainiert werden. Würde man GPT-3 auf einer einzelnen Grafikkarte trainieren wollen, würde das etwa 355 Jahre dauern.12

1.2.5 Generative KI

Generative KI bezeichnet KI-Systeme, die nicht nur Vorhersagen treffen, sondern auch in der Lage sind, neue Daten zu erzeugen. Sie sind also beispielsweise nicht nur in der Lage, einen Hund oder eine Katze auf einem Bild zu identifizieren, sondern können vielmehr neue, eigene Bilder, Videos, Audiodaten, Texte oder Ähnliches erzeugen. Diese Systeme haben somit das Potenzial, »kreativ« zu sein und neue Inhalte zu schaffen, die denen ähneln, die sie während ihres Trainings gesehen haben. Ein bekanntes Beispiel für generative KI-Systeme sind Bildgeneratoren wie Midjourney13, die in der Lage sind, realistische und künstlerisch ansprechende Bilder zu erzeugen, aber auch textbasierte Modelle wie ChatGPTChatGPT.14

1.2.6 General Purpose AI (GPAI)

General Purpose AI (GPAIGPAI) ist ein Begriff, der vor allem infolge der KI-VO bekannt geworden ist und zuvor in technischen Kreisen weniger verbreitet war. Gemeint sind damit KI-Systeme, die flexibel in unterschiedlichen Einsatzbereichen eingesetzt werden können. Ein Beispiel für ein GPAI-System ist ein Personendetektor: Diese Art von KI ist in der Lage, zu erkennen, ob und wo Menschen auf Bildern zu sehen sind. Ein solcher Detektor kann vielseitig in ganz unterschiedlichen Einsatzbereichen genutzt werden, etwa in autonomen Fahrzeugen, bei der Steuerung von Ampelanlagen oder in einer intelligenten Straßenbeleuchtung. Im Gegensatz dazu ist eine KI, die aus den Schufa-Daten einer Person den Creditscore dieser Person errechnet, an einen sehr kleinen Einsatzbereich gebunden: Sie kann nur eingesetzt werden, sofern ihr alle maßgeblichen Schufa-Daten vorliegen und ihre Aufgabe darin besteht, daraus einen Credit­score zu errechnen.

1.2.7 Foundation-Modelle

Foundation-ModelleFoundation-Modelle bezeichnen besonders leistungsfähige KI-Modelle, die auf Grundlage einer umfassenden Datenbasis trainiert wurden. Der Begriff stammt von Forschern aus Stanford und hat sich in der wissenschaftlichen Gemeinschaft etabliert. Er geht darauf zurück, dass Foundation-Modelle eine Grundlage (engl. Foundation) bilden und ohne Training oder nur mit minimalen Anpassungen in der Lage sind, eine hohe Bandbreite an Aufgaben lösen zu können. Ursprünglich sollten Foundation-Modelle auch in der KI-VO reguliert werden und wurden bereits in einer deutschen Entwurfsfassung als »Basismodelle« bezeichnet. Die Abgrenzung zu GPAIGPAI gestaltete sich allerdings als schwierig und basierte primär auf der Art der verwendeten TrainingsdatenTrainingsdaten. In die finale Fassung des Gesetzestextes haben Foundation-Modelle keinen Eingang mehr gefunden.

1.2.8 FLOPS

FLOPSFLOPS steht für »Floating Point Operations Per Second« und ist ein Maß für die Rechenleistung von Computern. FLOPS geben die Anzahl der Rechenoperationen an, die ein Computer pro Sekunde durchführen kann und geben somit Auskunft über die Geschwindigkeit und Leistungsfähigkeit eines Computers. Die EU verwendet FLOPS als Abgrenzung, um zu entscheiden, wann ein KI-System als risikoreich gilt.

2 COM(2021) 206 final.

3 Anhang I der ersten Fassung der KI-VO (COM(2021) 206 final) zählte folgende Techniken als KI: a) Konzepte des maschinellen Lernens, mit beaufsichtigtem, unbeaufsichtigtem und bestärkendem Lernen unter Verwendung einer breiten Palette von Methoden, einschließlich des tiefen Lernens (Deep Learning); b) Logik- und wissensgestützte Konzepte, einschließlich Wissensrepräsentation, induktiver (logischer) Programmierung, Wissensgrundlagen, Inferenz- und Deduktionsmaschinen, (symbolischer) Schlussfolgerungs- und Expertensysteme; c) Statistische Ansätze, Bayessche Schätz-, Such- und Optimierungsmethoden.

4 Im Original: »An AI system is a machine-based system that, for explicit or implicit objectives, infers, from the input it receives, how to generate outputs such as predictions, content, recommendations, or decisions that can influence physical or virtual environments. Different AI systems vary in their levels of autonomy and adaptiveness after deployment.«, abrufbar unter https://oecd.ai/en/ai-principles.

5 »Was ist künstliche Intelligenz und wie wird sie genutzt?« (20.06.2023), abrufbar auf der Webseite des Europäischen Parlamentes, archiviert unter: https://web.archive.org/web/20240324141455/https://www.europarl.europa.eu/topics/de/article/20200827STO85804/was-ist-kunstliche-intelligenz-und-wie-wird-sie-genutzt.

6 Krizhevsky, Alex et al.: ImageNet Classification with Deep Convolutional Neural Networks, NIPS 2012.

7 Die mathematische Theorie besagt zwar, dass auch sehr flache Netze mit nur zwei Ebenen jede Lernaufgabe lösen könnten. Durch die Tiefe sind die Netze allerdings deutlich effizienter.

8 OpenAI: Introducing ChatGPT, Blogpost, November 2022, archiviert unter https://web.archive.org/web/20240324173527/https://openai.com/blog/chatgpt.

9https://aclanthology.org/2023.findings-acl.847/.

10 Brown, Tom B. et al.: Language Models are Few-Shot Learners, NIPS 2020.

11 Krizhevsky, Alex et al.: ImageNet Classification with Deep Convolutional Neural Networks, NIPS 2012.

12 Chuan Li: OpenAI’s GPT-3 Language Model: A Technical Overview, Blogpost Juni 2020, archiviert unter: https://web.archive.org/web/20240324133642/https://lambdalabs.com/blog/demystifying-gpt-3.

13https://www.midjourney.com/.

14 Weil ChatGPT eigentlich nur darauf trainiert ist, das nächste Wort vorherzusagen, wird teilweise behauptet, dass ChatGPT gar keine generativen Fähigkeiten habe und in der Folge auch keine generative KI sei. Allerdings zeigt die praktische Anwendung von ChatGPT, dass das Modell weit über die reine Vorhersage des nächsten Wortes hinausgeht, was u. a. auf das Reinforcement Learning from Human Feedback zurückzuführen ist.

1.3 Daten

Technologischer Fortschritt und Leistungssteigerung durch schnellere Computerprozessoren und Grafikkarten sind nur ein Treiber der jüngsten Durchbrüche in der KI-Forschung. Daneben ist vor allem die Verfügbarkeit großer Datenmengen ein wesentlicher Faktor, damit KI-Systeme immer leistungsfähiger werden. Insbesondere durch das Internet stehen immer mehr Daten für das Training von KI-Systemen zur Verfügung. Doch gerade diese Datensätze sind oft von Problemen betroffen, wie etwa unklaren Urheberrechtsverhältnissen, fehlerhaften Inhalten und Unvollständigkeiten.

1.3.1 Trainingsdaten

Je mehr und je qualitativ hochwertigere TrainingsdatenTrainingsdaten zur Verfügung stehen, desto besser kann ein KI-ModellKI-Modell trainiert werden, um genaue Vorhersagen oder Entscheidungen zu treffen, wenn es mit neuen Daten konfrontiert wird. Trainingsdaten können in verschiedenen Formaten vorliegen, je nachdem, welche Aufgabe das fertig trainierte Modell bearbeiten können soll, und daher z. B. Bilder, Texte, Audioaufnahmen oder andere Arten von Daten umfassen.

1.3.2 Testdaten

Wie zuvor beschrieben, liegt das Ziel des maschinellen Lernvorgangs beim KI-Training in der Generalisierung eines KI-Modells. Die Qualität des KI-Modells wird anschließend anhand von sogenannten Testdaten beurteilt, die während des Trainings nicht verwendet wurden und der KI daher unbekannt sind. In der Praxis kann es jedoch zu einem »Data LeakageData Leakage« kommen, bei dem ungewollt TrainingsdatenTrainingsdaten auch im Testdatensatz vorhanden sind. Dies kann etwa passieren, wenn beim Sammeln und Verarbeiten der Daten nicht sauber gearbeitet wurde und bereits beim Erheben der Daten versehentlich Doppelungen in Trainings- und Testdaten vorliegen.

Aufsehen erregte etwa CheXNet, ein KI-ModellKI-Modell aus dem Umfeld des renommierten KI-Forschers Andrew Ng aus Stanford, welches auf Röntgenaufnahmen Lungenentzündungen diagnostizieren sollte. Obwohl das Modell auf den Testdaten ähnlich gut abschnitt wie medizinisches Fachpersonal, zeigte sich später, dass die Testdaten versehentlich Bilder von Patienten enthalten hatten, die bereits für das Training verwendet wurden.15 Grund hierfür war, dass man für die Trainings- und Testdaten ungewollt Bilder derselben Patienten verwendet hatte, die an unterschiedlichen Tagen aufgenommen wurden und daher bei der Datensammlung wie separate Fälle wirkten. In der Folge hatte das Modell vor allem gelernt, die Patienten aus seinem Training mit Lungenentzündungen zu identifizieren, statt die Krankheit generell zu diagnostizieren.

1.3.3 Validierungsdaten

Um ein »Data LeakageData Leakage« zu vermeiden, werden in der Praxis neben den Testdaten zusätzliche ValidierungsdatenValidierungsdaten verwendet. Dabei handelt es sich um eine Art zweiten Testdatensatz, der bereits während des KI-Trainings verwendet wird, insbesondere um zu überprüfen, wie gut die KI bereits generalisiert, und anschließend das Training gegebenenfalls weiter zu optimieren. Erst wenn die KI anhand der Validierungsdaten gute Ergebnisse erzielt, wird sie am eigentlichen Testdatensatz evaluiert. Die Validierungsdaten stellen somit eine Art zweite Sicherheitsstufe dar, um die gewünschte Generalisierung sicherzustellen.

1.3.4 ImageNet

Einer der größten und wichtigsten Datensätze, die es für das Training von KI-Systemen gibt, ist ImageNetImageNet.16 ImageNet besteht aus etwa 14 Millionen Bildern, die über 21.000 verschiedene Klassen an Objekten – z. B. Tier- und Pflanzenarten, Autos, Personen usw. – umfassen. Viele kommerzielle Modelle wurden in der Vergangenheit und werden auch heute noch auf Basis von ImageNet trainiert, so auch das zuvor erwähnte AlexNetAlexNet. Auf Grundlage dieses Datensatzes wurden in der Vergangenheit jährlich Wettbewerbe abgehalten, wie z. B. die ImageNet Large Scale Visual Recognition Challenge (ILSVRC), die 2012 von AlexNet gewonnen wurde.

Die Daten aus dem ImageNetImageNet-Datensatz wurden aus verschiedenen Internetsuch­maschinen zusammengetragen. In der Folge ist die Urheberschaft der Daten teilweise unklar und viele Personen wissen nicht einmal, dass Abbildungen von ihnen oder von ihrem Eigentum Bestandteil des Datensatzes sind.17 (Siehe hierzu auch Kap. 2)

1.3.5 Common Crawl

Auch Common Crawl ist ein umfangreicher Datensatz.18 Er wird durch regelmäßiges sogenanntes »Crawlen« des Internets erstellt. Dabei handelt es sich um einen automatisierten Prozess des Durchsuchens des Internets nach Informationen mithilfe von speziellen Programmen, die auch als Web-Crawler bezeichnet werden. Common Crawl zielt darauf ab, eine weitreichende Sammlung von Internetdaten zu archivieren, und ist besonders relevant für die Entwicklung von Large Language Models (LLMs)Large-Language-Modelle. So entstammten rund 60 % der TrainingsdatenTrainingsdaten für GPT-3 dem Common-Crawl-Datensatz.19 Weil auch Common Crawl seine Daten aus dem Internet bezieht, können sich hier ebenfalls urheberrechtliche Fragen stellen (siehe Kap. 2).

15 »Andrew Ng X-Rays the AI Hype: AI pioneer says machine learning may work on test sets, but that’s a long way from real world use« IEEE Spectrum vom 03.05.2021. Archiviert unter: https://web.archive.org/web/20240324132935/https://spectrum.ieee.org/andrew-ng-xrays-the-ai-hype.

16https://image-net.org/.

17https://huggingface.co/datasets/imagenet-1k.

18https://commoncrawl.org/.

19 Brown, Tom B. et al.: Language Models are Few-Shot Learners, NIPS 2020.

1.4 Weitere Probleme im Zusammenhang mit KI

Neben den Herausforderungen, die sich aus der Beschaffenheit der Datensätze ergeben, stellt vor allem das Verständnis über die Funktionsweise eines trainierten KI-­Modells sowie die Sicherheit der Daten grundlegende Schwierigkeiten dar.

1.4.1 Erklärbarkeit

KI-Systeme werden mit enormen Mengen an TrainingsdatenTrainingsdaten gefüttert, aus denen sie lernen, Muster zu erkennen. Ob diese erlernten Muster jedoch tatsächlich sinnvoll und für die vorgesehene Anwendung nützlich sind, ist häufig schwer zu bestimmen. KI-Systeme werden deshalb häufig als »BlackboxBlackbox« bezeichnet, weil ihre internen Entscheidungsfindungsprozesse komplex sind und sich einer direkten menschlichen Einsicht oft sogar ganz entziehen.20 Ein vielfach genanntes Beispiel für ein fehlgeleitetes Muster ist etwa ein KI-System, das darauf trainiert wurde, Wölfe von Hunden zu unterscheiden. Anstatt jedoch charakteristische Merkmale der Tiere zu erlernen, konzentrierte sich die KI zur Erkennung von Wölfen auf den Schnee im Hintergrund der Bilder, weil bei den Wolfsbildern im Trainingsdatensatz überproportional häufig Schnee zu sehen war.

Für diese Problematik hat sich das Forschungsfeld der »Erklärbarkeit« (engl. explain­able AI oder kurz xAI) entwickelt. Ziel dieses Forschungsfeldes ist es, Methoden zu entwerfen, die das Zustandekommen der Entscheidungen von KI-Systemen nachvollziehbar machen.

Ein hierzu häufig verwendetes Verfahren ist LIME, das für »Local Interpretable ­Model-agnostic ExplanationsLocal Interpretable Model-agnostic Explanations (LIME)« steht. Mit LIME lassen sich unter anderem Erklärungen für bildbasierte KI-Systeme erstellen. In der nachfolgenden Abbildung 2 findet sich eine solche mit LIME erstellte Erklärung in Anlehnung an das soeben genannte ­Beispiel mit den Huskys und Wölfen.

Abb. 2

: Links: Ein Hund, der korrekterweise als »Zwergpudel« klassifiziert wird. Rechts: Erklärung für die Entscheidung »Zwergpudel«. Wie zu sehen, hat die sich KI maßgeblich auf den Kopf des Hundes konzentriert. Die Grafik ist angelehnt an Ribeiro, Marco Tulio et al.: Why Should I Trust You? Explaining the Predictions of Any Classifier, KDD 2016.

Das Erklären von KI-Entscheidungen ist komplex und Gegenstand aktiver Forschung. Es existieren zahlreiche Erklärungsansätze, am einfachsten zu verstehen ist die Abgrenzung zwischen sogenannten lokalen und globalen Erklärungen. Lokale Erklärungen versuchen, die Entscheidungsgründe für eine ganz konkrete Entscheidung zu ergründen, während globale Erklärungen darauf abzielen, die Entscheidungslogik des gesamten Modells zu erfassen. Eine lokale Erklärung beispielsweise bei einer KI, die zur Kreditvergabe verwendet wird, wäre etwa die Erklärung, dass eine spezifische Einzelperson keinen Kredit erhalten hat, weil ihr Einkommen zu niedrig ist. Global wäre dagegen die Erklärung, dass alle Personen mit einem Einkommen unter einem bestimmten Schwellenwert keinen Kredit erhalten. Die Erklärung in Abbildung 2, warum ein Zwergpudel erkannt wurde, wäre demnach eine lokale Erklärung, die aufzeigt, welche spezifischen Bildmerkmale zu dem Ergebnis »Zwergpudel« geführt haben.

Eine andere Art, KI-Entscheidungen zu erklären, sind sogenannte kontrafaktische Erklärungen. Diese beantworten die Frage, was anders hätte sein müssen, damit die KI zu einem anderen Ergebnis kommt. Im Kontext der Kreditvergabe-KI könnte eine kontrafaktische Erklärung etwa lauten: »Hätte das Einkommen von Person X über 5000 EUR gelegen, wäre der Kredit bewilligt worden.«

Trotz der bestehenden Erklärungsmethoden gilt es zu beachten, dass diese oftmals nicht zuverlässig und in der Lage sind, die tatsächliche Funktionsweise des KI-Modells aufzudecken. Im Extremfall ist es nicht einmal ausgeschlossen, dass dieselbe Erklärungsmethode bei demselben KI-System unter gleichen Rahmenbedingungen bei zweifacher Anwendung zu unterschiedlichen Erklärungen kommt.

1.4.2 Unsicherheit

Ein zentrales Problem aktueller KI-Systeme ist der Umgang mit Unsicherheit oder »Unwissen«. KI-Systeme sind oft darauf spezialisiert, nur für die Probleme Lösungen anzubieten, für die sie spezifisch trainiert wurden. Was bei unvorhergesehenen Eingaben passiert, ist demgegenüber häufig willkürlich. Grund hierfür ist, dass die KI nicht immer gelernt hat, mit einer unbekannten Situation umzugehen und richtig auf diese zu reagieren. So kann eine KI, die darauf trainiert ist, Hunde von Katzen zu unterscheiden, nur diese beiden Kategorien erkennen. Zeigt man ihr ein Bild eines Vogels, würde sie auch diesen in die Kategorie Hund oder Katze einordnen, anstatt zu erkennen, dass es sich weder um die eine noch um die andere Kategorie handelt.

Das Erkennen von »Unwissen« und der richtige Umgang mit Unsicherheit ist ebenfalls ein aktives Forschungsfeld, das als »Unsicherheitsquantifizierung« bekannt ist. Ziel hier ist es, Methoden zu entwickeln, die es KI-Systemen ermöglichen, ihr »Nicht-Wissen« zu erkennen und entsprechend in Form eines Wahrscheinlichkeitswerts zu kommunizieren. So könnte die KI, der ein Bild eines Vogels gezeigt wird, neben ihrer Entscheidung auch einen Wahrscheinlichkeitswert angeben, der ausdrückt, wie sicher sie sich in ihrer Entscheidung ist. Eine solche Wahrscheinlichkeitsangabe kann nützlich sein, um abzuschätzen, ob man einer KI-Entscheidung trauen kann.

1.4.3 Privacy

Eine KI lernt, indem sie TrainingsdatenTrainingsdaten durch einfache Regeln und Konzepte zusammenfasst. Sie speichert die Trainingsdaten nicht einfach ab, sondern transformiert diese. Das hat zur Folge, dass ein einzelnes Trainingsdatum eigentlich nicht mehr rekonstruierbar sein dürfte, weil es nur noch zusammen mit anderen Daten in komprimierter Form vorliegt.

Allerdings kann es unter bestimmten Voraussetzungen vorkommen, dass sich dennoch ermitteln lässt, ob ein bestimmtes Datum Teil des Trainingsdatensatzes war. Dieses Phänomen wird als »Membership Inference AttackMembership Inference Attack« bezeichnet und ist noch nicht vollständig erforscht oder verstanden. Man geht jedoch davon aus, dass es nicht den gesamten Datensatz, sondern nur vereinzelte Datenpunkte betrifft. Das kann vor allem dann eine Gefahr bergen, wenn die KI auch mit sensiblen Daten trainiert wurde. Wurde z. B. eine KI etwa mit medizinischen Patientendaten trainiert, könnten Unbefugte im schlimmsten Fall Informationen darüber erlangen, welche Behandlung eine bestimmte Person erhalten hat.

Der Bereich, der sich damit befasst, solche und ähnliche Attacken zu verhindern, wird als »Privacy Preserving Machine Learning« bezeichnet, da er darauf abzielt, (private) Daten zu schützen.

1.4.4 Data Poisoning

Data PoisoningData Poisoning bezeichnet eine Angriffsstrategie, bei der ein Angreifer absichtlich manipulierte oder schädliche Daten in den Trainingsdatensatz einer KI einführt, um das Lernverhalten des Modells zu beeinflussen. Ziel eines solchen Angriffs kann es sein, die KI zu einem fehlerhaften Verhalten zu verleiten, ihre Leistung zu reduzieren oder ihr Verhalten in einer Weise zu steuern, die dem Angreifer nützt.

Ein solcher Angriff kann beispielsweise dadurch erfolgen, dass der Angreifer absichtlich falsche Informationen in den Trainingsdatensatz einspeist, um das Modell dazu zu bringen, falsche Schlussfolgerungen zu ziehen oder falsche (dem Angreifer aber gegebenenfalls nützliche) Vorhersagen zu treffen. Bei KI-Systemen, die auf öffentlich zugänglichen oder aus dem Internet aggregierten Daten trainiert werden, besteht ­dahin gehend ein besonderes Risiko, da es problematisch ist, die riesigen Mengen an TrainingsdatenTrainingsdaten auf solche manipulierten Einträge hin zu überprüfen.

Ein Schutz gegen Data PoisoningData Poisoning bieten Methoden der DatenvalidierungDatenvalidierung, etwa durch statistische Analysen, um die Integrität der TrainingsdatenTrainingsdaten sicherzustellen und verdächtige Aktivitäten zu erkennen. Ebenso kann eine Überwachung des Trainingsprozesses helfen, indem verdächtige Aktivitäten, wie plötzliche Änderungen in der Modellleistung, erkannt werden, die auf ein mögliches Data Poisoning hinweisen.

1.4.5 Robustheit

Viele KI-Modelle, insbesondere solche, die auf künstlichen neuronalen Netzen basieren, können durch subtile, für Menschen kaum wahrnehmbare Änderungen, wie die Manipulation einzelner Bildpixel, getäuscht werden. Diese Schwachstellen werden als »Adversarial ExamplesAdversarial Examples« oder »Adversarial AttacksAdversarial Attacks« bezeichnet. Angestrebt wird, dass die Modelle gegenüber solchen kleinen Veränderungen oder Störungen immun, d. h. »robust« sind.

Dieses Problem lässt sich anschaulich mit Abbildung 3 erläutern. Zunächst wird einer KI das Bild eines Hundes gezeigt, den sie korrekt als solchen identifiziert. Überlagert man dieses Bild mit speziell generiertem Rauschen, entsteht das rechte Bild, das für das menschliche Auge praktisch identisch mit dem linken Bild ist. Die KI hingegen wird durch das Rauschen getäuscht und erkennt im rechten Bild nun eine »Blaumeise«. Für sich genommen (fehl-)interpretiert die KI das Rauschen sogar als ein Streichholz.

Abb. 3

: Das Originalfoto des Hundes (links) wird von der KI korrekt erkannt. Wird dieses Bild jedoch mit dem Rauschen in der Mitte überlagert, welches die KI für sich genommen fälschlicherweise als Streichholz identifiziert, führt es zu einer (Fehl-)Identifikation einer Blaumeise mit über 99 % Wahrscheinlichkeit im Bild rechts. Die Grafik ist angelehnt an Goodfellow, Ian J. et al.: Explaining and Harnessing Adversarial Examples

Adversarial Examples

, ICLR 2015.

Ein anderes bekanntes Beispiel war eine KI, die Straßenschilder erkennen konnte. Nachdem über ein Stoppschild kleine, rechteckige schwarze und weiße Aufkleber angebracht wurden, identifizierte sie anstelle des Stoppschilds eine 45-mph-Geschwindigkeitsbegrenzung. Die Gefahren, die drohen, wenn eine solche Fehlinterpretation Angreifern bekannt wird, liegen auf der Hand. Entsprechend stellen solche Adversarial ExamplesAdversarial Examples eine Herausforderung für die Sicherheit von KI-Systemen dar, insbesondere in sicherheitskritischen Anwendungen. Die Forschung versucht daher, Modelle zu entwickeln, die gegenüber solchen kleinen Änderungen robuster sind.

1.4.6 Fairness

KI-Systeme treffen ihre Entscheidungen auf Basis von Daten. Daten können jedoch menschliche Vorurteile beinhalten und somit Diskriminierungen widerspiegeln. Eine KI, die aus vorurteilsbelasteten, diskriminierenden Daten lernt, wird daher ihrerseits »diskriminierende« Entscheidungen treffen. Eines der berühmtesten Beispiele einer solchen »diskriminierenden« KI stellte das Prognosesystem COMPAS dar, das in den USA zur Bewertung der Rückfallwahrscheinlichkeit von Straftätern eingesetzt wurde und hier bei Straftätern mit schwarzer Hautfarbe doppelt so oft eine Fehlprognose traf wie bei Straftätern mit weißer Hautfarbe.21 Solche Verhaltensmuster können daher stammen, dass ein KI-System auf historischen Daten trainiert wird, welche selbst diskriminierende Muster enthalten.

Das Thema Fairness spielt daher bei der Entwicklung von KI-Systemen eine wichtige Rolle, insbesondere, wenn KI in Bereichen mit Diskriminierungspotenzial eingesetzt wird, wie etwa im Rahmen der Personalbeschaffung oder der Kreditvergabe. Das Forschungsfeld der »Fairen KI« sucht nach Wegen, wie trotz potenziell diskriminierender Daten »faire« KI-Modelle trainiert werden können. Eine mögliche Gegenmaßnahme gegen »unfaires« KI-Verhalten ist die gezielte Verbesserung der TrainingsdatenTrainingsdaten, indem beispielsweise mehr Daten von unterrepräsentierten Gruppen aufgenommen werden, oder die Vornahme einer Feinabstimmung unter Einsatz menschlicher Annotatoren, wie beim RLHF.22

1.4.7 Concept Drift und kontinuierlich lernende Systeme

Concept-DriftConcept-Drift bezeichnet das Phänomen, dass sich die zugrunde liegenden Daten oder Bedingungen, auf denen ein KI-ModellKI-Modell trainiert wurde, im Laufe der Zeit verändern und dadurch die Leistung des Modells beeinträchtigen. Als Beispiel hierzu kann man sich ein KI-System vorstellen, das die Qualität von Autolacken in einer Fabrik prüft. Ändert sich in der Fabrik die Beleuchtung durch den Einbau neuer Lampen, kann das dazu führen, dass ein anfänglich gut funktionierendes KI-System plötzlich unzuverlässig wird.

Um einem solchen Concept-DriftConcept-Drift zu begegnen, kann man KI-Systeme mit der Fähigkeit zum sogenannten kontinuierlichen Lernenkontinuierliches Lernen ausstatten. Diese Systeme passen sich selbstständig an neue Umgebungen an, indem sie während des Betriebes weiterlernen. Im genannten Beispiel könnte die KI etwa Feedback durch eine nachgelagerte, menschliche Qualitätsprüfung erhalten und dieses Feedback nutzen, um sich an die neue Beleuchtungssituation anzupassen.

Allerdings kann kontinuierliches Lernen auch Risiken bergen. Wenn die KI nicht sorgfältig überwacht wird, können falsche Muster erlernt oder durch nicht repräsentative oder verfälschte Daten beeinträchtigt werden. Daher müssen solche adaptiven KI-Systeme mit Sicherheitsmechanismen ausgestattet werden und es muss durch entsprechende Prozesse sichergestellt werden, dass sie zuverlässig bleiben und nicht unbeabsichtigte oder fehlerhafte Verhaltensweisen entwickeln. Die allermeisten KI-Systeme sind heute jedoch nicht kontinuierlich lernend.

1.4.8 Deep Fakes und Wasserzeichen

Deep FakesDeep Fakes sind Medieninhalte, typischerweise Bilder oder Videos von Personen, die durch eine (generative) KI synthetisch erstellt oder manipuliert wurden. Sie können insbesondere das Aussehen oder die Stimme einer Person so präzise imitieren, dass sie kaum von echten Aufnahmen unterschieden werden können. Hierdurch bergen sie eine besondere Gefahr für die Verbreitung von Falschinformationen, den Missbrauch von Identitäten sowie die Manipulation öffentlicher Meinung und politischer Prozesse.

Die Forschung beschäftigt sich daher mit der Kennzeichnung von KI-generierten Inhalten durch Wasserzeichen, um solche Inhalte zu authentifizieren und als solche kenntlich zu machen. Einfache Wasserzeichen, wie z. B. Logos, die visuell wahrnehmbar sind, reichen nicht aus, da sie durch Bildbearbeitung wieder entfernt werden können. Daher wird an Wasserzeichen gearbeitet, die für den Menschen unsichtbar sind und erst durch spezielle technische Verfahren sichtbar gemacht werden können. Diese unsichtbaren Wasserzeichen sind in die Struktur der generierten Medien eingebettet und ermöglichen es, auch nachträglich zu überprüfen, ob ein Inhalt von einer KI generiert wurde.

Ob Wasserzeichen verwendet werden, obliegt letztlich der Entscheidung des KI-Herstellers. Sie können daher nur helfen, zu verhindern, dass generative KI-Systeme gegen den Willen des Herstellers zur Erzeugung von (nicht als solche erkenntlichen) Deep FakesDeep Fakes