Aktuell in CR

Personenbezug von Large Language Models (Moos, CR 2024, 442)

Seit der Veröffentlichung von ChatGPT im November 2022 ist der Markt für generative KI-Modelle sprichwörtlich explodiert. Das gilt auch und ganz maßgeblich für Einsatzszenarien im Unternehmenskontext; etwa in Gestalt von Assistenzfunktionen für Office-Programme, maschinelle Übersetzungen oder auch die automatisierte Generierung von Content jeglicher Art, z.B. durch Chatbots. Es ist deshalb sicherlich nicht übertrieben zu konstatieren, dass derzeit jedes Unternehmen für sich bewertet, ob und für welche Zwecke es sinnvoll und rechtskonform generative KI-Modelle, vor allem in der Form sog. Large Language Models (LLMs) einsetzen kann. Dass hierbei prinzipiell auch das Datenschutzrecht zu beachten ist, ist klar. Unklar ist aber bisher in welchem Umfang und in welcher Phase der Einführung und Nutzung eines LLM im Unternehmen. Das hängt maßgeblich von der Frage ab, ob ein LLM an sich bereits aus personenbezogenen Daten besteht. Dieser Frage geht der Beitrag nach.

Eine datenschutzrechtliche Grundsatzfrage bei der Nutzung generativer KI-Modelle

INHALTSVERZEICHNIS:

 

I. Einleitung
II. Problemaufriss
III. Aktuelle Position der Datenschutzaufsichtsbehörden
    1. Diskussionspapier des LfDI Baden-Württemberg
    2. KI-Checkliste des LDA Bayern
    3. Bericht des Europäischen Datenschutzausschuss (EDSA)
IV. Eigene Bewertung
    1. Kein Bezug zu identifizierten natürlichen Personen
    a) Kein unmittelbarer Personenbezug der Vektor-Darstellungen im LLM
    b) Kein unmittelbarer Personenbezug trotz wörtlicher Reproduktion von Trainingsdaten
    2. Kein Bezug zu einer identifizierbaren natürlichen Person
    a) Fehlen eindeutiger Identifizierungsmittel
    (1) Keine Identifizierung durch Nutzung
    (2) Keine Identifizierung durch Rekonstruktion mittels Model Attacks
    b) Unwahrscheinlichkeit des Gebrauchmachens solcher Identifizierungsmittel
    3. Ergänzende technische, organisatorische und vertragliche Maßnahmen
 
 
I. Einleitung
1

Der Einsatz von generativen KI-Modellen wirft aktuell eine erhebliche Vielzahl datenschutzrechtlicher Fragen auf. Hierbei ist zu differenzieren: Manche Fragen der Datenschutzkonformität betreffen allein die Nutzung eines KI-Modells und unterscheiden sich im Grundsatz nicht wesentlich von solchen, die sich auch bei der Nutzung anderer Datenverarbeitungssysteme stellen; also z.B. ob und welche personenbezogenen Daten ich hierbei als Anwender eingeben darf, wie ich – datenschutzkonform – die (personenbezogenen) Ergebnisse nutze und für welche anderen Zwecke ich Daten aus der Nutzung eines solchen Modells noch verwenden darf (z.B. für die Weiterentwicklung oder das Training). Eine datenschutzrechtliche Grundsatzfrage neuer Qualität bringen KI-Modelle – und hier insbesondere große Sprachmodelle1 (sog. LLMs) – aber aufgrund ihrer Eigenart mit sich, die sich bei herkömmlicher Software nicht stellt: nämlich die Frage, ob solche LLMs an sich bereits einen Personenbezug aufweisen. Das hätte durchaus erhebliche Konsequenzen; z.B. weil sich die Beschaffung bzw. Lizenzierung eines LLM und dessen unternehmensinterne Bereitstellung für ein nutzendes Unternehmen dann bereits als Erhebung bzw. Verarbeitung personenbezogener Daten darstellen könnte, für die es einer Rechtsgrundlage bedarf, oder weil sich ein Auskunfts- oder ein Berichtigungsrecht nach Kap. III DSGVO auch auf die im LLM selbst enthaltenen Informationen erstrecken könnte. Diese Kernfrage des Personenbezugs eines LLMs an sich für ein nutzendes Unternehmen stellt deshalb den Gegenstand dieses Beitrags dar.

II. Problemaufriss
2

Bekannt ist, dass LLMs regelmäßig mit Datenbeständen trainiert werden, die einen Personenbezug aufweisen; z.B. weil öffentlich im Internet abrufbare Informationen ausgelesen und verwendet werden, von denen sich viele zwanglos auf natürliche Personen beziehen. Zudem ist es regelmäßig möglich, einem LLM im Wege des Prompting personenbezogene Daten als Output zu entlocken, z.B. indem man Fragen zu Personen der Zeitgeschichte stellt. Es mag vor diesem Hintergrund zunächst kontraintuitiv erscheinen, überhaupt die Frage des Personenbezugs derjenigen Informationen zu stellen, aus denen ein LLM besteht, wenn es doch so ist, dass personenbezogene Daten im Wege des Trainings „reinkommen“ und personenbezogene Daten als Output „herauskommen“. Aber so einfach ist es nicht. Das liegt an Aufbau und Funktionsweise solcher LLMs: Ein LLM besteht im Grundsatz aus numerischen Vektordarstellungen, die abstrakte mathematische Konzepte und Muster repräsentieren, welche während des Trainings des LLM gelernt wurden2 ; Texte oder Wörter, die aus sich heraus eine bestimmte Person identifizieren, sind prinzipiell nicht in einem LLM enthalten. Auch lassen sich die Vektoren nicht 1:1 in bestimmte (ggf. personenbezogene) Daten rückübersetzen. Es ist also vielleicht doch wie beim Taschenrechner: ich kann durch einen bestimmten Befehl die Ausgabe eines bestimmten Ergebnisses bewirken (5x11 = 55), ohne dass das Ergebnis (55) selbst im Algorithmus des Taschenrechners enthalten ist. Dem soll nachfolgend genauer auf den Grund gegangen werden.

III. Aktuelle Position der Datenschutzaufsichtsbehörden
3

Die Datenschutzaufsichtsbehörden haben sich zur Frage des Personenbezugs von LLMs bisher nicht eindeutig geäußert. Sie deuten lediglich an, dass sie nicht notwendigerweise (...)

Hier direkt weiterlesen im juris PartnerModul IT-Recht



Verlag Dr. Otto Schmidt vom 15.07.2024 10:54

zurück zur vorherigen Seite