Künstliche Intelligenz (KI) wirft nicht nur ethische, sondern zunehmend auch handfeste datenschutzrechtliche Fragen auf. Mit ihrer neuen Orientierungshilfe aus dem Juni 2025 konkretisiert die Datenschutzkonferenz (DSK) erstmals verbindlich, welche technischen und organisatorischen Anforderungen bei Entwicklung und Betrieb von KI-Systemen zu beachten sind.
Systematisierung datenschutzrechtlicher Anforderungen entlang des KI-Lebenszyklus
Im Mittelpunkt der Orientierungshilfe steht ein strukturierter Maßstab, der die datenschutzrechtlichen Anforderungen entlang des gesamten Lebenszyklus eines KI-Systems entfaltet, beginnend mit der initialen Konzeption über die Datenaufbereitung und Modellentwicklung bis hin zu Einführung und Betrieb. Anknüpfungspunkt ist dabei ein Katalog von sieben sogenannten Gewährleistungszielen: Datenminimierung, Transparenz, Vertraulichkeit, Integrität, Verfügbarkeit, Intervenierbarkeit sowie Nichtverkettung.
Anforderungen in der Designphase
Die datenschutzrechtliche Bewertung eines KI-Systems beginnt nicht erst mit seiner Anwendung, sondern setzt bereits in der konzeptionellen Phase an. Nach der Orientierungshilfe der DSK ist die Designphase maßgeblich dafür, ob die spätere Datenverarbeitung den Anforderungen der Datenschutz-Grundverordnung (DSGVO) standhalten kann. Zentrale Voraussetzung ist, dass der Verarbeitungszweck hinreichend bestimmt wird und eine belastbare Rechtsgrundlage vorliegt.
Die Auswahl und Strukturierung der Datenbasis sind in dieser Phase systematisch zu dokumentieren. Die DSK empfiehlt dafür den Rückgriff auf standardisierte Verfahren wie sogenannte „Datasheets for Datasets“, in denen nicht nur Datentypen, sondern auch Erhebungsmethoden, Zeiträume und betroffene Gruppen festzuhalten sind. Bereits auf dieser Ebene ist zu klären, ob sich der beabsichtigte Zweck nicht auch durch anonymisierte oder synthetisch generierte Daten erreichen lässt. Dies betrifft insbesondere Systeme mit hohen Risiken für Persönlichkeitsrechte.
Das Prinzip der Datenminimierung verlangt eine kritische Prüfung jeder für das Training vorgesehenen Informationseinheit dahingehend, ob sie tatsächlich für den mit dem KI-System verfolgten Zweck benötigt wird. Der Umfang der Datenerhebung ist im Verhältnis zur Systemfunktion zu rechtfertigen. Auch die Auswahl des Algorithmus kann zur Reduktion des Datenbedarfs beitragen. Sensible Merkmale ebenso wie aus Kombinationen ableitbare sogenannte Proxydaten sind mit besonderer Zurückhaltung zu behandeln.
Nicht zuletzt sind in der Designphase Vorkehrungen zu treffen, um die Wahrnehmung von Betroffenenrechten technisch wie organisatorisch abzusichern („Intervenierbarkeit“). Insbesondere muss gewährleistet sein, dass zwischen Erhebung und Training ein ausreichendes Zeitfenster zur Verfügung steht, um Informationspflichten zu erfüllen oder Löschverlangen zu berücksichtigen. Parallel dazu sind Maßnahmen zur Sicherung der Datenqualität, zur Abwehr gezielter Manipulationen sowie zum Schutz vor ungewollter Rekonstruktion sensibler Informationen vorzusehen. Die DSK verweist in diesem Zusammenhang auf etablierte Verfahren der Zugriffsbeschränkung, Pseudonymisierung oder Techniken zum Privacy-Preserving, etwa den Einsatz differenzieller Privatsphäre.
Datenverarbeitung und Modellbildung in der Entwicklungsphase
Die Entwicklungsphase eines KI-Systems ist aus datenschutzrechtlicher Perspektive deshalb besonders sensibel, weil in ihr die eigentliche Verarbeitung der Trainingsdaten erfolgt. Neben der technischen Modellbildung stehen hier Fragen der Datenaufbereitung, Systemvalidierung und Funktionsprüfung im Vordergrund. Dies sind allesamt Prozesse, die unmittelbar in die Reichweite der DSGVO fallen, sofern ein Personenbezug nicht ausgeschlossen ist.
Nach der DSK ist die Datenverarbeitung in dieser Phase strikt an dem festgelegten Zweck auszurichten. Dies betrifft sowohl die inhaltliche Transformation der Daten etwa durch Normalisierung, Kategorisierung oder Reduktion als auch ihre organisatorische Zuordnung zu Trainings-, Validierungs- und Testmengen. Personenbeziehbare Merkmale, die für die Funktionsfähigkeit des Systems nicht erforderlich sind, sind in dieser Phase zu entfernen oder durch geeignete Techniken zu entkoppeln. Die Verarbeitung muss auf das notwendige Maß beschränkt bleiben. Gleichzeitig muss in der Entwicklungsphase allerdings auch darauf geachtet werden, dass die Integrität des Systems nicht durch eine zu geringe Menge an Trainingsdaten beeinträchtigt wird.
Darüber hinaus ist die Wahl des Algorithmus sowie dessen Konfiguration transparent zu dokumentieren. Die Orientierungshilfe verlangt, dass Kriterien für die Modellqualität wie Genauigkeit, Fairness oder Robustheit definiert und durch geeignete Testverfahren überprüft werden. Eine Validierung ohne Bezug zur konkreten Zweckbindung genügt datenschutzrechtlich nicht, vielmehr ist die Relevanz der Modellleistung für den vorher definierten Anwendungsbereich explizit nachzuweisen.
Für die Sicherstellung von Intervenierbarkeit und Transparenz müssen Modellentscheidungen technisch nachvollziehbar gestaltet sein, so dass im Bedarfsfall Korrekturen möglich bleiben. Parallel dazu ist die Entwicklungsumgebung selbst nicht nur gegen Datenverlust oder Systemausfälle, sondern auch gegen ungewollte externe Zugriffe abzusichern.
Datenschutzanforderungen bei Systemeinführung und Inbetriebnahme
Mit der Überführung eines KI-Systems aus der Entwicklungs- in die Produktivumgebung beginnt ein neuer Abschnitt der datenschutzrechtlichen Verantwortlichkeit. Die Einführungsphase ist vor allem dann relevant, wenn im Rahmen der Systeminstallation oder Konfiguration erneut personenbezogene Daten verarbeitet werden, zum Beispiel durch lokale Speicherung, individuelle Parametrierung oder initiale Testläufe im Produktivsystem.
Die DSK betont, dass in diesem Stadium sämtliche zentrale Einsatzentscheidungen transparent zu dokumentieren und gegenüber den betroffenen Personen nachvollziehbar offenzulegen sind. Dies betrifft nicht nur den Zweck der Verarbeitung, sondern ebenso die technische Funktionsweise des Systems, den Umfang etwaiger automatisierter Entscheidungen und die Art und Weise, wie menschliche Kontrollinstanzen in Entscheidungsprozesse eingebunden bleiben. Die gesetzlich normierten Betroffenenrechte müssen von Beginn an wirksam verankert sein.
Bereits im Zuge der Softwareverteilung ist das Prinzip der datenschutzfreundlichen Voreinstellung („Privacy by Default“) strikt zu beachten. Es dürfen ausschließlich solche Daten mit dem Modell ausgeliefert werden, die für den vorgesehenen Einsatzzweck erforderlich sind. Während parametrische Modelle (zum Beispiel neuronale Netze) in der Regel ohne personenbezogene Trainingsdaten betrieben werden können, kann bei nicht-parametrischen Verfahren eine Verteilung sensibler Inhalte technisch notwendig sein. Die DSK verlangt in solchen Fällen eine besondere datenschutzrechtliche Absicherung.
Entscheidend für die Risikobewertung ist darüber hinaus der geplante Betriebsmodus des Systems. Erfolgt die Nutzung lokal beim Anwender, steigen die Anforderungen an die Sicherung der Vertraulichkeit, da mit dem KI-System häufig auch die Trainingsdaten mitverteilt werden müssen. Insbesondere in verteilten Umgebungen oder bei hybrid genutzten Modellen (lokal/serverbasiert) muss bereits in der Einführung sichergestellt werden, dass kein unkontrollierter Datenabfluss oder Zugriff durch Dritte erfolgt.
Kontrolle und Absicherung im laufenden Betrieb
Der Betrieb eines KI-Systems stellt datenschutzrechtlich keine statische Phase dar, sondern verlangt eine kontinuierliche Überprüfung der Systemkonformität mit den ursprünglich definierten Zwecken und Rechtsgrundlagen. Die DSK betont in ihrer Orientierungshilfe ausdrücklich, dass datenschutzrechtliche Anforderungen im Betrieb nicht als einmal erfüllte Pflichten verstanden werden dürfen, sondern als fortlaufende Verpflichtung zur Kontrolle, Anpassung und Nachjustierung.
Zentral hierfür ist die Nachvollziehbarkeit des Modellverhaltens. Entscheidungsprozesse müssen technisch so gestaltet sein, dass ihre Grundlagen, Parameter und Verarbeitungsschritte auch retrospektiv überprüft werden können. Dies setzt nicht nur eine genaue Dokumentation voraus, sondern auch die Bereitschaft, Modelle bei Systemupdates, strukturellen Änderungen oder veränderten Einsatzbedingungen erneut zu validieren. Die Einhaltung der Zweckbindung ist dabei kontinuierlich zu überwachen. Sobald sich im Betrieb Anhaltspunkte für eine übermäßige Datennutzung oder für diskriminierende Effekte bestimmter Eingaben ergeben, sind technische Anpassungen, Retrainings oder modellseitige Korrekturen zu veranlassen.
Auch Betroffenenrechte müssen nachhaltig sichergestellt werden. Die Möglichkeit zur Auskunft, Berichtigung oder Löschung personenbezogener Daten darf auch nach Inbetriebnahme nicht faktisch entfallen. Besonders bei Löschverlangen ist zu prüfen, inwieweit Trainingsdaten, Modellparameter oder daraus abgeleitete Entscheidungsstrukturen betroffen sind. In bestimmten Fällen kann dies partielles Retrainieren oder den gezielten Einsatz von Verfahren wie „Machine Unlearning“ erforderlich machen. Bei KI-Systemen, die zur Entscheidungsfindung eingesetzt werden, müssen außerdem Mechanismen eingesetzt werden, die eine menschliche Kontrolle oder Bearbeitung der Entscheidungen sicherstellen.
Die Integrität des Systems ist über den gesamten Betriebszeitraum hinweg durch regelmäßige Qualitätstests zur Erkennung von Modellveränderungen oder Leistungsabfällen sowie mit Schutzmaßnahmen gegen externe Manipulationsversuche, etwa durch „Adversarial Attacks“ oder Datenvergiftungsstrategien, technisch abzusichern.
Fazit
Die Orientierungshilfe der DSK konkretisiert erstmals, welche datenschutzrechtlichen Anforderungen sich aus der DSGVO bereits in der Entwicklungsphase von KI-Systemen ergeben. Sie schafft eine strukturierte Grundlage für die Bewertung technischer und organisatorischer Maßnahmen entlang des gesamten Lebenszyklus von der Konzeption bis zum laufenden Betrieb. Dabei wird deutlich, dass insbesondere die Zweckbindung, die Datenminimierung sowie die Sicherstellung von Transparenz und Intervenierbarkeit in allen Phasen durchgängig zu berücksichtigen sind. Für Verantwortliche bedeutet dies, dass datenschutzrechtliche Prüfungen nicht punktuell, sondern kontinuierlich in die Entwicklung und Nutzung von KI-Systemen eingebunden werden müssen.



