ComplianceBusiness ist eine Publikation der Produktfamilie Deutscher AnwaltSpiegel

ComplianceBusiness ist eine Publikation der Produktfamilie Deutscher AnwaltSpiegel

Aktuelle Ausgabe

Von der Black Box zur Entscheidungsgrundlage

Artikel anhören
Artikel zusammenfassen
Teilen auf LinkedIn
Teilen per Mail
URL kopieren
Drucken

Der Einsatz von künstlicher Intelligenz (KI) eröffnet der Compliance neue Möglichkeiten – und wirft zugleich neue Fragen auf: Wie reif ist die Technologie wirklich, und wo liegen ihre Grenzen?

Einerseits wächst der Druck zu Digitalisierung und Effizienzsteigerung, andererseits herrscht Unsicherheit über die tatsächliche Reife der Technologie. Damit befinden sich viele Complianceteams in einem Spannungsfeld, das man als „messy middle“ beschreiben kann: zwischen Hype und Realität, zwischen strategischem Anspruch und operativer Umsetzbarkeit. KI wirkt nach wie vor oft wie eine „Black Box“ – schwer verständlich, technisch komplex und kaum greifbar in ihrer Funktionsweise.

Dabei ist der technologische Wandel für Compliance nicht neu. In den 2010er-Jahren hielten regelbasierte Systeme Einzug in ihre Prozesse – etwa um Transaktionen zu überwachen oder Richtlinien zu verwalten. Aber seit sich generative KI-Modelle immer mehr etablieren, hat sich die Ausgangslage grundlegend verändert: Die Systeme sind nicht nur schneller, sondern auch flexibler. Damit stellen sie auch neue Anforderungen an Governance, Kontrolle und Fachkompetenz.

Der EQS AI Benchmark Report liefert erstmals belastbare Daten zur Leistungsfähigkeit führender KI-Modelle in einem konkreten Complianceumfeld. Und er lässt Rückschlüsse zu, wie sie gewinnbringend eingesetzt werden können. Die Ergebnisse belegen, dass KI einen substantiellen Beitrag in der Compliance leisten kann – vorausgesetzt, sie wird gezielt und mit klarer Aufgabenstellung eingesetzt.

Was KI heute leisten kann – geringe Fehlerquote, hohe Konsistenz

Die im Benchmark getesteten Modelle wurden anhand von 120 realitätsnahen Aufgaben aus zehn Compliancebereichen geprüft. Sie zeigen insbesondere bei strukturierten und spezifischen Tätigkeiten wie Klassifikation, Priorisierung oder Datenextraktion einen hohen Grad an Zuverlässigkeit. So betrug die Halluzinationsrate – also das Generieren faktisch falscher oder erfundener Inhalte – über alle Modelle hinweg lediglich 0,71%. Zwar sind Halluzinationsraten mit den jüngsten Modellgenerationen insgesamt rückläufig, doch der Benchmark verdeutlicht: Mit klar definierten Aufgaben und durchdachten Prompts lässt sich dieses Risiko weiter minimieren (siehe Abb. 2).

Abb: 2: Vergleich der KI-Modelle in verschiedenen Aufgabenbereichen

Solche Halluzinationen stellen in Complianceprozessen ein erhebliches Risiko dar. Umso bemerkenswerter ist, dass die getesteten Modelle in fast allen Fällen korrekt arbeiteten. Ein Beispiel: In einer Aufgabe sollte das Modell „Claude Opus 4.1“ Hinweisgebermeldungen identifizieren. Dabei erkannte es alle relevanten Fälle potentieller Repressalien korrekt, einschließlich eines Grenzfalls, bei dem ein Mitarbeiter nach einer Meldung in eine andere Region versetzt worden ist.

Und auch die Konsistenz der Ergebnisse war hoch. In Wiederholungstests lieferten die Modelle bei Multiple-Choice-Aufgaben in über 95% der Fälle identische Antworten. Dies spricht für eine hohe Stabilität bei klar definierten Aufgaben.

Ein anschauliches Beispiel liefert der Bereich Third Party Due Diligence: Hier können KI-Agenten bereits heute mit hoher Präzision und Geschwindigkeit Screeningberichte analysieren und Risiken identifizieren. Auch bei der Erstprüfung von Meldungen oder der Klassifikation von Risiken zeigen die Modelle überzeugende Leistungen.

In einem Benchmark-Beispiel ist ein vollständiger Workflow zur Prüfung von Interessenkonflikten simuliert worden – von der Kategorisierung über die Risikobewertung bis zur Auswahl geeigneter Gegenmaßnahmen. Die leistungsstärksten Modelle meisterten diesen Prozess weitgehend autonom – allerdings sinkt die Genauigkeit bei einigen Schritten auf etwa 70%. Hier sind menschliche Kontrollpunkte weiterhin wichtig.

Grenzen der Automatisierung: Wo KI Unterstützung braucht

Die Ergebnisse zeigen also auch klare Grenzen. Während die Modelle bei strukturierten Aufgaben durchweg mit hoher Genauigkeit arbeiten, nehmen die Leistungsunterschiede bei offenen, komplexen Fragestellungen deutlich zu. Dazu gehörten die Bewertung kultureller Risiken oder die Ableitung von Handlungsempfehlungen – Aufgaben, die ein hohes Maß an Kontextverständnis und Urteilsvermögen erfordern. Im Durchschnitt schnitten die getesteten Systeme hier deutlich schwächer ab als bei sehr klar definierten Aufgaben.

Zugleich zeigten sich erhebliche Unterschiede zwischen den einzelnen Modellen: Während Google Gemini 2.5 Pro und GPT-5 in nahezu allen Kategorien führten, lagen ältere Modelle wie GPT-4o oder Mistral Large 2 zum Teil mehr als 60 Prozentpunkte darunter – insbesondere bei analytischen und interpretativen Aufgaben.

Diese Ergebnisse unterstreichen zweierlei: Zum einen bleibt menschliche Kontrolle unverzichtbar – KI kann Complianceteams unterstützen, sie aber nicht ersetzen. Zum anderen ist die Wahl des richtigen Modells und dessen Aktualität entscheidend, um das Potential der Technologie überhaupt ausschöpfen zu können.

Die neue Rolle von Complianceteams

Es ist keine ganz neue Erkenntnis, dass sich mit technologischem Fortschritt auch die Rolle von Complianceverantwortlichen verändert. In der Zukunft werden auch zunehmend Fähigkeiten spezifisch im Umgang mit KI-Systemen gefragt sein: Aufgaben und Prompts definieren, Ergebnisse prüfen, Feedback geben. Im Alltag bedeutet das, dass die operative Umsetzung von Complianceaufgaben in den Hintergrund tritt und dafür die Steuerung an Bedeutung gewinnt.

So entstehen in einigen Organisationen bereits hybride Rollenprofile, bei denen Complianceexperten mit technologischem Grundverständnis eng mit Data-Scientists und IT zusammenarbeiten. Langfristig wird sich dieses Modell in vielen Complianceteams durchsetzen, denn diese interdisziplinäre Zusammenarbeit ist die Voraussetzung, um KI wirksam und verantwortungsvoll zu nutzen.

Zwischen Fortschritt und Pflicht: KI im regulatorischen Rahmen

Je stärker KI Teil von Entscheidungsprozessen wird, desto mehr rückt die ethische Verantwortung für ihren Einsatz in den Vordergrund. Und Transparenz, Nachvollziehbarkeit und Dokumentation sind nicht nur aus ethischer, sondern auch aus regulatorischer Sicht zentrale Anforderungen.

Die EU geht mit dem AI Act in Sachen Regulatorik einen umfassenderen Weg als etwa die USA, wo Regelungen auf Bundesstaatenebene erfolgen. Wird beispielsweise eine Entscheidung zur Ablehnung eines Geschäftspartners, basierend auf dem Einsatz von KI, nicht nachvollziehbar dokumentiert, kann dies im Fall eines Rechtsstreits zu erheblichen Problemen führen, vor allem dann, wenn insbesondere diskriminierende Muster nicht ausgeschlossen worden sind.

Was bedeutet das für Complianceteams? Der Einsatz von KI stellt sie vor eine doppelte Aufgabe: Sie sind zugleich Anwender und Aufseher – verantwortlich dafür, die Technologie sinnvoll zu nutzen und gleichzeitig ihre Risiken zu steuern. Sie müssen Effizienzgewinne nutzen, ohne dabei regulatorische und ethische Standards aus dem Blick zu verlieren.

Zwischen Experiment und Strategie: KI-Einsatz gezielt gestalten

Neben Antworten auf die Frage, wo KI im Compliancebereich bereits heute effektiv eingesetzt werden kann und wo es noch der menschlichen Kontrolle bedarf, liefern die Ergebnisse des AI-Benchmark-Reports auch klare Handlungsempfehlungen für Complianceteams im Umgang mit KI:

  • Pilotprojekte starten: Am besten beginnen sie mit klar abgegrenzten, strukturierten Aufgaben. So lassen sich erste Erfolge erzielen und Erfahrungen sammeln.
  • Modelle gezielt auswählen: Ein „One-Size-Fits-All“-Ansatz ist nicht sinnvoll. Es sollten verschiedene Modelle auf eigene Use-Cases getestet und deren spezifische Stärken genutzt werden.
  • Anbieter kritisch prüfen: Welche Modelle werden eingesetzt? Sind diese aktuell und wie wird deren Qualität gesichert? Transparenz ist Pflicht.
  • Kommunikation differenziert gestalten: Die Leistungsfähigkeit von KI sollte betont, aber Grenzen nicht verschwiegen werden. Menschliche Kontrolle bleibt essentiell.

Schritt für Schritt entwickelt sich KI zu einem festen Bestandteil der Compliancearbeit. In den kommenden Jahren wird sich ihre Rolle weiter ausdifferenzieren – von einzelnen Tools zu integrierten, agentenbasierten Systemen, die ganze Workflows unterstützen und Entscheidungen vorbereiten können. Voraussetzung dafür bleiben aber weiterhin Kontrollmechanismen und menschliche Aufsicht.

Die zentrale Herausforderung bleibt: Technologie und Fachlichkeit sinnvoll verbinden. Der Benchmark-Report liefert dafür eine belastbare Grundlage. Jetzt liegt es an Complianceexpertinnen und -experten, diese Erkenntnisse in die Praxis zu überführen.

Autor

Moritz Homann EQS Group, München Managing Director Corporate Compliance

Moritz Homann

EQS Group, München
Director Product Innovation & Artificial Intelligence


moritz.homann@eqs.com
www.eqs.com