Der digitale Protokollant ist längst Realität. Immer häufiger tauchen sie in Videokonferenzen via Microsoft Teams, Zoom oder Google Meet auf: kleine Bots mit Namen wie Fireflies, Otter.ai oder Read.ai. Sie versprechen das Ende der lästigen Mitschrift. Ein Klick, und das Protokoll liegt in Echtzeit vor. Für die Meetingteilnehmer und -teilnehmerinnen ist das ein enormer Effizienzgewinn. Für die Datenschutz- und Rechtsabteilungen hingegen beginnt hier oft eine komplexe regulatorische Gratwanderung. Die reflexartige Antwort vieler Datenschützer lautet: „Das Tool muss ausgeschaltet bleiben, solange wir nicht von jedem einzelnen Teilnehmer eine ausdrückliche Einwilligung haben.“ In vielen Fällen stimmt das auch, aber eben nicht immer.
Es lohnt sich, genau hinzuschauen, denn eine Einwilligungslösung hat ihre Tücken. Einwilligungen müssen ernstlich freiwillig sein (schwierig in Anstellungsverhältnissen) und sind dann auch noch frei widerruflich. Vorteilhafter ist eine technische Lösung, die ohne Einwilligung auskommt. Wer die technologischen Details versteht, kann Lösungen ermöglichen, die auch ohne die Hürde der aktiven Einwilligung rechtssicher sind. Darum geht es in diesem Beitrag.
Lösungsschritt 1: Die rechtlichen Rahmenbedingungen genau kennen
Bei der regulatorischen Gratwanderung sind strafrechtliche und datenschutzrechtliche Hindernisse zu überwinden.
Strafrechtliche Relevanz
Die zentrale strafrechtliche Hürde für die Transkription von Meetings findet sich in § 201 Strafgesetzbuch (StGB), der die Verletzung der Vertraulichkeit des Wortes unter Strafe stellt. Geschützt ist das nichtöffentlich gesprochene Wort. Eine strafbare Handlung begeht, wer dieses Wort unbefugt „auf einen Tonträger aufnimmt“. Herkömmliche Transkriptionsdienste verwirklichen dieses Tatbestandsmerkmal, weil sie das Audiosignal zunächst als Datei (z.B. im MP3- oder WAV-Format) vollständig speichern, um diese Datei anschließend mittels Spracherkennung (Speech-to-Text) zu verarbeiten. Mit der Speicherung dieser Audiodatei auf einem Server oder einer Festplatte ist der Tatbestand der „Aufnahme auf einen Tonträger“ erfüllt. Ohne die Einwilligung aller Beteiligten ist eine solche Aufzeichnung strafbewehrt, und zwar mitunter selbst dann, wenn die Beteiligten wissen, dass eine Aufzeichnung erfolgt; eine heimliche Aufzeichnung ist also nicht erforderlich.
Davon abzugrenzen sind moderne Verfahren der Livetranskription, die auf Streamingtechnologien basieren. Hierbei wird das Schallsignal in Echtzeit verarbeitet, wobei die Daten lediglich im flüchtigen Arbeitsspeicher (RAM) des Systems verbleiben. Der Algorithmus wandelt die Frequenzen unmittelbar in Textzeichen um; eine persistente Speicherung des Audiosignals findet nicht statt. In der rechtswissenschaftlichen Literatur wird überwiegend die Auffassung vertreten, dass eine solche rein flüchtige Verarbeitung keine „Aufnahme“ im Sinne des Strafrechts darstellt. Die KI fungiert in diesem Szenario vergleichbar mit einem Simultandolmetscher oder einem technischen Hörgerät. Mangels Fixierung auf einem Tonträger entfällt die Strafbarkeit und damit das Einwilligungserfordernis nach § 201 StGB.
Die datenschutzrechtliche Hürde der Biometrie
Neben dem Strafrecht ist selbstverständlich auch die Datenschutz-Grundverordnung (DSGVO) einzuhalten. Sind die verarbeiteten Transkriptionsdaten als biometrische Daten einzustufen, dann wird kaum ein Weg an einer Einwilligung vorbeiführen. Biometrische Daten sind besonders sensible Daten nach Art. 9 DSGVO, und eine Verarbeitung (lediglich) auf Grundlage eines berechtigten Interesses ist bei ihnen nicht erlaubt.
Eine Stimme ist aber nur dann als biometrisches Datum nach Art. 4 Nr. 14 DSGVO einzuordnen, wenn das System die Merkmale der Stimme extrahiert, um eine Identifizierung einer natürlichen Person zu ermöglichen. Das ist der Fall, wenn bei der KI-Transkription die sogenannte Speaker-Diarization aktiviert wird. Hierbei handelt es sich um einen Prozess der Spracherkennung, der ein Audiosignal in homogene Abschnitte unterteilt und jedem Abschnitt dem entsprechenden Sprecher zuordnet. Schaltet man diese Funktion hingegen aus und werden auch die hierfür erforderlichen Merkmale der Stimme gar nicht erst extrahiert, gelangt man aus dem Anwendungsbereich von Art. 9 DSGVO heraus. Zwar erfolgt dann keine automatisierte Sprechererkennung mehr. Das ist aber auch nicht erforderlich, wenn Gespräche zusammengefasst werden sollen, bei denen lediglich der Inhalt zählt, oder wenn ein einzelner Sprecher transkribiert werden soll.
Das berechtigte Interesse als datenschutzrechtliche Erlaubnisgrundlage
Sind die strafrechtliche Hürde und die Biometrie erst einmal umschifft, dann ist der Weg offen für eine datenschutzrechtliche Interessenabwägung, die keine Einwilligung erfordert. Eine KI-Transkription ist auf Basis eines berechtigten Interesses gemäß Art. 6 Abs. 1 UA 1 lit. f DSGVO denkbar. Dies gilt auch im Beschäftigtenkontext, also nicht nur gegenüber Geschäftspartnern und Kunden.
Ein berechtigtes Interesse des Unternehmens an der automatisierten Protokollierung kann insbesondere in der Effizienzsteigerung, der fehlerfreien Dokumentation von Besprechungen sowie der Erfüllung von Nachweispflichten liegen. Dem stehen die schutzwürdigen Interessen der Teilnehmer an der Vertraulichkeit ihrer Äußerungen gegenüber.
Eine Interessenabwägung kann immer nur im konkreten Kontext erfolgen. Sie kann zugunsten des Unternehmens ausfallen, wenn flankierende Maßnahmen zur Risikoreduzierung ergriffen werden:
- Verzicht auf die Speicherung von Audiodateien (RAM-only) zur Vermeidung strafrechtlicher Risiken;
- Deaktivierung der Sprechererkennung zur Vermeidung der Anwendbarkeit von Art. 9 DSGVO;
- Nutzung von Lösungen, die eine lokale Verarbeitung (On-Device) ermöglichen;
- Sicherstellung, dass der Anbieter die Daten nicht zu eigenen Trainingszwecken verwendet.
Lösungsschritt 2: Die Umsetzung
Für Unternehmensjuristen und betriebliche Datenschutzbeauftragte ergibt sich daraus ein klarer Prüfprozess bei der Einführung von Transkriptionstools. Es ist zunächst eine technische Bestandsaufnahme erforderlich: Speichert das Tool Audiodateien? Erfolgt eine Sprechererkennung? Wo werden die Daten verarbeitet? Darauf aufbauend sollte eine Datenschutz-Folgenabschätzung (DSFA) durchgeführt werden. Im Rahmen der DSFA können die technischen Schutzmaßnahmen dokumentiert und die Interessenabwägung rechtssicher begründet werden. Auch die erfolgte Interessenabwägung ist zu dokumentieren.
Wesentlich ist zudem die vertragliche Absicherung. Der Abschluss eines Auftragsverarbeitungsvertrags (AVV) gemäß Art. 28 DSGVO mit dem Anbieter ist häufig obligatorisch. Hierbei ist insbesondere darauf zu achten, dass der Anbieter die übermittelten Audio- oder Textdaten nicht für eigene Zwecke, etwa zum Training seiner KI-Modelle, nutzen darf.
Im Beschäftigungskontext sollte, sofern ein Betriebsrat gebildet ist, die Nutzung des Transkriptionstools durch eine Betriebsvereinbarung flankiert werden. Schließlich hat vorab eine transparente Information der Teilnehmer gemäß Art. 13 DSGVO zu erfolgen (z.B. durch einen Hinweis in der Termineinladung).
Anwendungsbeispiel: Die Projektbesprechung
Ein typisches Szenario für den Einsatz dieser Technologie ist die Projektbesprechung in komplexen Industrie-, Bau- oder IT-Projekten. Hierbei kommen oft zahlreiche interne und externe Stakeholder zusammen, um Meilensteine, technische Spezifikationen und Haftungsfragen zu erörtern. Die präzise Dokumentation dieser Termine ist für die Projektsteuerung und spätere Beweisführung von zentraler Bedeutung.
Müsste für jede dieser Besprechungen eine Einwilligung aller – teils kurzfristig wechselnden – Teilnehmer eingeholt werden, wäre der administrative Aufwand erheblich. Außerdem könnte später der Einwand kommen, dass jedenfalls die Einwilligung der abhängig Beschäftigten nicht ernstlich freiwillig war und deshalb unwirksam sei. Außerdem wären die Transkripte bei einem Widerruf der Einwilligung eines Einzelnen womöglich zu löschen.
Kommt stattdessen ein technisch entsprechend konfiguriertes Transkriptionstool zum Einsatz, das auf Audioaufnahmen und Biometrie verzichtet, kann die Dokumentation auf das berechtigte Interesse gestützt werden. Das Unternehmen sichert sich so eine lückenlose Informationsbasis, während die Persönlichkeitsrechte der Teilnehmer durch die Beschränkung auf die textliche Ebene und den Verzicht auf Stimmprofile gewahrt bleiben.
Rechtlich nähert sich diese Form der Dokumentation dem klassischen, manuell erstellten Sitzungsprotokoll an.
Zwar gibt es bei der Datenverarbeitung auf Grundlage eines berechtigten Interesses auch die Möglichkeit zum Widerspruch (Art. 21 Abs. 1 DSGVO). Aber anders als der Widerruf einer Einwilligung führt der Widerspruch nicht automatisch dazu, dass die Datenverarbeitung einzustellen ist.
Fazit
Die KI-Transkription von Besprechungen ist rechtlich weniger restriktiv zu bewerten, als es die verbreitete Forderung nach einer generellen Einwilligung vermuten lässt. Durch eine gezielte Auswahl und Konfiguration der Systeme können strafrechtliche Risiken ausgeschlossen und datenschutzrechtliche Eingriffe auf ein Maß reduziert werden, das eine Rechtfertigung über das berechtigte Interesse ermöglicht. Für Unternehmensjuristen und betriebliche Datenschutzbeauftragte bietet sich hier die Gelegenheit, durch technische Expertise rechtssichere Freiräume für die Digitalisierung der internen Kommunikation zu schaffen.


