Die GenAI-Revolution hat längst begonnen

Artikel anhören
Artikel zusammenfassen
Teilen auf LinkedIn
Teilen per Mail
URL kopieren
Drucken

Dokumente und Verträge dienen als verlässliche Quelle für die Rechte und Pflichten, die ein Unternehmen gegenüber seiner Umwelt eingeht. Deshalb muss der gesamte Lebenszyklus von Dokumenten und Verträgen zuverlässig und möglichst standardisiert gesteuert und verwaltet werden – von den zugrunde­liegenden Datenquellen über die Erstellung und den Versand bis hin zur Archivierung. Mit der rasant steigenden Leistungsfähigkeit künstlicher Intelligenz (KI) verviel­fachen sich auch die Einsatzmöglichkeiten im Bereich der Dokumentenerstellung und -verwaltung. Damit rückt ein radikaler Wandel im „Document and Contract Lifecycle Management“ (DCLM) in greifbare Nähe.

Dokumente als digitalisierte „Single Source of Truth“ im Widerspruch

Dokumente im Allgemeinen und Verträge im Speziellen dienen in erster Linie dazu, für alle Beteiligten eine verbindliche Grundlage zu schaffen, auf die man sich berufen und die im Zweifelsfall zur Klärung von Streitigkeiten herangezogen werden kann. Idealerweise sollten der relevante Sachverhalt und die sich daraus ergebenden Rechte und Pflichten nur einmal und dann möglichst eindeutig und widerspruchsfrei dargestellt werden. Wenn diese ­Voraussetzungen erfüllt sind, können Dokumente und die Untergruppe der Verträge ihren eigentlichen Zweck als „Single Source of Truth“ (SSOT) erfüllen (vgl. „Praxishandbuch Legal Operations“; siehe hier).

Dokumente als traditionelle Art der Speicherung und Verwaltung von Daten und Informationen stehen per se im Widerspruch zur Informationstechnologie. Denn IT-Systeme basieren letztlich auf Rechnern, die gebaut wurden, um Berechnungen in den Bereichen Algebra, Analysis, Geometrie usw. durchzuführen und nicht, um Texte zu verstehen. Texte sind lediglich Repräsentationen binärer Daten, um sie für den Menschen lesbar zu ­machen. Natürlich kann der Computer Dokumente und die darin enthaltenen Daten und Werte (Dokumentdaten im engeren Sinne) speichern und auch bei der Erstellung und ­Bearbeitung von Texten unterstützen. Er kann aber nicht per se erkennen und verstehen, was der Regelungsgehalt der Texte ist und was die Daten bedeuten.

In der Konsequenz bedeutet dies, dass es immer einen Zwischenschritt geben muss, um Daten aus Texten zu extrahieren und zu klassifizieren, um sie dann mit einem Computer verarbeiten zu können. Inhalt und Bedeutung von Texten müssen in formale Logiken übersetzt werden, die für den Computer verständlich sind – nichts anderes sind Programmiersprachen. All diese Schritte sind bzw. waren bisher nur durch menschliches Zutun möglich und damit fehleranfällig – und in der Regel auch fehlerbehaftet. Betrachtet man diesen Medien- bzw. Konzeptbruch, digitalisierte Dokumente als einzig verlässliche Informationsquelle anzusehen, so erkennt man den Widerspruch. Alleinige Quelle zu sein, scheitert schon daran, dass relevante Daten und Informationen (Inhalte) aus Dokumenten extrahiert und transformiert werden müssen, um sie in den Systemen verarbeiten zu können, also immer abgeleitet und sekundär sind.

Maschinen können erstmals Texte verstehen und selbst verfassen

Der Einsatz künstlicher Intelligenz bedeutet nicht weniger als einen Paradigmenwechsel in der Erstellung und Verwaltung von Dokumenten. Die Möglichkeit, Texte zu vektorisieren, das heißt in Zahlen umzuwandeln, und auf der Basis dieser Vektoren neuronale Netze zu spezifizieren (nichts anderes ist das Training von Foundation-Modellen), um dann algebraische Regeln auf Texte anwenden zu können, ist ein wissenschaftlicher Fortschritt, dessen Tragweite wir noch kaum ermessen können. Gleichzeitig ist mit der Fähigkeit von Maschinen, Texte zu lesen und zu „verstehen“, eine Grauzone im Hinblick auf den Schutz und die Nutzung von geistigem Eigentum und Dokumenten im Allgemeinen entstanden.

Der Aufsatz „Attention Is All You Need“ (Vaswani et al., 2017; siehe hier) hat die Forschung im Bereich der künst­lichen Intelligenz weltweit grundlegend verändert und führt das Transformermodell, den Encoder, ein. Dieses Modell verarbeitet ganze Sätze gleichzeitig und nicht mehr Wort für Wort. Dadurch bleibt der Kontext, also die Beziehung der Wörter zueinander im Satzgefüge, erhalten.

Wenn Texte vektorisiert, also in Zahlen umgewandelt werden, wird immer der ganze Satz oder Text­abschnitt verwendet und nicht nur das einzelne Wort oder Zeichen. Anschließend wird statistisch ermittelt, welche Bestandteile des Satzes für die Bedeutung relevant sind (Self Attention Layer). Das Verb „sitzen“ gibt dem ­Nomen „Bank“ eine andere Bedeutung als z.B. die ­Wörter „anlegen“ oder „Geld“. Die Ergebnisse basieren auf einfachen algebraischen Rechenvorschriften (logistische Regression), also auf etwas, was der Computer sehr gut kann.

Der nächste Durchbruch wurde schon 2018 mit dem Konzept der vortrainierten bidirektionalen Transformer (Devlin et al., 2018; siehe hier – das Akronym BERT steht für „Bidirectional Encoder Representations from Transformers“) erzielt. Die Modelle nutzen De- und Encoder (bidirektionale Transformer) und minimieren dabei die Anzahl der Knoten, die erforderlich sind, um Ergebnisse zu erzielen. Vortrainiert bedeutet, dass man neuronale Netze so spezifiziert, dass Lücken (Maskierung) im Text richtig geschlossen oder ­gekürzte Texte richtig fortgesetzt werden. Dieser Ansatz eignet sich hervorragend für das selbstüberwachende Lernen und ermöglicht es, die Netze mit wesentlich größeren Datenmengen zu trainieren und die Knoten effizienter zu nutzen, als dies bisher realisiert werden konnte. Durch diese Skalenverschiebung konnte die ­Trennschärfe der Regressionsmodelle extrem verbessert werden.

Die bidirektionalen Transformermodelle haben es ermöglicht, Wörter, Sätze und ganze Texte konzep­tuell, also abstrakt und inhaltsbezogen, zu repräsentieren (die Darstellung von Binärdaten als Text ist lediglich eine symbolische Repräsentation. Dem Großbuchstaben „B“ wird der ASCII-Code 66 und damit der Binärwert 01000010 zugewiesen. Eine konzeptuelle ­Repräsenta­tion bedeutet, dass Objekte – Wörter, Sätze, Texte – in ihrem Kontext begriffen im Sinne von „verstanden“ werden). In diesem Kontext ist zu betonen, dass keine linguistischen Ansätze verwendet werden, sondern rein algebraische (Rechen-)Vorschriften diesen Durchbruch ermöglichen. Mit diesen Ansätzen haben Computer (Rechner) erstmals die sonst nur dem Menschen vorbehaltene ­Fähigkeit erlangt, einen Text zu verstehen.

Die Bedeutung von Foundation-Modellen für den Umgang mit Dokumenten und Verträgen

Auf geeignete Weise trainierte Foundation-Modelle ­ermöglichen es, per natürlicher Sprache mit dem Computer zu kommunizieren: Wir sind in der Lage, in ­unserer Sprache (die Behauptung, Prompting sei eine „eigene“ Computer-Abfragesprache, vertritt niemand mehr ernsthaft) Anweisungen zu erteilen, Fragen zu stellen und so lange nachzufassen, bis wir mit dem ­Ergebnis zufrieden sind, oder die maximale Promptlänge erreicht ist. Die Promptlänge liegt aktuell bei rund ­4.000 Token, was in etwa 8.000 bis 12.000 Worten, oder 20 bis 40 DIN-A4-Seiten anspruchsvollem Text entspricht. Um die obige oder vergleichbare Aufgaben zu lösen, reicht die Promptlänge oft nicht aus. Ein iteratives Vorgehen ist nicht möglich, da die Modelle alle zustandslos sind, sich Ergebnisse nicht merken können.

Mit der Nutzung von Foundation-Modellen wird die Maschine zum Dialogpartner. Allein diese Eigenschaft ist bahnbrechend. Im Kontext der DCLM-Systeme wird sie dazu führen, die Erfassung von Dokumentdaten und Inhalten, eine Tätigkeit, die bisher dem Menschen vorbehalten war, dem Computer zu übertragen. Es ist ohne weiteres möglich, das Modell damit zu beauftragen, ­Daten und relevante Textabschnitte aus den Texten zu extrahieren und für Folgesysteme oder Aufgaben und Analysen aufzubereiten.

Eine Anweisung in der Art von „Erstelle eine Liste ­aller Verträge, die wir mit Unternehmen A und dessen Nachfolgern und Vorgängern hatten, zeige auf wann und wie sich die Verträge geändert haben und markiere alle ­Stellen, an denen Regelungen zu Change of Control ­getroffen wurden“ wird im ersten Anlauf nicht die ­erhofften Ergebnisse bringen. Mit hinreichender ­Erfahrung und Expertise lässt sich aber ein modifiziertes ­GenAI-System (GenAI: Generative Artificial Intelligence) erstellen, das in der Lage ist, diese Aufgabe und andere wesentlich anspruchsvollere Aufgaben schnell und zuverlässig zu erledigen.

Weitere Aufgaben, die die Maschine übernehmen kann und wird, sind das Erstellen von Dokumenten sowie ­bestimmte Aufgaben aus der Phase „Verhandeln und Abstimmen“. Eine erste, wenn auch noch sehr schwache Indikation, was hier möglich sein wird, geben die ­Co-Pilot-Modelle von Microsoft. Beim Erstellen geht es um den Aspekt, ob Form und Regelungsgehalt den Anforderungen des Erstellers entsprechen. Beim Verhandeln und Abstimmen geht es darüber hinaus oftmals darum, Texte so anzupassen, dass sie das Gewollte tatsächlich abbilden und dabei ausreichend klar und präzise sind, um im Streitfall zu tragen. Ein weiterer Aspekt ist die Fragestellung, ob eine Regelung ausgewogen oder eher zugunsten einer Partei ist.

Diese Aspekte lassen sich durch semantische Nähe sehr gut und damit gerade von transformerbasierten Modellen abbilden. Wenn Single- und Few-Shot-Learning (Fine ­Tuning) nicht ausreichen, kann man eigene kleine ­Modelle auf Basis von synthetischen Daten trainieren. Wir nutzen unsere Dokumentgeneratoren, um gezielt Trainingsdaten mit geringer Varianz zu erzeugen. Gerade kleine Abweichungen sorgen für sehr gute Trainingseffekte.

KI als trainiertes Expertensystem für Rechtstexte

Der zweite Ansatz ist es, die GenAI auf die Steuerung ­einer Document-Generation-Engine hin zu trainieren, die dann die Einhaltung von Regeln sichert und über ­kuratierte Metadaten Anforderungen wie „klar und präzise“, „trägt vor Gericht“ oder „ausgewogen“ abbildet. Das Training der KI-Modelle auf eine formal logische Anweisungssprache zur Steuerung einer Engine ist Standard und zeigt hervorragende Ergebnisse. Vieles, was heute per Hand eingestellt und vergeben wird, kommt zukünftig von der GenAI.

Die dritte Möglichkeit ist es, die Modelle auf das Extrahieren und Einpflegen von Contentobjekten zu trainieren und heuristisch basierte Vorschläge zur Bewertung, zur Kuratierung, zu machen. Kuratierte Datensätze sind Grundlage für das Training von Expertensystemen, die dann wieder zu einer erhöhten Leistung der GenAI-­Modelle durch Reinforced Learning beitragen können. Eines der 16 oder mehr Modelle von GPT-5 könnte ­zukünftig ein breit trainiertes Expertensystem für Rechtstexte sein. Denn der wichtigste Trend in der KI ist momentan die Kombi­nation von großen Sprachmodellen mit konzeptuell trainierten domainspezifischen Expertensystemen. Hier liegt ein enormes Potential im Verstehen und Erstellen von komplexen fachspezifischen Texten und Dokumenten. Ob es dann noch DCLM-Systeme im heutigen Sinne braucht, muss bezweifelt werden. Während viele noch mit der digitalen Transformation kämpfen, hat die GenAI-Revolution schon begonnen.

 

Autor

Dr. Juergen Erbeldinger ESCRIBA AG, Berlin Founder and CEO juergen.erbeldinger@escriba.de www.escriba.de

Dr. Juergen Erbeldinger
ESCRIBA AG, Berlin
Gründer und CEO

juergen.erbeldinger@escriba.de
www.escriba.de