Das Audit, das einen Rollout stoppte
Ein europäischer Versicherer verbrachte vier Monate damit, 220 interne Masken mit einem allgemeinen Coding-Assistenten zu generieren. Der Rollout wurde zwei Wochen vor dem Go-Live unterbrochen, als die interne Revision eine einzige Frage stellte: Welcher Prompt hat die Genehmigungsrouting-Logik auf Maske 147 erzeugt, und können wir ihn reproduzieren? Niemand konnte antworten. Der Neubau dauerte ein weiteres Quartal.
Der Vorfall ist keine Seltenheit. Es ist das Standardergebnis, wenn KI-Output als Quellcode behandelt wird statt als abgeleitetes Artefakt.
Was Prüfer tatsächlich beanstanden
Prüfer haben kein philosophisches Problem mit LLMs. Wir haben in genügend Review-Meetings gesessen, um zu wissen, dass die Einwände konkret und wiederholbar sind. Sie wollen wissen, was eine bestimmte Kontrolle erzeugt hat, ob derselbe Input denselben Output produziert und ob ein Mensch mit der richtigen Rolle die Änderung genehmigt hat. SOX, HIPAA, GDPR und der EU AI Act konvergieren alle auf denselben drei Fragen.
Freiform-Generierung scheitert an allen dreien. Der Prompt-Verlauf wird selten aufbewahrt. Das Modell ist nicht-deterministisch. Der Reviewer ist in der Regel ein Entwickler, der Syntax bereinigt, nicht ein Kontrollverantwortlicher, der die Absicht abzeichnet.
Determinismus als Kontrolle
Regulierte Branchen behandeln Reproduzierbarkeit als erstklassige Kontrolle. Eine Gehaltsberechnung, die an verschiedenen Tagen unterschiedliche Ergebnisse liefert, ist ein Befund, unabhängig davon, wie nah die Ergebnisse beieinander liegen. Derselbe Standard gilt für generierten Code. Wenn dieselbe Spezifikation zwei verschiedene Implementierungen erzeugen kann, behandeln Prüfer beide als nicht verifiziert.
Strukturierte Generierung gegen ein JSON Schema verengt den Output-Raum ausreichend, sodass Reproduzierbarkeit handhabbar wird. Der Deskriptor ist die Spezifikation. Zwei Durchläufe, die denselben Deskriptor erzeugen, produzieren dieselbe laufende Anwendung, Bit für Bit, weil die Laufzeit fixiert ist.
Nachverfolgbarkeit durch den Deskriptor
Das nützliche Artefakt in einem Audit ist nicht die React-Komponente. Es ist der Deskriptor, der sie generiert hat. Ein Deskriptor ist kurz, menschenlesbar und von einem Kontrollverantwortlichen prüfbar, der noch nie TypeScript geschrieben hat. Wenn ein SOX-Prüfer fragt, wie Genehmigungsschwellenwerte auf der Lieferanten-Setup-Maske durchgesetzt werden, ist die Antwort ein 40-zeiliger JSON-Block, nicht eine 600-zeilige Komponente.
Wir haben gesehen, wie dies die Beweiserhebung von Wochen auf Stunden verkürzt. Der Deskriptor ist an einen Commit gebunden, der Commit an einen Genehmiger, und der Genehmiger an eine Rolle im RBAC-System. Die Kette schließt sich ohne eine Tabellenkalkulation.
Wo KI in den Workflow gehört
Die Frage ist nicht, ob KI den Code schreibt. Es ist, was die KI committen darf. In dem Muster, das das Audit besteht, schlägt das LLM eine Deskriptor-Änderung vor. Ein Mensch mit der richtigen Rolle prüft und genehmigt sie. Die Laufzeit kompiliert sie in eine laufende Maske. Das Audit-Log erfasst jeden Schritt.
Dies ist das Inverse des „KI-Autocomplete”-Musters, das Entwicklertools dominiert. Cursor und vergleichbare Tools optimieren auf Geschwindigkeit innerhalb des Editors. Das ist ein geeignetes Muster für interne Tools. Es ist das falsche Muster für ein System, das einem externen Prüfer Rede und Antwort stehen muss.
Der EU AI Act erhöht den Einsatz
Der EU AI Act klassifiziert viele Entscheidungsunterstützungssysteme in Unternehmen als Hochrisiko, was Protokollierungs-, Menschenaufsichts- und technische Dokumentationspflichten mit sich bringt. Generierter Code, der sich nicht selbst erklären kann, wird unter Artikel 13 Schwierigkeiten haben. Generierte Deskriptoren, geprüft und signiert, sind bereits den größten Teil des Weges dorthin.
Die Erkenntnis
KI-generierter Code kann ein Compliance-Audit bestehen. Er kann es nur nicht als roher Output bestehen. Das Artefakt, das die Prüfung übersteht, ist die strukturierte Spezifikation, geprüft vom richtigen Menschen, kompiliert von einer festen Laufzeit und durchgängig protokolliert. Jede Regulierungsbehörde, mit der wir gesprochen haben, behandelt dieses Muster als angemessen. Keine von ihnen behandelt „das Modell hat es geschrieben” als Antwort.