Die versteckten Kosten der React-Generierung
Ein mittelgroßer Versicherungsträger bat uns um eine Schätzung, was es kosten würde, 740 interne Bildschirme mit einem universellen Coding-Assistenten neu aufzubauen. Die Rechnung war unangenehm. Bei ungefähr 8.000 Ausgabe-Token pro Bildschirm für eine frei generierte React-Komponente, plus einem zweiten Durchgang für Tests, landete die Rechnung bei über 180.000 Dollar allein für Inferenz. Derselbe Auftrag gegen ein JSON-Deskriptor-Schema kam auf unter 22.000 Dollar.
Dieses Verhältnis ist nicht ungewöhnlich. Es ist das Standardergebnis, wenn das Modell bei jedem Aufruf die Struktur neu ableiten muss.
Wofür das Modell tatsächlich zahlt
Wenn GPT-4 oder Claude eine React-Komponente von Grund auf schreibt, ist der größte Teil der Ausgabe Zeremonie. Imports. JSX-Gerüst. Hook-Boilerplate. Prop-Typisierung. Error Boundaries. Das Modell kennt all das und schreibt es korrekt, aber es zahlt jedes Mal die Token-Kosten.
Wir haben eine Stichprobe von 200 freien Generierungen für CRUD-Bildschirme analysiert und festgestellt, dass weniger als 15 % der Ausgabe-Token etwas kodierten, das sich zwischen den Bildschirmen unterschied. Die anderen 85 % waren Struktur, die das Modell aus dem Gedächtnis rekonstruierte.
Strukturierte Ausgabe verändert das Budget
Wenn das Ziel ein JSON-Dokument ist, das gegen ein Schema validiert wird, hört das Modell auf, Gerüstcode zu schreiben. Es schreibt Entscheidungen. Feldnamen, Validierungsregeln, Layout-Bereiche, die spezifischen Spalten eines Grids, der an eine Schaltfläche angehängte Handler. Alles andere liefert die Runtime.
Unsere interne Schätzung über rund 1.200 Deskriptor-Generierungen während der Entwicklung beziffert die Reduktion auf 5-10x, abhängig von der Bildschirmkomplexität. Einfache Nachschlage-Formulare liegen nahe bei 10x. Dichte Dashboards mit bedingter Logik liegen näher bei 5x.
Weniger Token, weniger Fehlerquellen
Token-Effizienz ist der einfach messbare Gewinn. Der schwierigere ist Zuverlässigkeit. Freie Generierung scheitert auf interessante Weise: ein fehlender Import, eine halluzinierte Bibliotheksversion, ein Hook innerhalb einer Bedingung. Jeder Fehler erfordert einen Retry, der mehr Token kostet, was den tatsächlichen Preis pro Bildschirm deutlich über die Schlagzeile hebt.
Strukturierte Generierung scheitert früher und günstiger. Ein JSON-Schema-Validator lehnt einen fehlerhaften Deskriptor in Millisekunden ab, bevor Code ausgeführt wird. Das Modell sieht den Validierungsfehler und korrigiert im nächsten Durchgang. Wir beobachten ungefähr einen Retry pro zwanzig Generierungen, verglichen mit einem pro drei bei äquivalenten freien Durchläufen.
Warum das für Enterprise-Builder relevant ist
Enterprise-App-Generierung ist nicht ein Bildschirm. Es sind Hunderte, dann Tausende, die jeweils RBAC, Audit-Logs und Datenverträge berühren, auf die sich die Organisation bereits geeinigt hat. Tools wie Vercel v0, Bolt und Lovable optimieren für den ersten Bildschirm. Sie generieren schöne Ausgaben und teure Rechnungen.
Die Wirtschaftlichkeit dreht sich, sobald Deskriptor und Runtime vorhanden sind. Neue Bildschirme kosten Cent. Varianten kosten weniger. Ein Produktmanager kann ein Layout zwanzigmal an einem Nachmittag iterieren, ohne dass jemand die Inferenz-Kostenzeile bemerkt.
Die Erkenntnis
Token-Effizienz ist kein cleverer Trick. Sie ist das, was passiert, wenn das Modell aufhört, Dinge zu schreiben, die es bereits millionenfach geschrieben hat. Geben Sie dem LLM ein Schema, eine Runtime und eine klare Entscheidungsfläche, und die Kostenkurve biegt sich um eine Größenordnung. Das ist der Unterschied zwischen KI als Demo und KI als Produktionsinfrastruktur.