§ 26 · KI & Qualität

Unter der Haube: Wir haben das gesamte Prompt-Fundament neu gebaut — mit Telemetrie, Schemas und Few-Shot-Kuratierung

Drei Wochen, jede KI-Funktion einmal angefasst: einheitliche Pipeline, harte JSON-Schemas mit Auto-Repair, Jurisdiktions-Playbooks und vollständige Run-Telemetrie. Was sich für Sie ändert — und warum das die Basis für alles ist, was als Nächstes kommt.

6 Minuten Lesezeit
KI & Qualität
Goldene Lupe auf einem juristischen Dokument auf warmem Kraftpapier — Symbol für präzise Prompt-Arbeit
Goldene Lupe auf einem juristischen Dokument auf warmem Kraftpapier — Symbol für präzise Prompt-Arbeit

Was wir gemacht haben

Smart Legal Pro ist im Kern ein Stapel hochspezialisierter KI-Funktionen: Dokumentanalyse, Vertragsvergleich, Antwortschreiben, Vertrags-Revision, Anwalts-Pre-Chat, Follow-up-Fragen, Reply-Analyse. Jede dieser Funktionen hatte historisch ihren eigenen Prompt, ihren eigenen Parser, ihren eigenen Umgang mit Fehlern. Das funktionierte — war aber technische Schuld, die jede Optimierung teuer machte.

In den letzten Wochen haben wir das Fundament komplett neu gegossen. Ohne neue Buttons im UI, ohne lauten Re-Launch. Aber unter der Haube ist nichts mehr wie vorher.

1. Eine Pipeline für alle KI-Aufrufe

Jede Edge Function ruft das Modell jetzt über denselben gehärteten Layer auf:

  • PII-Maskierung vor dem Modell (Namen, Adressen, IBAN, Aktenzeichen) — reversibel beim Zurückschreiben.
  • Schema-Validierung der Antwort gegen einen registrierten JSON-Schema-Eintrag.
  • Schema-Repair-Loop: scheitert die Validierung, bekommt das Modell die konkreten Fehler zurückgespielt und korrigiert gezielt — statt blind neu zu generieren.
  • Refund-Pfad: schlägt selbst das fehl, wird der Credit-Abzug automatisch rückgängig gemacht. Niemand zahlt mehr für eine kaputte Antwort.

2. Playbooks statt Hardcoded-Regeln

Jurisdiktionsspezifische Logik („In einem deutschen Bußgeldbescheid ist ein fehlender Eichschein kein Red Flag") lebt jetzt ausschließlich in der playbooks-Tabelle — pro Fallart, pro Sprache, pro Land, mit XX-Fallback. Der Composer zieht das passende Playbook und legt es als Overlay über den generischen System-Prompt.

Heißt konkret: Wir können Recht für Deutschland, Österreich und die Schweiz unterschiedlich behandeln, ohne den Code anzufassen. Aktueller Stand: 149 aktive Playbooks für DACH, alle aus einer Hand kuratiert.

3. Vollständige Telemetrie für jeden Run

Jeder einzelne KI-Aufruf landet in prompt_runs mit:

  • Funktion, Modell, Tier, Sprache, Land
  • Input- und Output-Tokens, Cached Tokens (für Prompt-Caching-Ersparnis), Kosten in Credits
  • Latenz (P50/P95), Erfolg/Fehler, Schema-Repair-Versuche
  • Anonymisierte Run-ID zur späteren Few-Shot-Kuratierung

Im Platform-Admin gibt es dafür eine eigene Ansicht (/admin/prompt-health): filterbar nach Funktion, Sprache, Land, Tier — mit Stats zu Erfolgsrate, Latenz, Kosten und Repair-Quote. Das ist die Grundlage, auf der wir in den kommenden Wochen jede einzelne Prompt-Variante datengetrieben optimieren werden, statt nach Bauchgefühl.

4. Schema-Registry und Few-Shot-Kuratierung

Zwei neue Admin-Tools machen die Optimierung praktisch:

  • Prompt-Schemas (/admin/prompt-schemas): zentrale Registry aller Response-Schemas, versioniert, live aktivierbar. Ein Schema-Update muss niemand mehr deployen.
  • Few-Shot-Kuratierung (/admin/prompt-few-shot): erfolgreiche Runs landen als Kandidaten in einer Tabelle, werden geprüft, freigegeben und stehen ab dem nächsten Aufruf als Beispiele zur Verfügung. Qualität steigt mit jedem freigegebenen Sample.

5. Bugs, die nebenbei rausflogen

Beim Migrieren sind ein paar Altlasten aufgefallen, die wir gleich mitgefixt haben:

  • Der Brief-Revisions-Dialog zeigte trotz erfolgreicher Erstellung einen Fehler-Toast — Mismatch zwischen Edge-Response und Frontend-Parser. Behoben.
  • `generate-letter-from-template` (der primäre Brief-Pfad aus dem Wizard) hing noch auf der alten Pipeline. Jetzt auf demselben Stand wie alles andere.
  • `analyze-reply` und `lawyer-prechat-stream` schrieben keine Telemetrie. Jetzt komplett sichtbar.

Was Sie davon merken

Direkt: weniger „Hoppla"-Toasts, keine Phantom-Fehler, sauberer Refund bei den seltenen Fällen, in denen das Modell wirklich daneben liegt.

Mittelfristig: spürbar bessere Antworten, weil wir jetzt zum ersten Mal datenbasiert sehen, wo welche Prompt-Variante gut läuft und wo nicht. Optimierung wird vom Glücksspiel zur Engineering-Disziplin.

Was als Nächstes kommt

  • Erste Datengrundlage aus den DE-Live-Runs sammeln (4–6 Wochen).
  • Auf dieser Basis: gezielte Prompt-Refreshes pro Funktion, Few-Shot-Bibliothek aufbauen.
  • Erst dann: weitere Sprachen, weitere Länder. Deutschland muss zuerst wirklich gut sein.

Wir bauen kein Feuerwerk. Wir bauen ein Fundament.

Kostenlos starten
Keine Kreditkarte
Jetzt starten