Drei gestapelte Ebenen, die eine Spezifikation, eine Prüfstation und eine Werkstatt-Umgebung für die Arbeit mit KI darstellen
Zurück zum Blog
KI-AgentenClaude CodeAndrej Karpathy

Besser mit KI arbeiten: die drei Ebenen Spec, Verifier und Environment

Sascha KieferKI & Agenten

Die meisten setzen KI-Agenten falsch ein. Auf Basis von Andrej Karpathys Methode zerlegen wir die drei Ebenen, die aus einem KI-Assistenten einen verlässlichen Mitarbeiter machen - Spec, Verifier und Environment - und zeigen, wie du jede davon anwendest.

Wir haben uns kürzlich angeschaut, wie Andrej Karpathy mit KI arbeitet, und eine Aussage ist uns im Kopf geblieben: Fast alle prompten KI falsch. Nicht, weil die Prompts schlecht formuliert wären, sondern weil sie das Modell wie einen Automaten behandeln, statt drumherum ein System aufzubauen.

Wer ist Andrej Karpathy? Ein Gründungsmitglied von OpenAI und ehemaliger Director of AI bei Tesla, wo er das Vision-Team des Autopiloten leitete. Er gehört außerdem zu den einflussreichsten Wissensvermittlern der Branche - seine Vorlesungen und Open-Source-Projekte zu neuronalen Netzen haben geprägt, wie eine ganze Generation von Entwickler*innen über Deep Learning denkt. Wenn er beschreibt, wie man tatsächlich mit diesen Modellen arbeitet, lohnt sich das Zuhören.

Als wir uns seine Methode genauer angesehen haben, ließ sie sich in drei einfache Ebenen zerlegen, die aufeinander aufbauen: die Spec, den Verifier und das Environment. Wer alle drei beherrscht, schreibt nicht nur bessere Prompts, sondern baut sich einen Arbeitsablauf auf, der mit der Zeit immer besser wird. In diesem Beitrag gehen wir jede Ebene durch und zeigen, wie du sie in der Praxis anwendest.

Warum KI mehr braucht als einen guten Prompt

Karpathy nutzt ein täuschend einfaches Beispiel, um die Lücke offenzulegen:

"Ich möchte zur Waschanlage, um mein Auto zu waschen, und sie ist 50 m entfernt. Soll ich fahren oder laufen? Und die modernsten Modelle von heute sagen dir, du sollst laufen, weil es so nah ist."

Wir haben es selbst mit mehreren führenden Modellen ausprobiert - alle gaben dieselbe Antwort: laufen. Sie übersehen das Offensichtliche: Das Auto muss ja zur Waschanlage. KI ist brillant bei allem, was sich messen lässt, aber bei Urteilen, die Kontext erfordern, fehlt ihr jeder Anhaltspunkt.

Genau hier setzen die drei Ebenen an: Sie bringen dein Wissen und deinen Kontext in eine Form, die die KI tatsächlich nutzen kann - und halten sie ehrlich, während sie arbeitet. So greifen die Ebenen ineinander, bevor wir sie einzeln betrachten:

Diagramm der drei Ebenen: Dein Verständnis speist die Spec, die als Entwurf in den Verifier übergeht (Feedback-Schleife), alles lebt im Environment und ergibt ein hochwertiges Ergebnis

Ebene Eins: Die Spec

Eine Spec ist die Art, wie du dein Wissen in einer Form an die KI übergibst, mit der sie etwas anfangen kann. Viele greifen hier zum "Plan Mode", doch Karpathy ist das nicht konkret genug:

"Ich mag den Plan Mode eigentlich nicht einmal. [...] Ich glaube, es gibt hier etwas Allgemeineres, bei dem man gemeinsam mit dem Agenten eine sehr detaillierte Spec entwerfen muss."

Er sagt nicht, dass der Plan Mode schlecht ist - er sagt, du musst tiefer gehen und die Spec gemeinsam erarbeiten. Drei Prinzipien machen eine Spec brauchbar:

1. Das eigentliche Ziel freilegen

Aufgabe und Ziel sind nicht dasselbe. "Erstelle einen Monatsbericht" ist eine Aufgabe. Das Ziel ist die Erkenntnis, die du gewinnen willst, die Entscheidung, die der Bericht vorbereitet - und genau das kann die KI niemals für dich festlegen. Ein praktischer Kniff: Dreh die Interaktion einfach um.

"Befrage mich, um das Ziel dieses Projekts herauszuarbeiten."

So wandert das Wissen aus deinem Kopf in die Spec.

2. Agil statt Wasserfall

Menschen neigen erstaunlich stark dazu, KI-Agenten nach dem Wasserfall-Prinzip einzusetzen - sie werfen ihnen die ganze Aufgabe auf einen Schlag hin und warten auf ein fertiges Ergebnis. Besser ist agiles Speccen: ein klar abgegrenzter Umfang, ein definierter Prüfpunkt, dann prüfen, anpassen, wiederholen. Verankere das direkt in deiner Anweisung:

"Bevorzuge kleinere, stärker abgegrenzte Specs."

3. Präzise sein und den eigenen Verstand einsetzen

Je präziser du bist, desto weniger muss die KI annehmen - und jede Annahme ist eine Chance, vom Ziel abzuweichen. Wenn die KI eine Spec für dich entwirft, lies sie kritisch. Baue feste Prüfpunkte ein:

"Lass mich zentrale Entscheidungen ausdrücklich bestätigen, damit nichts übersehen wird."

Zusammen ergeben diese drei Punkte eine eng abgegrenzte Spec, die wirklich zu deinem Ziel passt. Genau das nennt Karpathy Modern Engineering - und das ist eine Fähigkeit, keine Abkürzung.

Ebene Zwei: Der Verifier

Ebene zwei baut auf der Spec auf: Wenn die KI etwas geliefert hat - woher weißt du, dass es gut ist? Dafür liefert Karpathy ein Denkmodell: Wir züchten keine Tiere, wir beschwören Geister:

"Wenn du sie anschreist, arbeiten sie weder besser noch schlechter [...] es sind alles nur diese statistischen Simulationsschaltkreise. Es geht eher darum, misstrauisch zu sein und es mit der Zeit zu durchschauen."

Anschaulicher finden wir das Bild eines Roboter-Bibliothekars. Stell ihm eine Frage, und er antwortet anhand der Bücher in seiner Bibliothek. Fehlt das passende Buch, merkt er das nicht - und erfindet die Antwort womöglich voller Selbstvertrauen. Genau deshalb glänzt KI bei Mathematik und stolpert beim Kontext: Hat die Bibliothek eine klare Antwort, brilliert sie; hat sie keine, liegt sie selbstbewusst daneben.

Die Konsequenz ist befreiend: Bitten, Anschreien oder ein "mach das besser" bringen nichts, denn das hieße, einen Geist wie ein Tier zu behandeln. Der einzige Hebel, der wirklich greift, ist die Verifizierung. Drei Stellen, an denen du ansetzt:

1. Bewertungskriterien vorab festlegen

Bevor die KI irgendetwas anfasst, leg präzise fest, wie "gut" aussieht. "Der Bericht soll ansprechend sein" ist vage. "Der Bericht muss drei Abschnitte haben, jeder endet mit einer Empfehlung" gibt dem Modell dagegen etwas, woran es sich tatsächlich messen kann. Nimm das in deinen Verifizierungs-Prompt auf:

"Beschreibe die Bewertungskriterien, mit denen du ein hochwertiges Endergebnis sicherstellst. Sei dabei präzise."

2. Ein zweites Modell als Kritiker einsetzen

Stell dir einen zweiten Roboter-Bibliothekar aus einer anderen Bibliothek vor - ein anderer Bücherbestand und damit ein anderer Blick darauf, ob die erste Antwort standhält. In Claude Code etwa kannst du ein weiteres Modell anbinden und das Ergebnis von ihm bewerten lassen:

"Wenn daraus ein komplexer Build wird, lass das Endergebnis von einem zweiten Modell prüfen, damit beide Systeme übereinstimmen."

3. Externes Signal hereinholen

Wo immer möglich, hol dir gesicherte Fakten dazu. Du deployst eine App? Verbinde die KI mit dem System, auf das sie deployt hat, damit sie den erfolgreichen Rollout tatsächlich bestätigen kann - statt ihn nur anzunehmen. Du schreibst einen Monatsbericht? Gib ihr die Berichte des letzten Quartals als Vorlage für das exakte Format. Du holst echte Daten in die Verifizierungsschleife, damit ein "Erfolg" überprüfbar ist und nicht bloß behauptet wird.

Zusammen machen diese drei aus der Verifizierung eine Schleife statt einer einmaligen Prüfung:

Verifizierungs-Schleife: Kriterien vorab festlegen, die KI erzeugt Output, eine Prüfung gegen die Kriterien gespeist von zweitem Modell und externem Signal, Überarbeitung bis zum verifizierten Ergebnis

Boris Cherney, der Schöpfer von Claude Code, hat es auf den Punkt gebracht: Wenn die KI eine Feedback-Schleife hat, verdoppelt bis verdreifacht sie die Qualität des Endergebnisses. Genau dafür ist diese Ebene da.

Ebene Drei: Das Environment

Spec und Verifier brauchen einen Ort, an dem sie zu Hause sind - und das ist das Environment, in dem du arbeitest. Stell dir eine Werkstatt vor: Die Spec ist der Bauplan an der Wand, der Verifier ist die Qualitätskontrolle an der Tür, und das Environment ist die Werkstatt selbst. Das Problem: Die meisten richten ihre Werkstatt jedes Mal von Grund auf neu ein. Ein einzelner langer Chatverlauf ist keine Werkstatt. So baust du dir eine, die mit der Zeit besser wird.

1. Eine ordentliche AGENTS.md aufsetzen

Eine Projekt-Anweisungsdatei wird bei jedem Prompt mitgegeben - sie ist das Erste, was der Agent liest, um zu verstehen, wie er arbeiten soll. Wir legen unsere als AGENTS.md ins Repo-Root: ein herstellerneutraler Standard, den immer mehr KI-Coding-Tools automatisch lesen - eine einzige Datei steuert so jeden Assistenten im Team, statt einer pro Tool. Nutze sie, um Vorgaben zu hinterlegen, die du sonst ständig wiederholen müsstest:

"Bevor du etwas Mehrstufiges baust, lege einen Verifizierungsplan an."

So wird Verifizierung in jeden Build erzwungen, statt etwas zu sein, woran du dich erinnern musst. Gute Anweisungsdateien beschreiben, wie das Repo funktioniert, welche Custom Skills es gibt und wann man sie einsetzt, wo welches Wissen liegt und welche Arbeitsregeln nicht verhandelbar sind. Mach das Environment zu deinem - die KI soll in deiner Welt arbeiten, nicht umgekehrt.

2. Eine LLM-Wissensbasis aufbauen

Mit diesem Konzept ging Karpathy viral: eine bewusst angelegte Ordnerstruktur auf deinem Rechner, die deine eigenen "Trainingsdaten" so ablegt, dass die KI sich leicht darin zurechtfindet. Deine Daten sind dein Burggraben. So beginnst du, dein eigenes geistiges Kapital aufzubauen, statt in jeder Session bei null anzufangen.

3. Dein Skillset ausbauen

Eine gute Faustregel: Was du regelmäßig tust, machst du zu einem Custom Skill - einem wiederverwendbaren Handbuch für eine bestimmte Aufgabe. Und Skills werden mit der Nutzung besser. Bei uns im Team gibt es dazu einen Spruch: Am besten findest du ein Leck in einem Schlauch, indem du Wasser hindurchlaufen lässt. Lass weiter Wasser durch deine Skills laufen, dann zeigen sich die Schwachstellen von selbst - und dein System wird mit der Zeit immer stärker.

4. Harte Regeln schaffen, nicht nur Bitten

Je nachdem, wie teuer ein Fehler ist, brauchst du unterschiedliche Guardrails. Eine Zeile in der AGENTS.md wie "Fass den /important-Ordner nicht an" ist eine Bitte - die KI kann sie trotzdem ignorieren. Was auf keinen Fall schiefgehen darf, erzwingst du auf Tool-Ebene. Ein Pre-Tool-Use-Hook, der die Datei vor jedem Schreib- oder Bearbeitungsvorgang prüft, macht die Aktion schlicht unmöglich - nicht bloß unerwünscht. Eine AGENTS.md-Zeile ist eine Richtlinie, die der Agent ignorieren kann; ein Hook ist eine Mauer, an der er nicht vorbeikommt.

Teile deine Arbeit in drei Kategorien ein:

  • Immer erlaubt - sicher genug, um im Autopilot zu laufen.
  • Erst nachfragen - alles, was du vorher gegenprüfen willst.
  • Niemals - Grenzen, die unter keinen Umständen überschritten werden dürfen - durchgesetzt per Regel, nicht per Bitte.

Worauf es wirklich ankommt

Auf die Frage, was noch zählt, wenn Intelligenz zur Massenware wird, gab Karpathy eine Antwort, die die drei Ebenen zusammenführt:

"Du kannst dein Denken auslagern, aber nicht dein Verständnis."

Jede dieser Ebenen kreist um dein Verständnis des großen Ganzen. Die Spec funktioniert nur, wenn du das eigentliche Ziel kennst. Der Verifier funktioniert nur, wenn du weißt, was "gut" bedeutet. Das Environment funktioniert nur, wenn du weißt, welche Grenzen niemals überschritten werden dürfen. Die KI liefert die Rechenleistung; das Verständnis lieferst du - und genau das lässt sich nicht delegieren.

Wie wir das bei vensas anwenden

Für uns ist das nichts Theoretisches. Spec-zuerst-Zusammenarbeit, explizite Verifizierungsschleifen und gepflegte Projekt-Environments gehören dazu, wie wir Tag für Tag mit KI Software entwickeln - genau deshalb sind unsere AGENTS.md-Konventionen, Custom Skills und Guardrails auf Tool-Ebene genauso wichtig wie der Code selbst. Das Ergebnis: schnellere Auslieferung, ohne die Kontrolle über die Qualität aufzugeben.

Fazit

Besser prompten ist keine Frage magischer Worte. Es geht darum, drei Ebenen um das Modell herum aufzubauen:

  • Die Spec - gieße dein Wissen und dein eigentliches Ziel in einen präzisen, agilen, kritisch geprüften Plan.
  • Der Verifier - lege vorab fest, was "gut" heißt, hol eine zweite Meinung ein und zieh gesicherte Fakten hinzu, damit Qualität geprüft und nicht vorausgesetzt wird.
  • Das Environment - eine Werkstatt, die durch Anweisungsdateien, eine Wissensbasis, wiederverwendbare Skills und harte Guardrails mit der Zeit besser wird.

Bring alle drei zum Zusammenspiel, und du kämpfst nicht länger gegen das Modell - du wächst mit ihm.

Brauchst du Unterstützung?

Möchtest du spec-getriebene, überprüfbare KI-Workflows in dein Team bringen, weißt aber nicht, wo du anfangen sollst? Wir helfen gerne. Melde dich über unsere Kontaktseite, und wir gehen es gemeinsam an.

Wie strukturierst du deine eigenen KI-Workflows? Wir bei vensas tauschen uns gerne darüber aus und vergleichen Best Practices.