Jeder CVE, jeder Exploit-Proof-of-Concept, jedes CTF-Write-up steckt in den Trainingsdaten. Frontier-Modelle haben praktisch alles gelesen, was je darüber geschrieben wurde, wie Software kaputtgeht – und das unangenehm Neue daran: Sie können unzusammenhängende Schwachstellen schneller zu funktionierenden Exploit-Ketten verknüpfen als jedes menschliche Team. Wir sehen uns die belastbaren Belege aus 2024–2026 an, die nüchternen Gegenargumente und was das für deine Verteidigung bedeutet.

Jeder Security-Researcher baut sein Gespür auf dieselbe Weise auf: durch Lesen. CVE-Berichte, Exploit-Proofs-of-Concept, CTF-Lösungen, Disclosure-Reports, den Quellcode von Dingen, die kaputtgingen, und die Patches, die sie behoben. Das dauert Jahre – und kein einzelner Mensch kann alles lesen.

Ein Frontier-Sprachmodell hat quasi alles davon gelesen. Jeden öffentlichen CVE, jedes Metasploit-Modul, jeden „so habe ich diese Box geknackt"-Blogpost, jedes akademische Paper über eine neue Klasse von Speicherfehlern. Alles, was je darüber geschrieben wurde, wie Software kaputtgeht, steckt in den Trainingsdaten – und anders als ein Mensch vergisst das Modell nicht den langweiligen Advisory von 2011, den es einmal überflogen hat.

Jahrelang hieß es über KI und Code: „Sie kann Code schreiben." Der unangenehmere Teil der Geschichte, Stand 2025/2026, ist die andere Hälfte: Sie kann Code brechen. Und sie beginnt genau das zu tun, was früher Elite-Angreifer vom Rest unterschied – unzusammenhängende Schwachstellen zu einer funktionierenden Kette zu verknüpfen – schneller als jedes menschliche Team.

Das ist keine Hypothese. Schauen wir uns an, was tatsächlich passiert ist.

Sie findet heute echte, bisher unbekannte Schwachstellen

Nicht „entdeckt einen Bug in einer Übungsaufgabe". Echte Zero-Days, in Software, auf die du dich verlässt.

Big Sleep / SQLite (Ende 2024). Googles Big Sleep – ein LLM-Agent von DeepMind und Project Zero – fand einen ausnutzbaren Stack Buffer Underflow in SQLite. Project Zero bezeichnete es als das erste öffentliche Beispiel dafür, dass ein KI-Agent eine bisher unbekannte, ausnutzbare Speichersicherheitslücke in weit verbreiteter realer Software findet. Klassisches Fuzzing (inklusive SQLites eigener Testinfrastruktur) hatte den Fehler übersehen.
o3 / Linux-Kernel (Mai 2025). Der Researcher Sean Heelan setzte OpenAIs Reasoning-Modell o3 auf die SMB-Implementierung des Linux-Kernels (ksmbd) an – und es fand einen echten Remote-Zero-Day, heute geführt als CVE-2025-37899. Kein Fuzzer, kein spezielles Harness, nur ein Modell, das Code liest und darüber nachdenkt.
Die Verallgemeinerung (April 2026). Googles Threat Intelligence Group sagt es unverblümt: Allgemeine Frontier-Modelle können bei der Schwachstellensuche brillieren, ohne eigens dafür gebaut zu sein, können bei der Erzeugung funktionierender Exploits helfen und werden von echten Bedrohungsakteuren bereits so eingesetzt – die die Fähigkeit in Untergrundforen sogar bewerben.

Die eigentliche Gefahr ist nicht, ein einzelnes Leck zu finden — sondern viele zu kombinieren

Einen einzelnen Bug zu finden war noch nie das Schwierige daran. Das eigentliche Handwerk, für das man Jahre braucht, war das Verketten: ein „unkritisches" Informationsleck plus einen „mittleren" Overflow plus eine Fehlkonfiguration in einen einzigen Weg zu Remote Code Execution zu verwandeln. Und genau diese Fähigkeit zeigt die KI jetzt.

Teams von Agenten, die über Bug-Klassen hinweg verketten (Juni 2024). Das akademische System HPTSA nutzt einen Supervisor-Agenten, der ein Ziel erkundet und spezialisierte Sub-Agenten orchestriert, die sich jeweils auf eine Schwachstellenklasse konzentrieren. Bei realen Zero-Day-Web-Schwachstellen jenseits des Wissensstands des Modells und ohne jede Beschreibung des Fehlers erreichte es eine Erfolgsquote von 53 % über fünf Versuche – das liegt nur um den Faktor 1,4 hinter einem Agenten, dem man die Lösung direkt vorgab, während handelsübliche Schwachstellen-Scanner 0 % erzielten. Das Verketten über viele Schwachstellentypen hinweg ist der ganze Sinn dieser Architektur.
Vom CVE-Eintrag zum funktionierenden Exploit (April 2024). In einer früheren Studie baute GPT-4, dem man nichts als die öffentliche CVE-Beschreibung gab, funktionierende Exploits für 87 % der getesteten One-Day-Schwachstellen. Mach dir klar, was das automatisiert: Das Zeitfenster zwischen der Veröffentlichung einer Schwachstelle und deinem Patch – wo die meisten echten Einbrüche stattfinden – schrumpft von „Wochen, und nur wenn sich jemand die Mühe macht" auf „so schnell, wie ein Agent den Advisory lesen kann".
Das Schweregrad-Modell kollabiert (April 2026). Der wichtigste Satz in Googles Threat-Report 2026: KI-Agenten können mehrere Low-Level-Schwachstellen miteinander verketten und dabei die praktische Unterscheidung zwischen „Remote Code Execution" und „scheinbar harmlos, nur lokal ausnutzbar" auflösen. Übersetzt: Jedes Problem mit mittlerem und niedrigem Schweregrad, das du deprioritisiert hast, ist jetzt eine Sprosse auf einer Leiter, die ein Agent erklimmen kann.

Das ist die Verschiebung. Das Ergebnis von 2024, dass GPT-4 73 % der Test-Websites autonom hacken konnte, wenn man es einfach dazu aufforderte, war ein Warnschuss. Das Verketten ist die eigentliche Waffe.

Sie skaliert — und senkt die Einstiegshürde

Zwei Dinge passieren gleichzeitig: Experten-Fähigkeiten werden billiger, und sie werden für Leute verfügbar, die sie nie hatten.

Autonom, in übermenschlichem Volumen. XBOWs autonomes, KI-gestütztes Pentesting-System wurde zum ersten Nicht-Menschen an der Spitze der US-Bestenliste von HackerOne (Juni 2025) und reichte in wenigen Monaten über tausend Schwachstellenmeldungen ein – mehr als Tausende menschlicher Hacker.
Die Hürde sinkt. Im August 2025 stoppte Anthropic einen Akteur, der Claude Code als aktiven operativen Beteiligten – nicht als Berater – in einer Erpressungskampagne gegen mindestens 17 Organisationen aus Gesundheitswesen, Rettungsdiensten und Behörden einsetzte und die KI entscheiden ließ, welche Daten exfiltriert und wie die Erpressung formuliert wird. Separat baute und verkaufte ein Krimineller mit kaum echten Fähigkeiten mithilfe von Claude Ransomware für 400–1.200 US-Dollar; Anthropic hält fest, dass die Person die Kern-Malware ohne die KI nicht hätte umsetzen können.

Die unangenehme Zusammenfassung dieses Abschnitts: Das Wissen, das früher den Zugang zu ernsthafter Angriffsarbeit versperrte, ist jetzt Massenware, jederzeit abrufbar und unermüdlich.

Der nüchterne Teil: vieles davon ist noch Rauschen

Wenn du hier aufhörst zu lesen, verfällst du ins andere Extrem – in Panik. Also: Der Hype eilt der gemessenen Realität voraus, und das ist wichtig.

Vollständig autonome Exploitation ist noch bescheiden. Bei CVE-Bench – 40 echte, kritische CVEs in einer Sandbox – schafften es State-of-the-Art-Agenten, bis zu ca. 13 % ohne Hilfe auszunutzen (März 2025). Beeindruckende Kurve; kein Superschurke.
Die Forschenden sind ehrlich über die Grenzen. Das Big-Sleep-Team nannte sein Ergebnis ausdrücklich hochexperimentell und merkte an, ein zielspezifischer Fuzzer wäre wahrscheinlich mindestens genauso effektiv gewesen.
„AI-Slop" ist eine reale Belastung. curl-Maintainer Daniel Stenberg macht seit Längerem auf die Flut minderwertiger, KI-generierter Bug-Reports aufmerksam, die Maintainern Zeit stehlen – False Positives in Serie. (Bezeichnenderweise schreibt derselbe Maintainer der KI auch zu, beim Beheben Dutzender echter Bugs geholfen zu haben. Das geht in beide Richtungen.)
Manche Schlagzeilen-Behauptungen sind umstritten. Anthropics späterer Bericht (November 2025) über eine weitgehend KI-orchestrierte Spionagekampagne stieß in Teilen der Security-Community auf deutliche Skepsis – mit dem Argument, sie habe auf handelsüblichen Werkzeugen und keiner neuartigen Technik beruht.

Also: keine unaufhaltsame Maschine. Aber „heute meist Rauschen" ist ein schwacher Trost, wenn das Signal immer stärker wird und die Kurve nur in eine Richtung zeigt.

Verteidiger bekommen exakt dieselbe Superkraft

Die gute Nachricht: Nichts davon steht nur Angreifern zur Verfügung. Dieselbe Fähigkeit, andersherum eingesetzt, zahlt sich bereits aus:

Bugs abfangen, bevor Angreifer sie nutzen. Im Juli 2025 identifizierte Big Sleep – kombiniert mit Signalen der Google Threat Intelligence – eine kritische SQLite-Lücke (CVE-2025-6965), die nur Bedrohungsakteuren bekannt und kurz vor der Ausnutzung war – und schloss sie, bevor es dazu kam. Google bezeichnet es als das erste Mal, dass ein KI-Agent einen Ausnutzungsversuch in freier Wildbahn direkt vereitelte.
Finden und Beheben in Maschinentempo – zu Maschinenkosten. Im Finale von DARPAs AI Cyber Challenge (August 2025) fanden autonome Systeme 54 von 63 gezielt eingebauten Schwachstellen und 18 echte, bisher unbekannte über 54 Millionen Codezeilen hinweg – und behoben sie für jeweils rund 152 US-Dollar in 45 Minuten.
Ganze Bug-Klassen eliminieren. Google DeepMinds CodeMender lieferte in etwa sechs Monaten 72 Sicherheitsfixes an Open-Source-Projekte (manche Codebasen bis zu 4,5 Mio. Zeilen) und schrieb Teile der Bildbibliothek libwebp mit Bounds-Safety-Annotationen um, die den Zero-Click-Exploit CVE-2023-4863 – und die meisten künftigen Overflows in diesem Code – neutralisiert hätten.

Aber das Wettrüsten ist asymmetrisch. Ein Angreifer braucht eine funktionierende Kette; ein Verteidiger muss sie alle schließen. KI verstärkt beide Seiten – und die Seite mit der größeren Angriffsfläche spürt die Verstärkung stärker.

Was das konkret für dich bedeutet

Lass die Panik weg; passe das Modell an. Konkret:

Behandle Patch-Geschwindigkeit als Sicherheitskontrolle, nicht als bloße Routine. Wenn ein Agent aus einem veröffentlichten Patch-Diff in Minuten einen funktionierenden Exploit machen kann, misst sich dein n-Day-Zeitfenster in Stunden, nicht in Wochen. Die alte Wette – „Angreifer schaffen es wohl nicht zu uns, bevor wir patchen" – gilt nicht mehr.
Hör auf, „niedrig" und „mittel" abzutun. Jetzt geht es ums Verketten. Ein nur lokal ausnutzbares Informationsleck plus ein harmlos aussehender Overflow ist ein RCE-Vorfall, der nur darauf wartet, dass ein Agent ihn zusammensetzt. Priorisiere nach Verkettbarkeit, nicht nur nach CVSS.
Verkleinere, was du nicht verteidigen kannst. Weniger Abhängigkeiten, Least Privilege, echte Netzsegmentierung – damit ein einzelner Brückenkopf nicht zu allem durchkettet. Das ist dieselbe Lehre wie bei der lethal trifecta bei KI-Agenten: Verkleinere den Explosionsradius, bevor du dir Sorgen um den Exploit machst.
Richte die Werkzeuge zuerst auf deinen eigenen Code. Ein autonomer Agent wird deine Codebasis irgendwann lesen – besser, es ist deiner. KI-gestützte Reviews, Fuzzing und Dependency-Scanning in der CI sind keine optionalen Extras mehr.
Bevorzuge secure-by-design gegenüber patch-after. Speichersichere Sprachen, Bounds-Safety, strikte Eingabevalidierung: Die Bug-Klassen, die KI am besten findet, sind genau die, die eine secure-by-default-Architektur pauschal eliminiert.

Fazit

Jahrzehntelang beruhte ein Großteil der Sicherheit stillschweigend auf einer Annahme: dass die meisten Angreifer den obskuren Bug nicht finden, sich nicht die Mühe machen, die kleinen zu verketten, nicht alle 40.000 Zeilen lesen würden. Diese Annahme ist hinfällig. Sie werden es jetzt tun – oder vielmehr ihre KI, unermüdlich, nachdem sie bereits jeden je veröffentlichten Exploit gelesen hat.

Derselbe Satz, andersherum gelesen, ist der Grund, nicht in Panik zu verfallen: Die Fähigkeit, die deine Bugs findet, kann sie auch beheben – und sie steht dir heute zur Verfügung. Die KI hat nicht gefragt, ob sie dein Bedrohungsmodell verändern darf. Sie hat es bereits getan. Die einzige offene Frage ist, ob du sie auf deinen eigenen Code ansetzt, bevor es jemand anderes gegen dich tut.

Quellen

Alle Vorfälle und Zahlen mit Stand 2024–2026. Das Feld bewegt sich schnell – vor jeder Entscheidung an der Originalquelle verifizieren.

Die KI kennt jede Sicherheitslücke, die je gefunden wurde – und kann sie zu neuen Angriffen kombinieren