Kostenwahrheit, Break-even und die Voraussetzungen für Self-Hosting von Sprachmodellen Stand: Juni 2026
Kernfrage: Wann ist ein selbst gehostetes Sprachmodell die richtige Entscheidung – und welche organisatorischen, finanziellen und regulatorischen Voraussetzungen muss ein Unternehmen dafür mitbringen?
Management Summary
Die Frage „selbst hosten oder per API einkaufen?" wird in der Praxis fast immer falsch gestellt – nämlich als Vergleich von GPU-Preis gegen Token-Preis. Das ist der teuerste Denkfehler in dieser Entscheidung. Der reine GPU-Kaufpreis ist nur rund ein Drittel der tatsächlichen Gesamtkosten.
Die belastbaren TCO-Analysen aus 2026 kommen übereinstimmend zu drei Aussagen:
- Self-Hosting kostet real das Drei- bis Fünffache des reinen GPU-Preises, sobald Strom, Kühlung, Redundanz, Betrieb und Ausfallrisiko eingerechnet werden.
- Der Kostenvorteil kippt erst bei sehr hohem, gleichmäßigem Volumen – die Schwelle liegt grob zwischen 10 und 30 Millionen Token pro Tag bzw. bei dauerhaft hoher GPU-Auslastung (80 %+).
- Für die meisten kleinen und mittleren Teams ist Self-Hosting damit nicht die günstigere, sondern die teurere Option. Es rechnet sich primär über Datensouveränität, nicht über die reine Kostenrechnung.
Kurzantwort: Ein lokales Setup lohnt sich für ein Unternehmen dann, wenn (a) das Nutzungsvolumen dauerhaft sehr hoch und planbar ist, ODER (b) harte Datenschutz-/Souveränitätsanforderungen einen API-Einkauf ausschließen – UND das Unternehmen die personellen und betrieblichen Voraussetzungen für einen 24/7-Infrastrukturbetrieb mitbringt. Fehlt eines dieser Elemente, ist eine API-Lösung oder ein souveränes EU-Hosting fast immer die rationalere Wahl.
1. Warum der GPU-Preis in die Irre führt
Eine A100 80GB ist gebraucht für rund 4.000–9.000 € zu haben, einzelne gut erhaltene PCIe-Karten werden auf eBay für etwa 15.000 € gehandelt. Genau diese Zahl steht meist am Anfang der Überlegung – und sie ist die unwichtigste. Die echten Kosten entstehen um die Karte herum.
Die drei Komponenten der Gesamtkosten (TCO)
- Hardware (CapEx) – GPU(s), Server-Chassis, redundante Netzteile, Arbeitsspeicher, schnelle NVMe-Speicher, Kühlung. Ein 70B-Modell in 4-Bit-Quantisierung braucht rund 35–48 GB VRAM – also realistisch eine bis zwei A100 80GB plus Reserve.
- Strom & Kühlung (OpEx) – laufen rund um die Uhr, auch wenn die Entwickler nur acht Stunden am Tag arbeiten. In Deutschland liegt der Gewerbestrom bei rund 0,25–0,30 €/kWh – das verdoppelt gegenüber US-Rechenbeispielen die Energiekosten und verschiebt den Break-even um 40–60 %.
- Menschen – Updates, Sicherheits-Patches, Modellwechsel, Monitoring, Störungsbehebung. Konservativ sind das 5–10 Stunden qualifizierter Arbeitszeit pro Monat allein für den stabilen Regelbetrieb – Aufsetzen und der erste Ausfall kosten deutlich mehr.
Faustregel: GPU-Preis × 3 bis × 5 = realistische Gesamtkosten. Wer nur die Karte rechnet, unterschätzt das Vorhaben um den Faktor 3 bis 5.
2. Der Break-even: ab wann lokal günstiger ist
Der entscheidende Hebel ist nicht der Preis, sondern das Volumen und die Auslastung. Die Logik ist einfach: Eine eigene GPU verursacht feste Kosten – egal, ob sie zu 10 % oder zu 90 % ausgelastet ist. Eine API kostet nur, was tatsächlich genutzt wird.
| Auslastung der eigenen GPU | Wirtschaftlich günstiger ist … |
|---|---|
| unter ~70 % | Cloud / API – die Fixkosten der eigenen Hardware verteilen sich auf zu wenige Anfragen |
| 80 % und mehr, dauerhaft | On-Premise kann über einen 3-Jahres-Horizont gewinnen |
| unter 10 % („GPU steht nachts leer") | API um ein Vielfaches günstiger – effektive Kosten je 1.000 Token vervielfachen sich |
In Token ausgedrückt: Die Schwelle, ab der Self-Hosting günstiger wird, liegt je nach Modellgröße und Input-/Output-Verhältnis zwischen 10 und 30 Millionen Token pro Tag. Bei voller Industrie-Last (mehrere hundert Millionen Token täglich) dreht sich das Bild und Self-Hosting kann das Mehrfache einsparen. Genau dieses Volumen erreicht ein Team aus zehn Entwicklern im Normalbetrieb jedoch nicht – die GPU stünde nachts, an Wochenenden und in Pausen ungenutzt.
Die zentrale Messgröße: Bevor irgendjemand Hardware kauft, sollte das Unternehmen sein tatsächliches Token-Volumen über mehrere Wochen messen. Alles andere ist Folgekosten. Das Volumen entscheidet die Frage – nicht der Preis einer Grafikkarte.
3. Beispielrechnung: 10 Entwickler
Modellannahme: ein 70B-Klasse-Modell (4-Bit quantisiert) auf einem Node mit zwei gebrauchten A100 80GB, drei Jahre Abschreibung, deutscher Gewerbestrom ~0,28 €/kWh, 24/7-Betrieb. Alle Werte sind gerundete Größenordnungen, keine Angebote.
Self-Hosting – monatliche Gesamtkosten
| Position | ca. €/Monat | Anmerkung |
|---|---|---|
| Hardware-Abschreibung | 585 | ≈ 21.000 € Invest / 36 Monate (2× A100 + Server) |
| Strom + Kühlung | 245 | ≈ 1,2 kW × 24/7 × 0,28 €/kWh |
| Wartung / DevOps | 560 | ≈ 8 h/Monat × ~70 € |
| Stellplatz, Netz, Ersatzteile | 150 | Rack, Anbindung, Verschleiß |
| Summe (ohne Redundanz) | ≈ 1.540 | ≈ 18.500 €/Jahr · ≈ 55.000 € auf 3 Jahre |
Varianten
- Hochverfügbarkeit – Mit echter Redundanz (N+1, zweiter Node): + ~700–900 €/Monat → ca. 2.300 €/Monat.
- Abschalten nachts – Nur Bürozeiten statt 24/7: Strom fällt auf ~75 €, aber Abschreibung und Personal bleiben → ca. 1.370 €/Monat. Die Ersparnis ist gering, weil Hardware und Personal dominieren – nicht der Strom.
Gegenrechnung API (gleiches Team)
| Option | ca. €/Monat | Bewertung |
|---|---|---|
| Open-Weight-Modell als API (z. B. Together / DeepInfra) | 100–150 | ~10× günstiger als Self-Hosting, vergleichbares Modell |
| Frontier-API (Claude / GPT, gemischt) | 1.000–1.400 | etwa gleichauf mit Self-Hosting, aber stärkeres Modell, kein Betriebsrisiko |
| Self-Hosting (zum Vergleich) | ≈ 1.540 | schwächeres Modell, volles Betriebs- und Ausfallrisiko |
Fazit der Rechnung: Bei zehn Entwicklern liegt das Volumen rund um den Faktor 50 unter dem Break-even. Gegen ein Open-Weight-Modell per API ist Self-Hosting hier etwa zehnmal teurer; gegen eine Frontier-API liegt es kostenmäßig gleichauf – aber mit schwächerem Modell und vollem Betriebsrisiko. Self-Hosting rechnet sich in dieser Größe nur über Datenschutz und Souveränität, nicht über Kosten.
4. Wann sich ein lokales Setup wirklich lohnt
Es gibt drei Situationen, in denen Self-Hosting die richtige Entscheidung ist. Mindestens eine davon muss klar zutreffen – sonst spricht die Wirtschaftlichkeit dagegen.
Treiber 1 – Sehr hohes, planbares Volumen
Dauerhafte, gleichmäßig hohe Auslastung (Richtwert ab ~10–30 Mio. Token/Tag bzw. 80 %+ GPU-Auslastung). Typisch bei Produkt-Features mit Massennutzung, großvolumiger Dokumentenverarbeitung oder Batch-Inferenz – nicht bei interner Entwickler-Nutzung.
Treiber 2 – Harte Datensouveränität / Regulatorik
Wenn Daten das eigene Haus rechtlich nicht verlassen dürfen. Relevant vor allem für Gesundheitswesen, Finanzsektor, Behörden, Verteidigung, kritische Infrastruktur und Mandanten- bzw. Berufsgeheimnisträger. Hier ist Self-Hosting oft die Entscheidung, obwohl es teurer ist – nicht weil es günstiger ist.
Wichtig zur Einordnung: Seriöse Anbieter trainieren im Enterprise- und API-Tier per Default nicht auf Kundendaten und schließen Auftragsverarbeitungsverträge (AVV/DPA) ab. „Datenschutz" allein ist also kein automatisches Argument fürs eigene Rechenzentrum – die eigentliche Trennlinie ist die EU-Datenresidenz und der Schutz vor Drittstaaten-Zugriff (z. B. US CLOUD Act).
Ab dem 2. August 2026 gilt die EU-KI-Verordnung (AI Act) vollständig; Hochrisiko-Systeme müssen dann die strengen Anforderungen erfüllen. Self-Hosting kann die Compliance vereinfachen, ersetzt aber weder Risikoklassifizierung noch Datenschutz-Folgenabschätzung.
Treiber 3 – Latenz & vollständige Kontrolle
Self-Hosting liefert niedrigere, konstantere Antwortzeiten und volle Kontrolle über Modellversionen und Verfügbarkeit. Der Preis dafür: Updates, Skalierung und Ausfallsicherheit muss das Unternehmen selbst leisten – Leistungen, die eine API automatisch mitliefert.
Entscheidungslogik: Trifft KEINER der drei Treiber klar zu → API. Trifft Treiber 2 oder 1 zu UND die Voraussetzungen aus Kapitel 5 sind erfüllt → lokales bzw. souveränes Setup ernsthaft prüfen. In den meisten Fällen ist eine Hybrid-Architektur die beste Antwort: sensible Daten lokal, der Rest über die API.
5. Voraussetzungen, die ein Unternehmen mitbringen muss
Self-Hosting ist kein Kauf, sondern ein Dauerbetrieb. Bevor eine Investitionsentscheidung fällt, sollten diese Voraussetzungen ehrlich geprüft werden. Fehlen mehrere, ist das Vorhaben absehbar teuer und riskant.
Organisatorisch & personell
- Betriebskompetenz: mindestens eine Person mit MLOps-/Infrastruktur-Kompetenz, die GPU-Server, Inferenz-Stack (z. B. vLLM), Treiber und Monitoring beherrscht – und Vertretung für Urlaub/Krankheit.
- Bereitschaft & Eskalation: Wer reagiert, wenn die GPU am Samstag um 2 Uhr ausfällt? Ohne klare Zuständigkeit und Reaktionszeit ist Produktivbetrieb nicht seriös möglich.
- Kontinuität: Updates, Modellwechsel und Patches müssen eingeplant sein – nicht „nebenbei" durch ohnehin ausgelastete Entwickler.
Technisch & räumlich
- Stellfläche & Kühlung: klimatisierter Serverraum oder Colocation mit ausreichender Kühlung und sauberem PUE; ein normaler Büro-Abstellraum genügt nicht.
- Strom: ausreichend abgesicherte, idealerweise redundante Stromversorgung (USV); die GPU-Last ist erheblich und dauerhaft.
- Netz & Storage: schnelle Anbindung sowie Speicher für große Modelldateien – ein 70B-Modell belegt je nach Präzision 40–140 GB.
Finanziell & strategisch
- Investitionshorizont: Bereitschaft, mehrere zehntausend Euro über drei Jahre zu binden, mit dem Wissen, dass sich das oft erst über Souveränität, nicht über Kosten rechtfertigt.
- Belastbarer Bedarf: ein gemessenes, dauerhaft hohes Token-Volumen ODER eine klare regulatorische Notwendigkeit – nicht nur ein Bauchgefühl.
- Abschreibungs- & Upgrade-Plan: Self-Hosting bindet sich an eine Hardware-Generation; A100 ist 2026 bereits Vorgänger-Technik und verliert weiter an Wert. Eine bewusste Re-Investitionsstrategie gehört dazu.
Selbsttest: Können Sie für jeden Punkt oben einen konkreten Verantwortlichen und ein konkretes Budget benennen? Wenn nicht, ist das Unternehmen für Self-Hosting noch nicht bereit – und sollte mit API oder souveränem EU-Hosting starten.
6. Der oft übersehene Mittelweg
Zwischen „US-API" und „eigenes Blech im Keller" liegt 2026 ein breites, ausgereiftes Spektrum, das die meisten Souveränitätsanforderungen erfüllt, ohne die Betriebslast eines eigenen Rechenzentrums:
- Souveräne EU-Cloud: Open-Weight-Modelle (Llama, Mistral, Qwen u. a.) auf gemieteten EU-GPUs – Datenresidenz in der EU ohne eigene Hardware.
- Souveräne Tenants: Anbieter mit EU-eigener Konzernstruktur und ausschließlich EU-Personal im Betrieb, teils mit Hardware-Isolation gegen Provider-Zugriff – die höchste Stufe für Behörden und kritische Infrastruktur.
- Hybrid: sensible bzw. personenbezogene Daten lokal oder souverän, allgemeine Aufgaben über die leistungsstärkste API. In der Praxis häufig die wirtschaftlichste und sicherste Lösung.
Für die meisten mittelständischen Unternehmen ist 2026 der Einkauf („Buy") im Enterprise-Tier die rationale Wahl: schnellste Einführung, kaum Hardware-Investition, vertragliche DSGVO-Zusagen. Eigenes Hosting lohnt erst bei sehr hohem Volumen oder harten Souveränitätsanforderungen.
7. Entscheidungs-Schema in vier Schritten
- Volumen messen: Über mehrere Wochen das reale Token-Volumen erfassen. Ohne diese Zahl ist jede Hardware-Entscheidung ein Blindflug.
- Regulatorik klären: Müssen die Daten das Haus rechtlich verlassen dürfen? Falls nein → souveränes EU-Hosting oder lokal. Falls ja → API mit AVV und EU-Datenresidenz genügt meist.
- Break-even prüfen: Liegt das Volumen dauerhaft über der Break-even-Schwelle UND die Auslastung über ~80 %? Nur dann spricht die reine Wirtschaftlichkeit für lokal.
- Betriebsfähigkeit prüfen: Sind die Voraussetzungen aus Kapitel 5 (Personal, Raum, Strom, Budget, Upgrade-Plan) erfüllt? Wenn nicht, ist Self-Hosting verfrüht.
Bottom line: Lokales Hosting ist 2026 für die wenigsten Unternehmen die günstigere Option – aber für manche die einzig mögliche. Die Entscheidung fällt über Volumen und Datensouveränität, nicht über den Preis einer Grafikkarte. Wer keinen der drei Treiber klar erfüllt oder die Betriebsvoraussetzungen nicht mitbringt, fährt mit API oder souveränem EU-Hosting günstiger, schneller und sicherer.
Quellen & weiterführende Übersichten
Alle Preis- und Schwellenwerte sind Größenordnungen mit Stand Frühjahr/Sommer 2026. GPU-Preise, Cloud-Tarife und API-Raten verschieben sich laufend – vor einer Budgetentscheidung an den jeweiligen Anbieter-Preisseiten verifizieren.
- SitePoint – Local LLMs vs Cloud APIs: 2026 TCO Analysis
- SitePoint – Open-Source vs Commercial LLMs (2026)
- Spheron – LLM Inference On-Premise vs GPU Cloud: 2026 Break-Even
- DevTk.AI – Self-Host LLM vs API: Real Cost Breakdown 2026
- getdeploying – A100 Cloud Pricing (Live-Vergleich 38+ Anbieter)
- Digital Maker – Corporate LLM Build vs. Buy 2026 (Mittelstand)
- AiLoft – EU AI Hosting Provider 2026 (souveräne Cloud im Vergleich)
- anwalt.de – KI im Unternehmen rechtssicher nutzen: AI Act, DSGVO (2026)
Brauchst du Unterstützung?
Stehst du vor der Entscheidung „selbst hosten oder per API einkaufen?" und willst sie auf Zahlen statt auf Bauchgefühl stützen? Wir helfen Unternehmen, ihr echtes Token-Volumen zu messen, den Break-even ehrlich zu rechnen und eine Architektur zu wählen, die zu ihren Datenschutz- und Souveränitätsanforderungen passt - lokal, souverän in der EU oder hybrid. Melde dich über unsere Kontaktseite, und wir gehen es gemeinsam an.
Wie löst du die Frage zwischen Self-Hosting und API in deinem eigenen Unternehmen? Wir bei vensas tauschen uns gerne darüber aus.

