Wie viel AI kann ich mir leisten?

Nach meinem letzten Anthropic-Post war der emotionale Teil erledigt. Kündigen, meckern, bisschen dramatisch aus dem Fenster schauen. Alles gut.

Danach kam aber die nervigere Frage:

Wenn ich nicht mehr auf Subscription-Magie bauen will, wie viel LLM kann ich mir mit ungefähr demselben Budget überhaupt noch leisten?

Nicht als Bauchgefühl. Nicht als „AI wird bestimmt eh billiger“. Sondern mit meinem echten Claude-Code-Verbrauch aus den letzten 30 Tagen.

Der absurde Vergleich

Dann stolperte ich über Peter Steinbergers CodexBar-Screenshot. Da standen sinngemäß 1,3 Millionen Dollar Tokenkosten. Nicht als echte Rechnung, sondern als API-Äquivalent hinter irgendeiner sehr großzügigen Subscription-Welt.

Und ja, absurd. Schön für ihn. Aber ich bin nicht Peter Steinberger und mein Budget ist nicht „lol, siebenstellig“.

Meine Frage ist kleiner und langweiliger, aber für mich viel relevanter: Was geht mit ungefähr 100 Dollar im Monat?

CodexBar-Screenshot mit 1,3 Millionen Dollar API-äquivalenten Tokenkosten in 30 Tagen

Screenshot: CodexBar zeigt 1.305.088,81 Dollar 30d spend und 603B Tokens.

Originalpost auf X

By the way, CodexBar ist ein echt cooles Tool, um auf dem Mac zu überprüfen, wie viel die eigene Nutzung API-äquivalent kosten würde beziehungsweise wie viel Usage man noch in seiner Subscription übrig hat. Dafür kann man Peter schon danken. Ich finde es ziemlich sinnvoll, so ein Tool zu haben, weil diese ganzen Subscription-Kosten sonst einfach im Nebel verschwinden.

Meine 30 Tage Claude-Code-Nutzung

Also habe ich nicht versucht, das theoretisch zu schätzen, sondern meine lokalen Claude-Code-Sessions ausgewertet. Claude Code legt Sessiondaten lokal ab, und darin stecken genug Informationen, um Tokenverbrauch und API-äquivalente Kosten grob zurückzurechnen.

Daraus ist eine kleine CLI entstanden: claude-costs. Nicht hübsch, nicht wissenschaftlich perfekt, aber genau für diese Frage gebaut: Was hätte meine Nutzung ohne Subscription gekostet, und welche Modelle passen noch in mein Budget?

Ihr findet das Tool hier: mrsOwlex/claude-costs

Für diesen Post habe ich 30 Tage ausgewertet, vom 25. April bis 24. Mai 2026. In dem Zeitraum lagen lokal 861 Session-Dateien herum, zusammen ungefähr 310 MB. Daraus wurden 5.612 deduplizierte Requests.

Das Ergebnis war schon ein bisschen aua:

ca. 741K uncached Input Tokens
ca. 3,0M Output Tokens
ca. 401,9M Cache Read Tokens
ca. 56,6M Cache Write Tokens
insgesamt ca. 462,2M Tokens

Nach Anthropic-API-Preisen läge dieser Trace bei ungefähr 814,52 Dollar für den Monat.

Wichtig: Das heißt nicht, dass ich jeden Monat 462 Millionen komplett neue Tokens in die Gegend werfe. Der größte Teil davon ist Cache. Aber genau das ist bei Agentic Coding halt Teil der Kostenrealität. Der Agent liest Kontext, behält Kontext, benutzt Kontext wieder, iteriert, ruft Tools auf, macht Quatsch, korrigiert Quatsch. Ohne Cache wäre das komplett absurd teuer. Mit Cache ist es nur noch „haha, aua“.

Was passt noch in 100 Dollar?

Danach habe ich denselben Trace gegen OpenRouter-Preise gerechnet. Ein korrekter Benchmark ist das nicht. Aber es gibt mir ein Bauchgefühl und einen Realitätsanker. Ich sage damit nicht: Dieses Modell kann meinen Workflow genauso gut. Ich preise nur dieselbe beobachtete Token-Spur gegen andere Modellpreise.

Da wird es interessant. Viele Premium-Modelle fallen sofort raus. Claude Sonnet 4.6 läge in dieser Rechnung deutlich über meinem 100-Dollar-Budget. Claude Opus sowieso. GPT-5.5 auch.

Aber einige Modelle landen plötzlich in einem Bereich, der für meine Frage relevant ist. DeepSeek V4 Pro kommt in meiner Rechnung auf ungefähr 35 bis 105 Dollar im Monat. Also nicht eindeutig „passt locker“, sondern eher: könnte passen, wenn Cache und Agent-Verhalten halbwegs ähnlich bleiben. Gemini Flash, Qwen Coder Flash, GPT-5 Mini und ein paar andere liegen ebenfalls in Bereichen, die nicht komplett absurd sind.

Mein Take

Für mich ist das nicht nur eine lustige Tokenrechnung. Ich bin nach dem Anthropic-Cut erstmal auf eine OpenAI-Subscription gewechselt. Das ist gerade der pragmatische Weg. Aber es löst die eigentliche Frage nicht dauerhaft.

Denn auch da gilt: Wenn ich Agentic Workflows ernsthaft nutze, muss ich wissen, in welchem Rahmen ich mich bewege. Ich nutze AI nicht nur als Chatfenster. Ich habe persönliche Agents, Hintergrund-Workflows, Coding-Assistants, Dinge, die längere Aufgaben übernehmen sollen. Natürlich erzeugt das hohe Usage. Genau deswegen will ich nicht erst dann auf die Kosten schauen, wenn irgendeine Subscription-Grenze verschoben wird.

Und ich glaube, das ist nicht nur mein privates Nerd-Problem. Im Teamkontext sieht man die gleiche Bewegung. Leute tasten sich an Agentic Tooling ran, erst kleine Aufgaben, dann größere Refactorings, dann Reviews, dann Automatisierungen. Am Anfang fühlt sich das nach „wir haben ja eh die Subscription“ an. Aber sobald solche Workflows auf echte API-Preise laufen, wird die Frage sehr banal: Ist das Ergebnis gut genug, dass wir die Tokenrechnung dafür wirklich zahlen wollen? Oder sind Menschen an der Stelle vielleicht doch einfach besser?

Genau dafür wollte ich claude-costs bauen. Nicht weil die Rechnung perfekt ist, sondern weil „keine Ahnung, wird schon passen“ halt eine schlechte Kostenstrategie ist.

Wenn ihr euer Budget nicht einfach erhöhen wollt, könnt ihr zumindest nachschauen: Was kostet unser aktueller Workflow ungefähr? Welche Modelle wären realistisch? Und wo ist die Grenze zwischen „hilft uns wirklich“ und „wir verbrennen Tokens, weil es sich gerade kostenlos anfühlt“?

Anthropic hat mich mit der Agent-SDK-Änderung schon ziemlich deutlich daran erinnert, dass nicht jede Nutzung dauerhaft in einer Subscription bleiben wird (Goodbye Anthropic). Wenn ich also meine Automatisierung nicht auf Gutscheinen und Marketing-Flatrates bauen will, muss ich wissen, was die Nutzung ohne diese Rabatte kostet, welche Alternativen realistisch sind und ob sie es qualitativ überhaupt wert wären.

Ich will nicht weniger AI nutzen. Ich will nur wissen, wie viel AI ich mir leisten kann, ohne mich selbst anzulügen.