Skip to main content
David Loor
Über michServicesProjekteBlogKontakt
←Back to Blog

#Gemma

1 post with this tag

Gefunden 1 Beitrag
2026-06-08
13 min read

Lokales Gemma war zu langsam mit AIdaemon, bis ich llama.cpp und die Prompt-Größe optimierte

Ich wollte AIdaemon auf lokalem Gemma 4 26B über llama.cpp, nicht Ollama. Die Generierung lief mit ~45 tok/s auf einem M4 Pro. Agenten-Turns fühlten sich immer noch träge an, da das Prefill bei 14k-Token-Prompts 8 bis 9 Sekunden dauerte, bevor das Modell ein einziges Wort schrieb.

aisoftware-developmentopen-source

Auf dem Laufenden bleiben

Erhalten Sie die neuesten Beiträge und Einblicke direkt in Ihren Posteingang.

Unsubscribe anytime. No spam, ever.

Blog archive
  • Lokales Gemma war zu langsam mit AIdaemon, bis ich llama.cpp und die Prompt-Größe optimierte
David Loor

AI, Cloud & Web Solutions Architect

AboutServicesProjectsBlogBookshelf

© 2026 David Loor. All rights reserved.

davo20019@gmail.com