#Gemma

1 post with this tag

Gefunden 1 Beitrag

2026-06-08

Lokales Gemma war zu langsam mit AIdaemon, bis ich llama.cpp und die Prompt-Größe optimierte

Ich wollte AIdaemon auf lokalem Gemma 4 26B über llama.cpp, nicht Ollama. Die Generierung lief mit ~45 tok/s auf einem M4 Pro. Agenten-Turns fühlten sich immer noch träge an, da das Prefill bei 14k-Token-Prompts 8 bis 9 Sekunden dauerte, bevor das Modell ein einziges Wort schrieb.

aisoftware-developmentopen-source

Erhalten Sie die neuesten Beiträge und Einblicke direkt in Ihren Posteingang.

Unsubscribe anytime. No spam, ever.

Blog archive

#Gemma

Lokales Gemma war zu langsam mit AIdaemon, bis ich llama.cpp und die Prompt-Größe optimierte

Auf dem Laufenden bleiben