#Gemma

1 post with this tag

Gevonden 1 bericht

2026-06-08

Lokale Gemma was te traag met AIdaemon totdat ik llama.cpp en de promptgrootte heb aangepast

Ik wilde AIdaemon op lokale Gemma 4 26B via llama.cpp, niet Ollama. Generatie draaide op ~45 tok/s op een M4 Pro. Agent-beurten voelden nog steeds vastgelopen omdat prefill op 14k-token prompts 8 tot 9 seconden duurde voordat het model een enkel woord schreef.

aisoftware-developmentopen-source

Ontvang de nieuwste berichten en inzichten rechtstreeks in uw inbox.

Unsubscribe anytime. No spam, ever.

Blog archive

#Gemma

Lokale Gemma was te traag met AIdaemon totdat ik llama.cpp en de promptgrootte heb aangepast

Blijf Op de Hoogte