#Gemma

1 post with this tag

Trouvé 1 article

2026-06-08

Gemma local était trop lent avec AIdaemon jusqu'à ce que je corrige llama.cpp et la taille du prompt

Je voulais AIdaemon sur Gemma 4 26B local via llama.cpp, pas Ollama. La génération tournait à ~45 tok/s sur un M4 Pro. Les tours d'agent semblaient toujours bloqués car le préremplissage sur des prompts de 14k tokens prenait 8 à 9 secondes avant que le modèle n'écrive un seul mot.

aisoftware-developmentopen-source

Recevez les derniers articles et analyses directement dans votre boîte de réception.

Unsubscribe anytime. No spam, ever.

Blog archive

#Gemma

Gemma local était trop lent avec AIdaemon jusqu'à ce que je corrige llama.cpp et la taille du prompt

Restez Informé