Skip to main content
David Loor
À proposServicesProjetsBlogContact
←Back to Blog

#Gemma

1 post with this tag

Trouvé 1 article
2026-06-08
13 min read

Gemma local était trop lent avec AIdaemon jusqu'à ce que je corrige llama.cpp et la taille du prompt

Je voulais AIdaemon sur Gemma 4 26B local via llama.cpp, pas Ollama. La génération tournait à ~45 tok/s sur un M4 Pro. Les tours d'agent semblaient toujours bloqués car le préremplissage sur des prompts de 14k tokens prenait 8 à 9 secondes avant que le modèle n'écrive un seul mot.

aisoftware-developmentopen-source

Restez Informé

Recevez les derniers articles et analyses directement dans votre boîte de réception.

Unsubscribe anytime. No spam, ever.

Blog archive
  • Gemma local était trop lent avec AIdaemon jusqu'à ce que je corrige llama.cpp et la taille du prompt
David Loor

AI, Cloud & Web Solutions Architect

AboutServicesProjectsBlogBookshelf

© 2026 David Loor. All rights reserved.

davo20019@gmail.com