Skip to main content
David Loor
Acerca deServiciosProyectosBlogContacto
←Back to Blog

#Gemma

1 post with this tag

Encontrado 1 publicación
2026-06-08
13 min read

Gemma local era demasiado lento con AIdaemon hasta que arreglé llama.cpp y el tamaño del prompt

Quería AIdaemon en Gemma 4 26B local a través de llama.cpp, no Ollama. La generación se ejecutaba a ~45 tok/s en un M4 Pro. Los turnos del agente aún se sentían atascados porque el prefill en prompts de 14k tokens tardaba de 8 a 9 segundos antes de que el modelo escribiera una sola palabra.

aisoftware-developmentopen-source

Mantente Actualizado

Recibe las últimas publicaciones e ideas directamente en tu bandeja de entrada.

Unsubscribe anytime. No spam, ever.

Blog archive
  • Gemma local era demasiado lento con AIdaemon hasta que arreglé llama.cpp y el tamaño del prompt
David Loor

AI, Cloud & Web Solutions Architect

AboutServicesProjectsBlogBookshelf

© 2026 David Loor. All rights reserved.

davo20019@gmail.com