#Gemma

1 post with this tag

Encontrado 1 publicación

2026-06-08

Gemma local era demasiado lento con AIdaemon hasta que arreglé llama.cpp y el tamaño del prompt

Quería AIdaemon en Gemma 4 26B local a través de llama.cpp, no Ollama. La generación se ejecutaba a ~45 tok/s en un M4 Pro. Los turnos del agente aún se sentían atascados porque el prefill en prompts de 14k tokens tardaba de 8 a 9 segundos antes de que el modelo escribiera una sola palabra.

aisoftware-developmentopen-source

Recibe las últimas publicaciones e ideas directamente en tu bandeja de entrada.

Unsubscribe anytime. No spam, ever.

Blog archive

#Gemma

Gemma local era demasiado lento con AIdaemon hasta que arreglé llama.cpp y el tamaño del prompt

Mantente Actualizado