Skip to main content
David Loor
Chi sonoServiziProgettiBlogContatti
←Back to Blog

#Gemma

1 post with this tag

Trovato 1 articolo
2026-06-08
13 min read

Gemma locale era troppo lento con AIdaemon finché non ho corretto llama.cpp e la dimensione del prompt

Volevo AIdaemon su Gemma locale 4 26B tramite llama.cpp, non Ollama. La generazione avveniva a circa 45 tok/s su un M4 Pro. I turni dell'agente sembravano ancora bloccati perché il prefill su prompt da 14k token richiedeva da 8 a 9 secondi prima che il modello scrivesse una singola parola.

aisoftware-developmentopen-source

Rimani Aggiornato

Ricevi gli ultimi articoli e approfondimenti direttamente nella tua casella di posta.

Unsubscribe anytime. No spam, ever.

Blog archive
  • Gemma locale era troppo lento con AIdaemon finché non ho corretto llama.cpp e la dimensione del prompt
David Loor

AI, Cloud & Web Solutions Architect

AboutServicesProjectsBlogBookshelf

© 2026 David Loor. All rights reserved.

davo20019@gmail.com