#Gemma

1 post with this tag

Trovato 1 articolo

2026-06-08

Gemma locale era troppo lento con AIdaemon finché non ho corretto llama.cpp e la dimensione del prompt

Volevo AIdaemon su Gemma locale 4 26B tramite llama.cpp, non Ollama. La generazione avveniva a circa 45 tok/s su un M4 Pro. I turni dell'agente sembravano ancora bloccati perché il prefill su prompt da 14k token richiedeva da 8 a 9 secondi prima che il modello scrivesse una singola parola.

aisoftware-developmentopen-source

Ricevi gli ultimi articoli e approfondimenti direttamente nella tua casella di posta.

Unsubscribe anytime. No spam, ever.

Blog archive

#Gemma

Gemma locale era troppo lento con AIdaemon finché non ho corretto llama.cpp e la dimensione del prompt

Rimani Aggiornato