#Gemma

1 post with this tag

找到 1 篇文章

本地 Gemma 在 AIdaemon 上运行缓慢，直到我修复了 llama.cpp 和提示词大小

我想在本地 Gemma 4 26B 上通过 llama.cpp 运行 AIdaemon，而不是 Ollama。在 M4 Pro 上，生成速度约为 45 token/s。由于 14k token 的提示词预填充需要 8 到 9 秒才能让模型写出第一个字，代理回合仍然感觉很卡顿。

将最新文章和见解发送到您的收件箱。

Unsubscribe anytime. No spam, ever.

Blog archive