#Local Llm

3 posts with this tag

找到 3 篇文章

我的代理总是忘记已保存的事实

AIdaemon 可以保存一个事实，然后在我询问时找不到它。语义搜索根据同一主题进行排名，因此包含真正答案的简短事实会被附近更冗长的内容所掩盖。一个重排器会根据问题逐个候选地阅读，并将正确的一个重新排到顶部。

我想在本地 Gemma 4 26B 上通过 llama.cpp 运行 AIdaemon，而不是 Ollama。在 M4 Pro 上，生成速度约为 45 token/s。由于 14k token 的提示词预填充需要 8 到 9 秒才能让模型写出第一个字，代理回合仍然感觉很卡顿。

了解如何在你的电脑上直接运行开源人工智能模型（LLM）。无需云服务，无需订阅，完全保护隐私。一份使用 llama.cpp 的初学者指南。

将最新文章和见解发送到您的收件箱。

Unsubscribe anytime. No spam, ever.

Blog archive