关于开源、AI、Web 开发和软件构建的思考
AIdaemon 可以保存一个事实,然后在我询问时找不到它。语义搜索根据同一主题进行排名,因此包含真正答案的简短事实会被附近更冗长的内容所掩盖。一个重排器会根据问题逐个候选地阅读,并将正确的一个重新排到顶部。
我想在本地 Gemma 4 26B 上通过 llama.cpp 运行 AIdaemon,而不是 Ollama。在 M4 Pro 上,生成速度约为 45 token/s。由于 14k token 的提示词预填充需要 8 到 9 秒才能让模型写出第一个字,代理回合仍然感觉很卡顿。
通俗易懂地讲解生产级 AI 代理背后的控制平面、工具平面、内存、护栏、子代理和可观测性。
从 ChatGPT 切换到 Claude、Gemini、Grok,或者任何开源模型,都不应该意味着要重新学习如何提示、信任什么、以及可以安全地交出什么。它们底层共享着相同的几个特征,而少数几个相同的习惯可以从它们那里获得好的结果。
Claude Code 具有五个自定义层。选错一个,你就会得到一个永远不会触发的技能、一个执行子代理工作的钩子,或者一个臃肿到在你输入之前就吃掉你一半上下文的 CLAUDE.md。以下是它们各自的归属。
Cloudflare 上的 OpenNext 将 ISR 缓存存储在 KV 中,每次部署都会悄悄地添加一组永不清理的键。以下是我的一个网站如何将每日 KV 存储成本从 0.50 美元降至不到 3 美分。
本周我将 Microsoft Clarity 添加到了我的一个项目中。它是免费的,设置花了十分钟,而且它已经比 Google Analytics 更能告诉我人们是如何使用这个网站的。
我用于并行 AI 编码代理的实际工作流程:每个代理一个 worktree,每个任务一个分支,清晰的文件所有权,受保护的 main 分支,以及通过 AGENTS.md 或 CLAUDE.md 共享的指令。
After a year of building agent workflows, I've learned when CLI makes sense versus when MCP is worth the investment. Here's my decision framework.
withRegionalCache 是 @opennextjs/cloudflare 附带的一个单行包装器。它在您的 KV 缓存前放置了一个 Workers Cache API 层,让您在缓存命中时跳过 D1 标签缓存查找。对于内容网站来说,这相当于每次请求都消耗实际 CPU 与几乎不做任何工作之间的区别。
将最新文章和见解发送到您的收件箱。
Unsubscribe anytime. No spam, ever.