返回博客

如何在你的电脑上运行开源大语言模型(AI)?

2025-11-019 min read

我设置了一个完全在我的电脑上运行的AI助手。无需联网。不向云端发送任何数据。

如果你一直好奇如何运行自己的AI,但又认为这需要计算机科学学位,那么我有个好消息要告诉你:这比你想象的要容易。

为什么要使用本地LLM(AI)?

在深入探讨如何操作之前,我们先来谈谈为什么。在本地运行LLM(AI)有一些真正的优势:

  • 隐私:您的对话永远不会离开您的计算机。没有任何公司会存储、分析或基于您的数据进行训练。
  • 无需互联网:设置完成后,您可以在任何地方使用您的AI:在飞机上、在WiFi信号不佳的咖啡馆里,或者在荒郊野外。
  • 免费:初始设置后,没有订阅费或API费用。
  • 完全由您掌控:您控制一切。没有速率限制,没有内容过滤器,没有服务条款变更。

您需要什么

以下是我开始所需的东西(您也需要这些):

  • 一台相当现代的电脑(Windows、Mac或Linux)
  • 大约30分钟的时间
  • 大约4-8 GB的可用磁盘空间(取决于您选择的模型)

就是这些。不需要昂贵的GPU,尽管如果您有GPU,运行速度会更快。

什么是llama.cpp?

在深入了解安装过程之前,让我解释一下我们实际上要安装的是什么。

llama.cpp 是一款允许您在计算机上运行大型语言模型(AI)的软件。可以将其视为使一切正常工作的引擎。这些模型只是数据文件,就像视频或音乐文件一样。llama.cpp 是知道如何使用它们的播放器。

它是开源的、免费的,并且正在积极维护中。它适用于Mac、Windows和Linux,并且即使在没有花哨显卡的普通计算机上也能快速运行。

安装

安装llama.cpp最简单的方法是通过包管理器。

如果您使用的是Mac或Linux

打开终端并输入:

brew install llama.cpp

这就是安装过程。真的。

如果您使用的是Windows

打开PowerShell并运行:

winget install llama.cpp

运行您的第一个AI模型

这是令人兴奋的部分。您无需手动下载模型文件或弄清楚将它们放在哪里。该工具会为您完成所有操作。

以下是启动与AI聊天的命令:

llama-cli -hf bartowski/Llama-3.2-3B-Instruct-GGUF:Q8_0

这会从Hugging Face下载并运行Llama 3.2 3B模型

让我用通俗的语言解释一下这个命令的作用:

  • llama-cli 启动聊天界面
  • -hf 告诉它从Hugging Face(一个LLM存储库)下载
  • bartowski/Llama-3.2-3B-Instruct-GGUF:Q8_0 是要使用的特定模型

模型标识符包含三个部分,由斜杠和冒号分隔:

  • bartowski 是上传者在Hugging Face上的用户名
  • Llama-3.2-3B-Instruct-GGUF 是包含模型的存储库名称
  • Q8_0 是特定的量化版本(质量与大小的权衡)

当您运行此命令时,模型会自动下载(首次运行时可能需要几分钟),然后您就可以开始聊天了。输入您的问题,AI就会在您的终端中直接回复。

如何查找和使用不同的模型

我上面提到的模型(Llama 3.2)是一个很好的起点。它相对较小且速度快,即使在普通硬件上也是如此。但还有数百种其他模型可供您尝试。

在Hugging Face上查找模型

GGUF 是llama.cpp使用的文件格式。Hugging Face上的模型有不同的格式,但llama.cpp专门需要GGUF文件。

访问huggingface.co/models并搜索GGUF。寻找名称以-GGUF结尾的存储库。

当您找到想要尝试的模型时,点击它并查找存储库名称。例如,如果您看到bartowski/Qwen2.5-7B-Instruct-GGUF,您可以运行:

llama-cli -hf bartowski/Qwen2.5-7B-Instruct-GGUF:Q8_0

选择模型的提示:

  • 数字越小 = 速度越快,但能力越弱:3B模型比7B模型快,7B模型比13B模型快。该数字指的是模型的参数量(十亿)。
  • 在名称中寻找“Instruct”或“Chat”:这些模型专门针对对话进行了训练。
  • :Q8_0 部分:这是量化级别。Q8_0是质量和大小的良好平衡。Q4_0更小/更快,但质量略低。

更进一步:运行AI服务器

一旦您熟悉了基本聊天,就可以通过将AI作为服务器运行来升级。这允许您通过Web浏览器与其聊天,并将其用于其他应用程序。

运行此命令:

llama-server -hf bartowski/Llama-3.2-3B-Instruct-GGUF:Q8_0

您将看到类似以下的输出:

main: server is listening on http://127.0.0.1:8080 - starting the main loop

现在在您的Web浏览器中打开http://127.0.0.1:8080(或http://localhost:8080)。您将看到一个聊天界面,您可以在其中直接从浏览器与AI对话。无需额外软件。

llama.cpp web interface showing a clean chat interface with dark theme

该服务器还可与任何支持OpenAI API格式的应用程序配合使用。这意味着您可以使用以下工具:

  • Continue.dev(VS Code中的AI编码助手)
  • Open WebUI(类似ChatGPT的界面)
  • 任何支持自定义API端点的其他应用程序

模型存储在哪里

当您运行这些命令时,模型会自动下载到缓存文件夹中。默认情况下,它位于您的主目录下的.cache/llama.cpp中。

如果您想更改模型的存储位置,可以设置一个环境变量:

# 在Mac/Linux上
export LLAMA_CACHE=/path/to/your/cache

# 在Windows (PowerShell)上
$env:LLAMA_CACHE="C:\path\to\your\cache"

性能如何?

以下是我对性能的了解:

  • 在较新的Mac(M1/M2/M3/M4)上:模型运行速度非常快。M系列芯片具有内置的AI加速功能。
  • 在带有不错GPU的Windows/Linux上:也很快。如果您有NVIDIA GPU,llama.cpp会自动使用它。
  • 在没有GPU的旧电脑或笔记本电脑上:仍然可用!只需坚持使用较小的模型(3B或7B),并期望响应速度较慢。

作为参考,在我的M4 Pro(48GB RAM)上,一个3B模型以大约每秒60-65个token的速度生成文本。这快到足以让人感觉像是一次真正的对话。

llama.cpp与Ollama与vLLM的比较

您可能听说过Ollama或vLLM等其他工具。以下是它们的比较方式:

Ollama

Ollama 构建在llama.cpp之上。它增加了更简单的界面和自动模型管理,但这种便利是以性能开销为代价的。在我使用48GB RAM的M4 Pro Mac上的测试中,llama.cpp运行相同模型的速度比Ollama快一个数量级。

如果您追求极致性能,并且不介意使用命令行,请坚持使用llama.cpp。如果您更喜欢简单的模型管理,并且可以接受稍慢的速度,Ollama也能很好地工作。

vLLM

vLLM 不支持macOS。它仅限Linux,专为具有多个GPU的高吞吐量服务器部署而设计。如果您使用的是Mac,它就不是一个选项。

底线

对于Mac用户,尤其是Apple Silicon(M1/M2/M3/M4)用户来说,llama.cpp是最佳选择。它是最快的选项,并具有原生的Metal加速功能。如果您想要更简单的管理,Ollama也不错。vLLM在Mac上不可用。

您可能有的问题

这合法吗?

是的。Hugging Face上的模型是开源的,可以免费使用。许多模型由Meta(Facebook)、Mistral AI和其他明确允许个人和商业用途的组织发布。

这会减慢我的电脑速度吗?

当AI运行时,它会使用CPU/GPU资源。但当您关闭它时,一切都会恢复正常。这就像运行任何其他应用程序一样。

我可以在工作中使用它吗?

这取决于您公司的工作政策。由于所有内容都在本地运行,并且您的数据不会离开您的机器,因此它通常比云AI更安全。但请先与您的IT部门核实。

我需要联网吗?

只需要下载模型时才需要联网。之后,所有内容都可以完全离线工作。

我的体验

我一直在使用我的本地AI,我印象深刻。它的能力还不能完全与GPT-5、Claude Sonnet 4.5或Gemini 2.5匹敌,但对于许多任务(撰写电子邮件、集思广益、回答问题)来说,它绰绰有余。

我最欣赏的是隐私方面。我的对话都保留在我的机器上。没有数据发送到外部服务器。没有训练数据集被输入到别处。这使得它在处理机密信息方面比云AI更适合,尽管您仍应遵守您组织的安保政策。

它完美吗?不。如果我运行一个较大的模型,响应有时会变慢。而且质量还未达到顶级云AI的水平。但是,对于一个免费、私密、随时可用的助手来说?我接受这种权衡。

保持更新

在您的收件箱中获取最新的文章和见解。

Unsubscribe anytime. No spam, ever.