DeepSeek-R1 本地部署完整教程:零成本运行顶级推理模型
用 Ollama 在 Mac/Linux/Windows 上跑 DeepSeek-R1,完全离线,数据不出本地
DeepSeek-R1 本地部署完整教程:零成本运行顶级推理模型
用 Ollama 在 Mac/Linux/Windows 上跑 DeepSeek-R1,完全离线,数据不出本地
DeepSeek-R1 是目前性价比最高的开源推理模型,数学和代码能力与 OpenAI o1 相当,但完全免费开源。本教程手把手带你在本地机器上部署 DeepSeek-R1,接入 Cursor/VS Code,实现零 API 费用的私有 AI 编程助手。
DeepSeek-R1 本地部署完整教程
适用系统:macOS 12+、Ubuntu 20.04+、Windows 11(WSL2)
最低配置:8GB 内存(运行 7B 版本);推荐 32GB 内存(运行 70B 版本)
为什么选择 DeepSeek-R1?
2025 年 1 月,DeepSeek-R1 的发布震惊了整个 AI 行业:
本地部署 vs 云端 API
第一步:安装 Ollama
Ollama 是目前最简单的本地大模型运行工具,支持 100+ 开源模型。
macOS
bash
方式 1:官网下载安装包(推荐新手)
访问 https://ollama.ai 下载 .dmg 文件,双击安装
方式 2:命令行安装
brew install ollama
Linux
bash
curl -fsSL https://ollama.ai/install.sh | sh
Windows(WSL2)
bash
先安装 WSL2,然后在 WSL 终端里运行:
curl -fsSL https://ollama.ai/install.sh | sh
验证安装:
bash
ollama --version
输出类似:ollama version 0.5.x
第二步:选择适合你的 DeepSeek-R1 版本
根据你的内存/显存选择合适的版本:
推荐:
deepseek-r1:14bdeepseek-r1:32bdeepseek-r1:70b第三步:下载并运行模型
bash
下载并直接运行(第一次需要下载,约几分钟到几十分钟)
ollama run deepseek-r1:14b或者先下载,后运行
ollama pull deepseek-r1:14b
ollama run deepseek-r1:14b
成功后会看到命令行交互界面:
>>> 帮我写一个快速排序算法
用户想要一个快速排序算法...
这里是 Python 实现的快速排序:
def quicksort(arr):
if len(arr) <= 1:
return arr
pivot = arr[len(arr) // 2]
...
💡 R1 的特色:你会看到 ... 标签,这是模型在推理过程中的"思考链",DeepSeek-R1 会把推理过程展示出来。退出对话:输入 /bye 或按 Ctrl+D
第四步:常用管理命令
bash
查看已下载的模型
ollama list删除模型(释放磁盘空间)
ollama rm deepseek-r1:1.5b在后台运行 Ollama 服务(API 模式)
ollama serve查看运行中的模型
ollama ps更新模型到最新版本
ollama pull deepseek-r1:14b
第五步:接入 Cursor(AI 编程助手)
Ollama 提供了兼容 OpenAI API 的接口,可以无缝接入 Cursor:
http://localhost:11434/v1
- Model name: deepseek-r1:14b
- API Key: ollama(任意填写,本地不验证)deepseek-r1:14b 为当前模型第六步:接入 VS Code(Continue 插件)
Continue 是 VS Code 最好的 AI 编程插件,原生支持 Ollama:
~/.continue/config.json:json
{
"models": [
{
"title": "DeepSeek-R1 14B (Local)",
"provider": "ollama",
"model": "deepseek-r1:14b",
"apiBase": "http://localhost:11434"
}
],
"tabAutocompleteModel": {
"title": "DeepSeek-R1 1.5B (Fast)",
"provider": "ollama",
"model": "deepseek-r1:1.5b"
}
}
💡 技巧:用大模型做对话(14B),用小模型做 Tab 补全(1.5B),速度更快,体验更好。
第七步:通过 API 使用(高级)
Ollama 启动后在 http://localhost:11434 提供 OpenAI 兼容的 API:
python
from openai import OpenAI指向本地 Ollama
client = OpenAI(
base_url='http://localhost:11434/v1',
api_key='ollama' # 任意字符串
)response = client.chat.completions.create(
model='deepseek-r1:14b',
messages=[
{'role': 'user', 'content': '用 Python 写一个二分查找函数,附带完整测试'}
]
)
print(response.choices[0].message.content)
性能优化技巧
开启 GPU 加速(如果有独立显卡)
bash
Ollama 自动检测 NVIDIA/AMD GPU,无需额外配置
验证 GPU 是否被使用:
ollama run deepseek-r1:14b
运行后执行:
ollama ps
看到 GPU: NVIDIA GeForce... 表示 GPU 已启用
Apple Silicon 优化
M 系列芯片的统一内存架构对 LLM 推理特别友好,14B 模型速度可达 30-50 tokens/s,接近云端 API 体验。
bash
查看实时速度
ollama run deepseek-r1:14b --verbose
并发请求
Ollama 默认支持并发请求,适合构建多用户应用:
bash
设置最大并发数(默认 1)
OLLAMA_NUM_PARALLEL=4 ollama serve
其他推荐的本地模型
qwen2.5-coder:7bqwen2.5:14bllama3.3:70bmistral:7bnomic-embed-text常见问题
Q:模型下载速度很慢怎么办? A:可以通过镜像加速(国内用户):
bash
OLLAMA_REGISTRY_URL=https://registry.ollama.ai ollama pull deepseek-r1:14b
或者使用 HuggingFace 镜像手动下载 GGUF 文件后导入。Q:运行时出现 "context length exceeded" 错误? A:减小上下文窗口:
bash
ollama run deepseek-r1:14b --context-length 4096
Q:如何让 Ollama 开机自启?
macOS:
bash
brew services start ollama
Linux (systemd):
bash
sudo systemctl enable ollama
sudo systemctl start ollama
Q:DeepSeek-R1 和 DeepSeek-V3 有什么区别? A:
思考过程,适合数学/代码/逻辑问题编程场景推荐 R1,日常对话推荐 V3(ollama run deepseek-v3:8b)。
相关工具