DeepSeek-R1 本地部署完整教程：零成本运行顶级推理模型

用 Ollama 在 Mac/Linux/Windows 上跑 DeepSeek-R1，完全离线，数据不出本地

入门约 25 分钟

DeepSeek-R1 本地部署完整教程：零成本运行顶级推理模型

用 Ollama 在 Mac/Linux/Windows 上跑 DeepSeek-R1，完全离线，数据不出本地

DeepSeek-R1 是目前性价比最高的开源推理模型，数学和代码能力与 OpenAI o1 相当，但完全免费开源。本教程手把手带你在本地机器上部署 DeepSeek-R1，接入 Cursor/VS Code，实现零 API 费用的私有 AI 编程助手。

DeepSeekR1Ollama本地部署开源模型隐私安全零成本

DeepSeek-R1 本地部署完整教程

适用系统：macOS 12+、Ubuntu 20.04+、Windows 11（WSL2）

最低配置：8GB 内存（运行 7B 版本）；推荐 32GB 内存（运行 70B 版本）

为什么选择 DeepSeek-R1？

2025 年 1 月，DeepSeek-R1 的发布震惊了整个 AI 行业：

性能：数学、代码、逻辑推理能力与 OpenAI o1 相当

成本：训练成本仅为 o1 的 3%，API 价格仅为 OpenAI 的 1/20

开源：MIT 协议完全开源，可本地运行，数据不出门

规模：从 1.5B 到 671B 参数，适配从笔记本到服务器的各种硬件

本地部署 vs 云端 API

本地部署（Ollama）云端 API（DeepSeek.com）

成本一次配置，永久免费按 Token 计费隐私✅ 数据完全不出本地❌ 数据上传服务器速度取决于硬件（M3 MacBook 约 30 tok/s）稳定快速离线使用✅ 断网可用❌ 需要网络模型大小受本地内存限制可调用最大模型

第一步：安装 Ollama

Ollama 是目前最简单的本地大模型运行工具，支持 100+ 开源模型。

macOS

bash
方式 1：官网下载安装包（推荐新手）
访问 https://ollama.ai 下载 .dmg 文件，双击安装
方式 2：命令行安装
brew install ollama

Linux

bash
curl -fsSL https://ollama.ai/install.sh | sh

Windows（WSL2）

bash
先安装 WSL2，然后在 WSL 终端里运行：
curl -fsSL https://ollama.ai/install.sh | sh

验证安装：

bash
ollama --version
输出类似：ollama version 0.5.x

第二步：选择适合你的 DeepSeek-R1 版本

根据你的内存/显存选择合适的版本：

版本模型大小最低内存推荐场景

deepseek-r1:1.5b~1GB4GB轻量测试 deepseek-r1:7b~4.7GB8GB日常使用（推荐入门） deepseek-r1:14b~9GB16GB更强推理能力 deepseek-r1:32b~20GB32GB接近云端质量 deepseek-r1:70b~43GB64GB最强本地版本

第三步：下载并运行模型

bash
下载并直接运行（第一次需要下载，约几分钟到几十分钟）
ollama run deepseek-r1:14b
或者先下载，后运行
ollama pull deepseek-r1:14b
ollama run deepseek-r1:14b

成功后会看到命令行交互界面：


>>> 帮我写一个快速排序算法

用户想要一个快速排序算法...
这里是 Python 实现的快速排序：def quicksort(arr):
    if len(arr) <= 1:
        return arr
    pivot = arr[len(arr) // 2]
    ...

💡 R1 的特色：你会看到 ... 标签，这是模型在推理过程中的"思考链"，DeepSeek-R1 会把推理过程展示出来。

退出对话：输入 /bye 或按 Ctrl+D

第四步：常用管理命令

bash
查看已下载的模型
ollama list
删除模型（释放磁盘空间）
ollama rm deepseek-r1:1.5b
在后台运行 Ollama 服务（API 模式）
ollama serve
查看运行中的模型
ollama ps
更新模型到最新版本
ollama pull deepseek-r1:14b

第五步：接入 Cursor（AI 编程助手）

Ollama 提供了兼容 OpenAI API 的接口，可以无缝接入 Cursor：

打开 Cursor → Settings（齿轮图标） → Models

点击 Add Model，填入：

- Base URL: http://localhost:11434/v1 - Model name: deepseek-r1:14b - API Key: ollama（任意填写，本地不验证）

在 Chat 面板顶部选择 deepseek-r1:14b 为当前模型

测试：输入"帮我优化这段代码的性能"

第六步：接入 VS Code（Continue 插件）

Continue 是 VS Code 最好的 AI 编程插件，原生支持 Ollama：

安装 Continue 插件

编辑 ~/.continue/config.json：

json
{
  "models": [
    {
      "title": "DeepSeek-R1 14B (Local)",
      "provider": "ollama",
      "model": "deepseek-r1:14b",
      "apiBase": "http://localhost:11434"
    }
  ],
  "tabAutocompleteModel": {
    "title": "DeepSeek-R1 1.5B (Fast)",
    "provider": "ollama",
    "model": "deepseek-r1:1.5b"
  }
}

💡 技巧：用大模型做对话（14B），用小模型做 Tab 补全（1.5B），速度更快，体验更好。

第七步：通过 API 使用（高级）

Ollama 启动后在 http://localhost:11434 提供 OpenAI 兼容的 API：

python
from openai import OpenAI
指向本地 Ollama
client = OpenAI(
    base_url='http://localhost:11434/v1',
    api_key='ollama'  # 任意字符串
)
response = client.chat.completions.create(
    model='deepseek-r1:14b',
    messages=[
        {'role': 'user', 'content': '用 Python 写一个二分查找函数，附带完整测试'}
    ]
)print(response.choices[0].message.content)

性能优化技巧

开启 GPU 加速（如果有独立显卡）

bash
Ollama 自动检测 NVIDIA/AMD GPU，无需额外配置
验证 GPU 是否被使用：
ollama run deepseek-r1:14b
运行后执行：
ollama ps
看到 GPU: NVIDIA GeForce... 表示 GPU 已启用

Apple Silicon 优化

M 系列芯片的统一内存架构对 LLM 推理特别友好，14B 模型速度可达 30-50 tokens/s，接近云端 API 体验。

bash
查看实时速度
ollama run deepseek-r1:14b --verbose

并发请求

Ollama 默认支持并发请求，适合构建多用户应用：

bash
设置最大并发数（默认 1）
OLLAMA_NUM_PARALLEL=4 ollama serve

其他推荐的本地模型

模型特点最适合场景

qwen2.5-coder:7b代码专项，HumanEval 92%代码生成和补全 qwen2.5:14b中文能力极强中文写作和对话 llama3.3:70bMeta 旗舰，通用能力强综合任务（需要 64GB+ 内存） mistral:7b速度极快实时对话和补全 nomic-embed-text文本向量化RAG 知识库

常见问题

Q：模型下载速度很慢怎么办？ A：可以通过镜像加速（国内用户）：

bash
OLLAMA_REGISTRY_URL=https://registry.ollama.ai ollama pull deepseek-r1:14b

或者使用 HuggingFace 镜像手动下载 GGUF 文件后导入。

Q：运行时出现 "context length exceeded" 错误？ A：减小上下文窗口：

bash
ollama run deepseek-r1:14b --context-length 4096

Q：如何让 Ollama 开机自启？

macOS:

bash
brew services start ollama

Linux (systemd):

bash
sudo systemctl enable ollama
sudo systemctl start ollama

Q：DeepSeek-R1 和 DeepSeek-V3 有什么区别？ A：

R1：推理专项模型，有思考过程，适合数学/代码/逻辑问题

V3：通用旗舰模型，速度更快，适合写作/对话/日常任务

编程场景推荐 R1，日常对话推荐 V3（ollama run deepseek-v3:8b）。

Getting Started

Learn how to get started with this application.

Learn more

Installation Guide