DeepSeek-R1 本地部署完整教程:零成本运行顶级推理模型

用 Ollama 在 Mac/Linux/Windows 上跑 DeepSeek-R1,完全离线,数据不出本地

返回教程列表
入门25 分钟

DeepSeek-R1 本地部署完整教程:零成本运行顶级推理模型

用 Ollama 在 Mac/Linux/Windows 上跑 DeepSeek-R1,完全离线,数据不出本地

DeepSeek-R1 是目前性价比最高的开源推理模型,数学和代码能力与 OpenAI o1 相当,但完全免费开源。本教程手把手带你在本地机器上部署 DeepSeek-R1,接入 Cursor/VS Code,实现零 API 费用的私有 AI 编程助手。

DeepSeekR1Ollama本地部署开源模型隐私安全零成本

DeepSeek-R1 本地部署完整教程

适用系统:macOS 12+、Ubuntu 20.04+、Windows 11(WSL2)
最低配置:8GB 内存(运行 7B 版本);推荐 32GB 内存(运行 70B 版本)


为什么选择 DeepSeek-R1?

2025 年 1 月,DeepSeek-R1 的发布震惊了整个 AI 行业:

  • 性能:数学、代码、逻辑推理能力与 OpenAI o1 相当
  • 成本:训练成本仅为 o1 的 3%,API 价格仅为 OpenAI 的 1/20
  • 开源:MIT 协议完全开源,可本地运行,数据不出门
  • 规模:从 1.5B 到 671B 参数,适配从笔记本到服务器的各种硬件
  • 本地部署 vs 云端 API

    本地部署(Ollama)云端 API(DeepSeek.com)

    成本一次配置,永久免费按 Token 计费 隐私✅ 数据完全不出本地❌ 数据上传服务器 速度取决于硬件(M3 MacBook 约 30 tok/s)稳定快速 离线使用✅ 断网可用❌ 需要网络 模型大小受本地内存限制可调用最大模型


    第一步:安装 Ollama

    Ollama 是目前最简单的本地大模型运行工具,支持 100+ 开源模型。

    macOS

    bash
    

    方式 1:官网下载安装包(推荐新手)

    访问 https://ollama.ai 下载 .dmg 文件,双击安装

    方式 2:命令行安装

    brew install ollama

    Linux

    bash
    curl -fsSL https://ollama.ai/install.sh | sh
    

    Windows(WSL2)

    bash
    

    先安装 WSL2,然后在 WSL 终端里运行:

    curl -fsSL https://ollama.ai/install.sh | sh

    验证安装:

    bash
    ollama --version
    

    输出类似:ollama version 0.5.x


    第二步:选择适合你的 DeepSeek-R1 版本

    根据你的内存/显存选择合适的版本:

    版本模型大小最低内存推荐场景

    deepseek-r1:1.5b~1GB4GB轻量测试 deepseek-r1:7b~4.7GB8GB日常使用(推荐入门) deepseek-r1:14b~9GB16GB更强推理能力 deepseek-r1:32b~20GB32GB接近云端质量 deepseek-r1:70b~43GB64GB最强本地版本

    推荐

  • 普通 MacBook(16GB 统一内存)→ deepseek-r1:14b
  • M3 Max MacBook Pro(32GB)→ deepseek-r1:32b
  • 高性能工作站 → deepseek-r1:70b

  • 第三步:下载并运行模型

    bash
    

    下载并直接运行(第一次需要下载,约几分钟到几十分钟)

    ollama run deepseek-r1:14b

    或者先下载,后运行

    ollama pull deepseek-r1:14b ollama run deepseek-r1:14b

    成功后会看到命令行交互界面:

    
    >>> 帮我写一个快速排序算法

    用户想要一个快速排序算法...

    这里是 Python 实现的快速排序:

    def quicksort(arr): if len(arr) <= 1: return arr pivot = arr[len(arr) // 2] ...

    💡 R1 的特色:你会看到 ... 标签,这是模型在推理过程中的"思考链",DeepSeek-R1 会把推理过程展示出来。

    退出对话:输入 /bye 或按 Ctrl+D


    第四步:常用管理命令

    bash
    

    查看已下载的模型

    ollama list

    删除模型(释放磁盘空间)

    ollama rm deepseek-r1:1.5b

    在后台运行 Ollama 服务(API 模式)

    ollama serve

    查看运行中的模型

    ollama ps

    更新模型到最新版本

    ollama pull deepseek-r1:14b


    第五步:接入 Cursor(AI 编程助手)

    Ollama 提供了兼容 OpenAI API 的接口,可以无缝接入 Cursor:

  • 打开 Cursor → Settings(齿轮图标)Models
  • 点击 Add Model,填入:
  • - Base URL: http://localhost:11434/v1 - Model name: deepseek-r1:14b - API Key: ollama(任意填写,本地不验证)

  • Chat 面板顶部选择 deepseek-r1:14b 为当前模型
  • 测试:输入"帮我优化这段代码的性能"

  • 第六步:接入 VS Code(Continue 插件)

    Continue 是 VS Code 最好的 AI 编程插件,原生支持 Ollama:

  • 安装 Continue 插件
  • 编辑 ~/.continue/config.json
  • json
    {
      "models": [
        {
          "title": "DeepSeek-R1 14B (Local)",
          "provider": "ollama",
          "model": "deepseek-r1:14b",
          "apiBase": "http://localhost:11434"
        }
      ],
      "tabAutocompleteModel": {
        "title": "DeepSeek-R1 1.5B (Fast)",
        "provider": "ollama",
        "model": "deepseek-r1:1.5b"
      }
    }
    

    💡 技巧:用大模型做对话(14B),用小模型做 Tab 补全(1.5B),速度更快,体验更好。


    第七步:通过 API 使用(高级)

    Ollama 启动后在 http://localhost:11434 提供 OpenAI 兼容的 API:

    python
    from openai import OpenAI

    指向本地 Ollama

    client = OpenAI( base_url='http://localhost:11434/v1', api_key='ollama' # 任意字符串 )

    response = client.chat.completions.create( model='deepseek-r1:14b', messages=[ {'role': 'user', 'content': '用 Python 写一个二分查找函数,附带完整测试'} ] )

    print(response.choices[0].message.content)


    性能优化技巧

    开启 GPU 加速(如果有独立显卡)

    bash
    

    Ollama 自动检测 NVIDIA/AMD GPU,无需额外配置

    验证 GPU 是否被使用:

    ollama run deepseek-r1:14b

    运行后执行:

    ollama ps

    看到 GPU: NVIDIA GeForce... 表示 GPU 已启用

    Apple Silicon 优化

    M 系列芯片的统一内存架构对 LLM 推理特别友好,14B 模型速度可达 30-50 tokens/s,接近云端 API 体验。

    bash
    

    查看实时速度

    ollama run deepseek-r1:14b --verbose

    并发请求

    Ollama 默认支持并发请求,适合构建多用户应用:

    bash
    

    设置最大并发数(默认 1)

    OLLAMA_NUM_PARALLEL=4 ollama serve


    其他推荐的本地模型

    模型特点最适合场景

    qwen2.5-coder:7b代码专项,HumanEval 92%代码生成和补全 qwen2.5:14b中文能力极强中文写作和对话 llama3.3:70bMeta 旗舰,通用能力强综合任务(需要 64GB+ 内存) mistral:7b速度极快实时对话和补全 nomic-embed-text文本向量化RAG 知识库


    常见问题

    Q:模型下载速度很慢怎么办? A:可以通过镜像加速(国内用户):

    bash
    OLLAMA_REGISTRY_URL=https://registry.ollama.ai ollama pull deepseek-r1:14b
    
    或者使用 HuggingFace 镜像手动下载 GGUF 文件后导入。

    Q:运行时出现 "context length exceeded" 错误? A:减小上下文窗口:

    bash
    ollama run deepseek-r1:14b --context-length 4096
    

    Q:如何让 Ollama 开机自启?

    macOS:

    bash
    brew services start ollama
    

    Linux (systemd):

    bash
    sudo systemctl enable ollama
    sudo systemctl start ollama
    

    Q:DeepSeek-R1 和 DeepSeek-V3 有什么区别? A:

  • R1:推理专项模型,有 思考过程,适合数学/代码/逻辑问题
  • V3:通用旗舰模型,速度更快,适合写作/对话/日常任务
  • 编程场景推荐 R1,日常对话推荐 V3(ollama run deepseek-v3:8b)。

    相关工具

    DeepSeek-R1Cursorfilesystem