Ollama：本地大模型部署完全指南：私有化LLM方案的完整教程

深度求索__001

459人浏览 · 2026-03-25 19:21:37

深度求索__001 · 2026-03-25 19:21:37 发布

Ollama：本地大模型部署完全指南：私有化LLM方案的完整教程

背景

大语言模型（LLM）的快速发展正在改变各行各业的工作方式。然而，将业务数据发送到第三方 API 存在隐私泄露风险，对于处理敏感数据的企业而言，本地部署大模型成为刚性需求。

Ollama 正是为解决本地大模型部署而生的开源工具。它简化了大模型的部署和运行流程，让开发者能够在本地设备上轻松运行各种开源大模型，如 Llama 2、Mistral、DeepSeek 等。本文将详细介绍 Ollama 的部署和配置方法，帮助读者快速搭建私有化的大模型服务。

一、项目概述

1.1 Ollama 简介

Ollama 是一款开源的大模型本地部署工具，GitHub Star 数超过 80K。它提供了简单的命令行界面来下载、运行和管理大模型，同时支持通过 API 调用模型。

Ollama 的核心特点：

简单易用：一行命令即可运行模型
模型库丰富：支持 Llama 2、Mistral、DeepSeek、Gemma 等
跨平台：支持 macOS、Windows、Linux
API 支持：提供 RESTful API 集成
GPU 加速：自动利用 GPU 加速推理
轻量高效：资源占用优化

1.2 支持的模型

Ollama 模型库涵盖多种类型的模型：

模型	参数量	适用场景
Llama 2	7B-70B	通用对话
Mistral	7B-8x22B	通用对话
DeepSeek	7B-67B	编程辅助
Gemma	2B-27B	轻量对话
Phi	2B-3B	轻量对话
Qwen	7B-72B	中文对话

二、安装部署

2.1 macOS 安装

2.1.1 Homebrew 安装

brew install ollama

2.1.2 手动安装

下载 macOS 安装包：https://ollama.com/download
双击安装包完成安装

2.2 Windows 安装

访问 Ollama 官网下载页面，下载 Windows 版本安装包：

下载 .exe 安装包
双击运行安装程序
安装完成后在终端中使用

2.3 Linux 安装

# 一键安装脚本
curl -fsSL https://ollama.com/install.sh | sh

2.4 Docker 运行

# 拉取镜像
docker pull ollama/ollama:latest

# 运行容器
docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama:latest

2.5 GPU 配置

Ollama 自动支持 NVIDIA GPU 加速，确保已安装：

NVIDIA 驱动
CUDA 工具包
cuDNN

验证 GPU 支持：

ollama show llama2

三、快速入门

3.1 运行第一个模型

下载并运行 Llama 2 7B 模型：

ollama run llama2

首次运行会自动下载模型，下载完成后即可开始对话。

3.2 基本操作

3.2.1 对话示例

>>> 你好，请介绍一下自己
你好！我是 Llama 2，一个由 Meta AI 开发的大语言模型。我可以帮你回答问题、
写文章、写代码等。有什么我可以帮你的吗？

3.2.2 退出对话

输入 /bye 或按 Ctrl+D 退出对话。

3.3 模型管理

3.3.1 查看已下载模型

ollama list

3.3.2 拉取模型

# 拉取指定模型
ollama pull mistral

# 拉取特定版本
ollama pull llama2:13b

3.3.3 删除模型

ollama rm llama2

四、API 使用

4.1 启动 API 服务

Ollama 默认在端口 11434 提供 RESTful API：

# 测试 API
curl http://localhost:11434/api/generate -d '{
  "model": "llama2",
  "prompt": "为什么天空是蓝色的？"
}'

4.2 Python 调用示例

安装 Python SDK：

pip install ollama

调用模型：

import ollama

response = ollama.generate(
    model='llama2',
    prompt='用 Python 写一个快速排序算法'
)

print(response['response'])

4.3 JavaScript 调用示例

安装 Node.js SDK：

npm install ollama

调用模型：

import Ollama from 'ollama';

const response = await Ollama.generate({
    model: 'llama2',
    prompt: '解释什么是 RESTful API'
});

console.log(response.response);

4.4 API 参数

参数	类型	说明
model	string	模型名称
prompt	string	输入提示
stream	boolean	是否流式输出
options	object	额外选项
context	array	对话上下文

五、高级配置

5.1 Modelfile 自定义模型

创建自定义模型配置：

# 创建 Modelfile
cat > Modelfile << 'EOF'
FROM llama2

PARAMETER temperature 0.7
PARAMETER top_p 0.9

SYSTEM """
你是一个专业的技术写作助手，用简洁清晰的语言解释技术概念。
"""
EOF

# 创建自定义模型
ollama create tech-writer -f Modelfile

# 运行自定义模型
ollama run tech-writer

5.2 参数调整

5.2.1 常用参数

参数	说明	范围
temperature	创造性控制	0-2
top_p	采样控制	0-1
num_ctx	上下文长度	-
num_gpu	GPU 数量	-
num_thread	CPU 线程	-

5.2.2 示例

ollama run llama2 --param temperature 0.5 --param num_ctx 4096

5.3 模型量化

量化模型以减少资源占用：

# 拉取量化版本
ollama pull llama2:13b-q4_0

# 创建自定义量化
ollama create custom-model -f Modelfile

六、WebUI 集成

6.1 Open WebUI

安装 Open WebUI 获取图形化界面：

# 使用 Docker 运行
docker run -d -p 3000:8080 \
  -v open-webui:/app/backend/data \
  -e OLLAMA_BASE_URL=http://localhost:11434 \
  --name open-webui \
  ghcr.io/open-webui/open-webui:main

访问 http://localhost:3000 开始使用。

6.2 Chatbot UI

另一个 WebUI 选择：

docker run -d -p 3000:3000 \
  -e VITE_API_BASE_URL=http://localhost:11434/api \
  --name chatbot-ui \
  ghcr.io/rickstaa/chatbot-ui:latest

七、应用场景

7.1 编程辅助

使用 DeepSeek 模型辅助编程：

ollama run deepseek-coder:6.7b

# 代码补全示例
response = ollama.generate(
    model='deepseek-coder:6.7b',
    prompt='写一个 Python 异步 HTTP 请求函数'
)

7.2 文档处理

搭建本地文档问答系统：

# 使用 qwen 模型处理中文
ollama run qwen:7b

7.3 私有知识库

结合向量数据库构建知识库：

Ollama 运行模型
Embedding 模型生成向量
向量数据库存储和检索
RAG 模式问答

八、性能优化

8.1 内存优化

模型内存需求参考：

模型	参数量	最低内存	推荐内存
Llama 2 7B	7B	8GB	16GB
Llama 2 13B	13B	16GB	24GB
Mistral 7B	7B	8GB	16GB

8.2 并发优化

调整并发数量：

# 设置并发请求数
export OLLAMA_MAX_LOADED_MODELS=2

8.3 GPU 利用率

监控 GPU 使用：

nvidia-smi

九、常见问题

9.1 安装问题

Q：Linux 安装失败

A：检查系统依赖：

sudo apt update
sudo apt install curl
curl -fsSL https://ollama.com/install.sh | sh

Q：GPU 不被识别

A：检查 NVIDIA 驱动和 CUDA：

nvidia-smi
nvcc --version

9.2 使用问题

Q：模型下载慢

A：使用代理或手动下载：

export HTTP_PROXY=http://proxy:port
export HTTPS_PROXY=http://proxy:port
ollama pull llama2

Q：内存不足

A：使用更小的量化模型：

ollama run llama2:7b-q4_0

十、总结

Ollama 作为本地大模型部署的利器，以其简单易用的设计和丰富的模型支持，为开发者和企业提供了便捷的私有化大模型解决方案。

通过本文的保姆级教程，读者应该已经掌握了：

安装部署：在各平台安装 Ollama
模型运行：下载和运行大模型
API 集成：通过 API 调用模型
高级配置：自定义模型和参数调优
WebUI：集成图形化界面
应用场景：编程辅助、文档处理、知识库

对于需要本地化部署大模型的开发者和企业，Ollama 是一个值得信赖的开源选择。

© 版权归无边界科技所有，版权所有。

https://edu.csdn.net/learn/39067/627173?utm_source=2019755004

汇聚全球AI编程工具，助力开发者即刻编程。

更多推荐

毕业即失业？不，2026学会这个AI工具，你的就业面直接拓宽3倍

Cursor CEO提出AI编程“第三时代”：云端智能体具备计算机使用能力，可自主规划、编码、调试、交付，35%的代码已由AI完成。描述需求之后，它自己读代码、生成测试、跑验证。大厂的招聘JD已经明确写了：“熟练使用各类AI编程工具（如GitHub Copilot、CodeGeeX、Cursor等），能借助AI工具提升代码开发效率、优化代码质量”。Claude Code运行在命令行里，你跟它说“为

AI编程社区

OpenCode 的核心设计：主 Agent 与子 Agent 的分层架构

它支持 75 种以上的模型提供商——Anthropic、OpenAI、Google Gemini、DeepSeek、本地部署的 Ollama 和 llama.cpp。你用谁的 API Key，就连谁的模型。但社区的反应比这两边都快。主 Agent 先派一个 Investigator 子 Agent 去调研项目结构——目录怎么组织的、用了什么框架、现有的认证方式是什么。主 Agent 出现在 Ope

AI编程社区

Dynamic Workflows 深度解析：Claude Code 为什么把多 Agent 编排写进可执行代码

过去不少开发者用 LangGraph，并非业务真的需要持久状态、节点级人工介入和长期运行，只是想做一个多步 agent，又没有现成的执行器。现在，如果任务主要发生在代码仓库、研究报告、审计、迁移这些开发者工作流里，让 Claude 直接写 workflow 往往更快。问题是，它仍然偏交互式协作。Workflow 模式里，十份结果先进脚本变量，脚本可以去重、过滤、校验，只把必要结论交回来。它像一个不

AI编程社区

所有评论(0)

查看更多评论

深度求索__001

@Java_superman822

已为社区贡献1条内容

Ollama：本地大模型部署完全指南：私有化LLM方案的完整教程

深度求索__001

Ollama：本地大模型部署完全指南：私有化LLM方案的完整教程

背景

一、项目概述

1.1 Ollama 简介

1.2 支持的模型

二、安装部署

2.1 macOS 安装

2.1.1 Homebrew 安装

2.1.2 手动安装

2.2 Windows 安装

2.3 Linux 安装

2.4 Docker 运行

2.5 GPU 配置

三、快速入门

3.1 运行第一个模型

3.2 基本操作

3.2.1 对话示例

3.2.2 退出对话

3.3 模型管理

3.3.1 查看已下载模型

3.3.2 拉取模型

3.3.3 删除模型

四、API 使用

4.1 启动 API 服务

4.2 Python 调用示例

4.3 JavaScript 调用示例

4.4 API 参数

五、高级配置

5.1 Modelfile 自定义模型

5.2 参数调整

5.2.1 常用参数

5.2.2 示例

5.3 模型量化

六、WebUI 集成

6.1 Open WebUI

6.2 Chatbot UI

七、应用场景

7.1 编程辅助

7.2 文档处理

7.3 私有知识库

八、性能优化

8.1 内存优化

8.2 并发优化

8.3 GPU 利用率

九、常见问题

9.1 安装问题

9.2 使用问题

十、总结

所有评论(0)

温馨提示：您尚未绑定手机号

深度求索__001