Ollama 本地部署大模型 + Python Agent 自动化实战(附代码)
前言
在 AI 飞速发展的今天,依赖云端大模型 API 虽然方便,但面临着数据隐私泄露、断网无法使用、长期调用成本高等痛点。对于极客和企业开发者来说,在本地部署私有化大模型才是终极解法。
过去,本地部署往往意味着要在 CUDA 版本、PyTorch 依赖和复杂的 HuggingFace 环境中“浴血奋战”。但现在,Ollama 彻底改变了游戏规则——它就像是“大模型界的 Docker”,只需一行命令,就能在本地丝滑运行千亿参数的大模型。
本文将手把手教你如何使用 Ollama,并结合 Python 框架,在本地跑起属于你自己的 AI Agent。
一、 Ollama 极速安装与核心命令
Ollama 的底层采用了高并发的 C++ 编写,并利用 llama.cpp 实现了极其极致的硬件加速,无论是 N卡、A卡 还是 Mac 的 M 系列芯片,都能完美适配。
1. 下载与安装
直接前往 Ollama 官网 下载对应系统的安装包,一键无脑安装。安装完成后,在终端输入 ollama -v 检查版本,确认安装成功。
2. 核心命令速查(建议收藏)
掌握以下 4 个命令,你就能玩转 Ollama 的日常操作:
ollama pull <模型名>:预先下载模型到本地(不立刻运行)。ollama run <模型名>:运行模型,并进入交互式对话终端。ollama list:查看本地已安装的所有模型及占用大小。ollama rm <模型名>:删除模型,释放宝贵的硬盘空间。
二、 2026 中国顶尖开源模型推荐
既然是本地运行,选对模型至关重要。目前中文语境下,极其推荐以下两大派系的模型:
1. 通义千问(Qwen)系列 —— 综合与 Agent 首选
阿里开源的 Qwen 在指令遵循和工具调用(Tool Calling)上表现极其优异。
- 入门级(8G显存):
ollama pull qwen2.5:7b或qwen2.5-coder:7b - 进阶级(16G显存):
ollama pull qwen2.5:14b
2. 深度求索(DeepSeek-R1)系列 —— 极致逻辑推理
自带思维链(Chain-of-Thought),极其适合写代码和解数学题。
- 高性价比推理:
ollama pull deepseek-r1:6.7b - 高端满血版(24G+显存):
ollama pull deepseek-r1:32b
三、 高阶实战:通过 Python 接入本地 AI
Ollama 启动后,会在本地默认开启 http://localhost:11434 的 API 服务。这使得它可以完美无缝地接入各种编程语言。
首先,安装官方 Python 库:
pip install ollama
基础对话脚本:
以下是一个支持流式输出(Stream)的极简脚本,体验不输商业大模型网页端:
import ollama
def stream_chat():
print("正在连接本地 DeepSeek 模型...\n")
# 开启流式输出 stream=True
stream = ollama.chat(
model='deepseek-r1:8b',
messages=[{'role': 'user', 'content': '请用通俗的语言解释什么是量子纠缠?'}],
stream=True
)
print("AI: ", end="", flush=True)
for chunk in stream:
print(chunk['message']['content'], end='', flush=True)
print("\n")
if __name__ == "__main__":
stream_chat()
四、 终极玩法:结合 CrewAI 打造本地智能体
光聊天还不够,真正的生产力在于 AI Agent。我们可以利用本地 Ollama 模型作为“大脑”,结合 CrewAI 框架,让 AI 自己去查资料、写文章。
需额外安装依赖:pip install crewai langchain-ollama
from crewai import Agent, Task, Crew
from langchain_ollama import ChatOllama
# 1. 挂载本地 Ollama 模型
local_llm = ChatOllama(model="qwen2.5:7b", base_url="http://localhost:11434")
# 2. 定义角色(比如一个资深程序员)
coder = Agent(
role='高级 Python 工程师',
goal='编写极其优雅、带注释的 Python 代码',
backstory='你是一个有15年经验的架构师,讨厌冗余代码。',
llm=local_llm,
verbose=True
)
# 3. 分配任务
task = Task(
description='用 Python 写一个简单的贪吃蛇游戏逻辑。',
expected_output='包含完整注释的 Python 代码。',
agent=coder
)
# 4. 启动 Agent
crew = Crew(agents=[coder], tasks=[task])
result = crew.kickoff()
print("########## 最终产出 ##########")
print(result)
运行这段代码,你会看到终端里 AI 在自主思考和规划,最终在本地为你生成高质量的代码!完全免费,彻底离线!
总结
从繁琐的环境配置到一行命令跑通千亿大模型,Ollama 大幅降低了 AI 开发者的门槛。结合 Python 生态,我们在本地部署私人 AI 助理、构建 RAG(检索增强生成)知识库、开发多智能体系统,都已经变得触手可及。
快去试试你的显卡能跑起多强的 AI 吧!如果你在配置过程中遇到任何问题,欢迎在评论区留言探讨。
点赞关注不迷路,持续分享前沿 AI 技术实战!
更多推荐


所有评论(0)