从零实操 Spring AI 第 4 篇：接入 Ollama，本地也能跑模型

爱在阳光下

330人浏览 · 2026-06-03 10:00:00

爱在阳光下 · 2026-06-03 10:00:00 发布

远程模型很好用，但学习阶段总会遇到网络、成本、限流和 Key 管理问题。

所以我想加一个本地模型方案。

这一篇接入 Ollama。

答案先说

这一篇只做一件事：配置 Spring AI 调用 Ollama 本地模型。

读完并跟着做完后，项目会有一个明确的新增能力，而不是只停留在概念介绍。

上一篇做到哪了

第 3 篇我们完成了流式输出、系统提示词和结构化返回。

这篇会在上一节的基础上继续往前走。

这张图就是本篇的主线。先把流程看清楚，再进入代码会轻松很多。

核心概念

Ollama 可以让我们在本地运行大语言模型。

它不一定适合所有生产场景，但非常适合学习、验证、离线开发和频繁调试。

开始实操

1. 验证 Ollama

ollama --version

2. 拉取模型

ollama pull qwen2.5

3. 添加依赖

<dependency>
    <groupId>org.springframework.ai</groupId>
    <artifactId>spring-ai-starter-model-ollama</artifactId>
</dependency>

4. 添加配置

spring:
  ai:
    ollama:
      base-url: http://localhost:11434
      chat:
        options:
          model: qwen2.5

运行效果

这里后续补充本地模型调用结果。

踩坑记录

这里先列出本篇最可能遇到的问题，后面实操时再补充真实截图和日志。

Ollama 服务没有启动
模型名称和配置不一致
本地机器性能不足导致响应慢
OpenAI 和 Ollama 配置同时存在时，不清楚实际调用的是哪个模型

项目里怎么理解

本地模型最大的价值是降低试错成本。后面做 RAG、Prompt 调整和 Tool Calling 时，会有大量反复实验，本地环境能让学习节奏更顺。

本篇小结

这一篇完成的不是一个孤立知识点，而是让项目继续向最终的“企业知识库问答助手”靠近了一步。

下一篇预告

下一篇我们正式进入 RAG，先准备、读取并切分知识库文档。

https://edu.csdn.net/learn/39067/627173?utm_source=2019755004

汇聚全球AI编程工具，助力开发者即刻编程。

更多推荐

Gemini Spark 核心应用场景与落地实践指南

面对几十页的行业研报、法律合同或技术白皮书，快速抓取核心信息是一项必备技能。AI 摘要工具不仅仅是压缩字数，更是进行逻辑重组。它可以针对不同类型的文档采用不同的策略：对于会议纪要，重点提取“决议事项”和“待办任务”；对于学术论文，则聚焦“研究假设”、“实验方法”和“核心结论”。用户甚至可以采取对话式交互，直接询问：“这份合同中关于违约责任的条款是如何规定的？”AI 会直接定位到相关段落并给出通俗解

AI编程社区

Dynamic Workflows 深度解析：Claude Code 为什么把多 Agent 编排写进可执行代码

容易被误读成“多开几个 subagent”。这个理解太浅了。过去，复杂任务的拆分、等待、复核、返工，基本都压在主会话上下文里。模型一边看工具返回，一边改计划，一边记住哪些分支已经做过。任务小的时候，这种 ReAct 式循环很灵活；任务一大，主上下文很快变成一张堆满中间结果的临时白板，后面每一步都要先从这堆痕迹里找状态。Dynamic Workflows 做的事，是把这张临时白板改造成一段可以执行的

AI编程社区

从 Responses API 到 Chat Completions：一个模型网关的设计复盘

尤其是当客户端不只是普通聊天窗口，而是 Codex 这类 Agent 工具时，请求里会出现工具调用、结构化输出、流式响应、会话链、模型别名、usage 统计、错误恢复和可观测性要求。共享的策略，例如“当 provider 不支持 strict schema 时如何降级”“工具 ID 如何恢复”“Responses output item 如何重建”，不放在 provider 里。失败的时候，用户甚