ChatGLM3-6B-128K部署教程：Ollama支持LoRA微调适配垂直领域

并非

841人浏览 · 2026-03-11 01:19:58

并非 · 2026-03-11 01:19:58 发布

ChatGLM3-6B-128K部署教程：Ollama支持LoRA微调适配垂直领域

想试试那个能一口气读完一本小说，还能跟你讨论剧情的AI吗？ChatGLM3-6B-128K就能做到。它最大的特点就是“能装”，上下文长度支持到惊人的128K，这意味着它能记住并理解超长的对话和文档。

今天，我们就来手把手教你，如何用Ollama这个轻量好用的工具，把ChatGLM3-6B-128K部署起来，并且让它变得更“专一”——通过LoRA微调，让它精通你的专业领域，比如法律、医疗或者金融。

1. 为什么选择ChatGLM3-6B-128K和Ollama？

在开始动手之前，我们先搞清楚两个问题：为什么要用这个模型？为什么要用Ollama来部署？

ChatGLM3-6B-128K强在哪？ 简单说，它是ChatGLM3-6B的“大内存”版本。普通版可能聊着聊着就忘了前面说过什么，而128K版本则像有个超强记性的朋友，能记住长达128K token的对话历史（约等于10万汉字）。这对于处理长文档摘要、多轮深度对话、代码库分析等场景来说，是质的飞跃。如果你的任务上下文经常超过8K，选它就对了。

Ollama好在哪里？ 你可以把Ollama想象成电脑上的“App Store”，但里面装的是各种AI模型。它把复杂的模型下载、环境配置、服务启动都打包成了一两条简单的命令，对新手极其友好。更重要的是，它原生支持模型的微调和管理，这为我们后面用LoRA定制模型铺平了道路。

LoRA微调又是什么？ 全称是Low-Rank Adaptation，一种高效的微调技术。传统微调好比让模型“重新上学”，需要动它所有的参数，耗时耗力。LoRA则像给模型戴上一个“专业眼镜”，只训练新增的一小部分参数，就能让模型快速掌握新知识（如法律条文、医学病例），速度快、资源省，效果还很好。

2. 环境准备与Ollama安装

部署的第一步，是准备好你的“工作台”。整个过程在Linux系统（如Ubuntu 22.04）或macOS上会最为顺畅，Windows用户可以通过WSL2获得类似的体验。

2.1 基础系统检查

确保你的机器满足以下最低要求，这是流畅运行模型的保障：

操作系统: Linux (推荐Ubuntu 20.04/22.04), macOS, 或 Windows with WSL2。
内存: 至少16GB RAM。运行128K长上下文时，模型本身和缓存会占用大量内存，16GB是起步，32GB或以上体验更佳。
存储: 至少20GB可用磁盘空间，用于存放模型文件和微调数据。
网络: 稳定的网络连接，用于从Ollama服务器拉取模型。

2.2 一键安装Ollama

Ollama的安装简单到不可思议。打开你的终端（命令行），执行对应你系统的安装命令即可。

对于Linux/macOS用户：

curl -fsSL https://ollama.ai/install.sh | sh

这条命令会自动下载安装脚本并执行。安装完成后，Ollama服务会自动在后台运行。

对于Windows用户（通过PowerShell）：

winget install Ollama.Ollama

安装后，你可以在开始菜单找到Ollama并运行它。

安装完成后，可以在终端输入 ollama --version 来验证是否安装成功。

3. 部署与运行ChatGLM3-6B-128K基础模型

模型安装好了，现在让我们把ChatGLM3-6B-128K这个“大脑”请进来。

3.1 拉取并运行模型

Ollama的模型库收录了众多社区贡献的模型。ChatGLM3-6B-128K的一个热门版本是由 entropy 维护的。在终端中执行以下命令：

ollama run entropy/chatglm3:128k

第一次运行时会自动从网上下载模型文件，文件大小约12GB，请耐心等待。下载完成后，会自动进入交互式对话界面。

3.2 进行首次对话测试

进入交互界面后，你会看到 >>> 提示符。直接输入你的问题即可。我们来测试一下它的长文本理解能力。你可以输入：

>>> 请总结一下《三国演义》中“赤壁之战”的主要经过、关键人物和结果。

看看它是否能基于对《三国演义》文本的理解，给出一个结构清晰的总结。你也可以尝试给它一段长的技术文档或你自己的文章，让它进行摘要。

3.3 使用Ollama的API服务

除了聊天界面，Ollama更强大的功能是提供了本地API，方便其他程序调用。首先，确保Ollama服务在运行，然后就可以通过HTTP请求与模型交互。

启动API服务（如果未自动运行）：

ollama serve

使用cURL进行简单的API测试：

curl http://localhost:11434/api/generate -d '{
  "model": "entropy/chatglm3:128k",
  "prompt": "用简单的语言解释一下什么是机器学习？",
  "stream": false
}'

这将返回一个JSON格式的响应，其中包含模型生成的答案。这个API可以轻松集成到你的Python脚本、网站后端或其他应用中。

4. 使用LoRA微调模型，打造专属专家

基础模型很强大，但要让它在你的垂直领域（比如“智能合同审查”或“医学文献问答”）表现出色，就需要进行微调。我们用LoRA方法，高效且节省资源。

4.1 准备微调数据集

微调的核心是“教材”。你需要准备一个JSON格式的数据集，每一条数据都是一个“问答对”或“指令-输出对”。

创建一个名为 finance_data.jsonl 的文件（例如，我们做一个金融问答微调），内容格式如下：

{"instruction": "什么是市盈率？", "output": "市盈率是公司股价与每股收益的比率，用于评估股票估值水平。"}
{"instruction": "请解释一下量化宽松政策。", "output": "量化宽松是一种非常规货币政策，中央银行通过购买国债等资产向市场注入大量流动性，以刺激经济和通胀。"}
{"instruction": "巴菲特的价值投资核心原则是什么？", "output": "核心原则包括：1. 将股票视为企业的一部分；2. 寻找具有强大护城河的公司；3. 在价格低于内在价值时买入；4. 长期持有。"}

数据集的质量决定了微调的效果。尽量收集干净、准确、多样化的领域数据，几百到几千条就能有显著效果。

4.2 使用Ollama进行LoRA微调

Ollama提供了内置的微调功能。我们需要创建一个 Modelfile 来定义微调配置。

创建一个名为 Modelfile.finetune 的文件，内容如下：

FROM entropy/chatglm3:128k

# 设置微调参数
PARAMETER lora_r 16
PARAMETER lora_alpha 32
PARAMETER num_epoch 3
PARAMETER learning_rate 1e-4

# 指定训练数据
TEMPLATE """{{ .Prompt }}"""
SYSTEM """你是一个专业的金融分析师，请用准确、专业的语言回答用户关于金融投资、市场概念的问题。"""

# 导入训练数据（确保路径正确）
TRAIN ./finance_data.jsonl

关键参数解释：

lora_r: LoRA的秩，影响微调参数的数量，值越大能力越强但可能过拟合，16是一个常用起点。
num_epoch: 训练轮数，通常3-5轮足够。
SYSTEM: 系统提示词，告诉模型在微调后应该扮演的角色。

4.3 执行微调命令

在包含 Modelfile.finetune 和 finance_data.jsonl 的目录下，运行：

ollama create my-finance-glm -f ./Modelfile.finetune

这个命令会：

以 entropy/chatglm3:128k 为基础模型。
使用你提供的金融数据，按照LoRA配置进行微调。
创建一个名为 my-finance-glm 的新模型。

微调过程需要一些时间，取决于数据量大小和你的电脑性能。完成后，你就可以像使用基础模型一样使用它了：

ollama run my-finance-glm

4.4 测试微调效果

现在，向你的专属金融模型提问：

>>> 请分析一下高市盈率股票的投资风险。

对比一下使用基础模型 entropy/chatglm3:128k 回答同一问题的结果。你应该能发现，微调后的模型回答更专业，术语使用更准确，更像一个金融专家在说话。

5. 实践技巧与常见问题

掌握了基本流程，下面这些技巧能让你的部署和微调过程更顺利。

5.1 提升推理速度与效率

使用GPU加速：如果你有NVIDIA显卡，确保已安装CUDA驱动。Ollama会自动利用GPU，大幅提升速度。运行 ollama ps 可以查看模型是否在使用GPU。
调整上下文长度：虽然模型支持128K，但实际使用时，根据需求通过API参数 num_ctx 设置合适的上下文窗口，可以节省内存。例如设置为 8192。
```
curl http://localhost:11434/api/generate -d '{
  "model": "my-finance-glm",
  "prompt": "你的问题",
  "options": {
    "num_ctx": 8192
  }
}'
```

5.2 微调过程中的注意事项

数据质量高于数量：1000条高质量数据的效果远胜于10000条噪声数据。确保指令清晰，输出答案准确、完整。
防止过拟合：如果训练几个轮次后，模型在训练数据上表现完美，但在新问题上胡言乱语，可能就是过拟合了。尝试减少 num_epoch（如从5降到3），或增加数据多样性。
从小的LoRA秩开始：如果不确定， lora_r 先从8或16开始尝试，如果效果不足再逐步上调至32或64。

5.3 模型管理与维护

列出所有模型：ollama list
删除模型：ollama rm my-finance-glm
复制模型：ollama cp entropy/chatglm3:128k my-backup-glm
查看模型信息：ollama show my-finance-glm

6. 总结

通过这篇教程，我们完成了一次从零到一的旅程：从在Ollama上轻松部署强大的长文本模型ChatGLM3-6B-128K，到使用LoRA技术为其注入垂直领域的专业知识，打造出一个专属的AI助手。

核心步骤回顾：

环境准备：检查系统资源，一键安装Ollama。
部署基础模型：用一行命令拉取并运行128K长上下文模型，并通过API进行调用。
LoRA微调定制：准备领域数据集，编写Modelfile，执行微调命令，生成专属模型。
效果验证与应用：测试微调前后对比，将模型集成到你的应用场景中。

这种组合的优势非常明显：Ollama提供了极简的部署和管理体验，而LoRA则让模型定制变得高效且平民化。你不再需要庞大的算力集群和深厚的机器学习背景，就能让一个通用的AI大模型，变成你业务场景中的专家。

无论是处理长篇幅的法律合同、分析复杂的学术论文，还是构建一个专业领域的智能客服，现在你都有了可行的技术路径。剩下的，就是发挥你的创意，用这个工具去解决实际问题了。

获取更多AI镜像

想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

https://edu.csdn.net/learn/39067/627173?utm_source=2019755004

汇聚全球AI编程工具，助力开发者即刻编程。

更多推荐

被骂了一年的Codex，怎么突然爆了？

Codex CLI、Claude Code等命令行工具，虽然也具备通过子Agent并行执行任务的能力，例如拆分代码搜索、实现不同模块或并发分析问题，但这些Agent更多是服务于一次任务执行过程中的“内部协作”，用户主要仍是在与一个Agent对话。而现在，Codex的资源投入正在不断提升，持续快速更新的产品、频繁重置的免费额度、以及OpenAI在超级碗比赛期间为Codex投放的60秒天价广告，在增长