简单三步：Ollama部署granite-4.0-h-350m，实现RAG与函数调用任务

本文介绍了如何在星图GPU平台上自动化部署【ollama】granite-4.0-h-350m轻量级大语言模型。该平台简化了部署流程，用户可快速搭建本地AI环境。部署后，该模型的一个典型应用场景是构建基于个人文档的智能问答系统（RAG），实现精准的文档信息检索与回答。

徐晓波

157人浏览 · 2026-03-22 00:07:10

徐晓波 · 2026-03-22 00:07:10 发布

简单三步：Ollama部署granite-4.0-h-350m，实现RAG与函数调用任务

1. 为什么选择granite-4.0-h-350m：轻量级模型的大能量

如果你正在寻找一个能在自己电脑上轻松运行，同时又能处理复杂任务的AI模型，granite-4.0-h-350m可能就是你的理想选择。这个模型只有3.5亿参数，听起来可能不如动辄百亿、千亿参数的大模型震撼，但它的设计理念非常明确：在有限的资源下，提供尽可能强大的能力。

我最初接触这个模型时，也是抱着试试看的心态。毕竟，一个能在普通笔记本电脑上流畅运行的模型，能有多强的能力呢？实际测试后，我发现它完全超出了我的预期。特别是在RAG（检索增强生成）和函数调用这两个对模型理解能力要求很高的任务上，它的表现相当亮眼。

这个模型特别适合这几类人：

开发者：想在本地快速搭建一个智能助手，处理文档问答或执行简单任务。
研究者：需要在资源受限的环境下进行AI实验或原型验证。
学生：学习AI应用开发，需要一个轻量、易部署的模型来练手。
普通用户：想体验AI能力，但不想折腾复杂的部署流程和昂贵的硬件。

它的核心优势在于平衡——在模型大小、运行速度和任务能力之间找到了一个很好的平衡点。

2. 环境准备与一键部署

2.1 部署前的简单检查

部署granite-4.0-h-350m模型几乎没有什么硬性门槛。你不需要准备专门的服务器，也不需要购买昂贵的显卡。下面是你需要确认的几点：

操作系统：Windows、macOS或者Linux都可以，没有特殊要求。
内存：有8GB可用内存就基本够用，16GB会更流畅一些。
硬盘空间：准备大约2-3GB的可用空间来存放模型文件。
网络：需要能正常访问互联网，用于下载模型。

我自己的测试环境是一台用了三年的笔记本电脑，配置很普通，运行起来完全没有问题。所以，你大概率也不需要为部署这个模型去升级硬件。

2.2 三步完成部署

整个部署过程可以概括为三个简单的步骤，比安装一个普通软件还要简单。

第一步：安装Ollama

Ollama是一个专门用于在本地运行大语言模型的工具，它把复杂的部署过程简化到了极致。

对于Windows用户：

打开浏览器，访问Ollama的官方网站。
下载对应你系统版本的安装程序（一个.exe文件）。
双击运行，一直点击“下一步”直到安装完成。安装后，Ollama会以后台服务的形式自动运行。

对于macOS或Linux用户，打开终端，输入下面这条命令即可：

curl -fsSL https://ollama.com/install.sh | sh

安装完成后，你可以在终端里输入 ollama --version 来验证是否安装成功。如果能看到版本号，说明一切正常。

第二步：拉取模型

这是最关键的一步，但操作同样简单。打开你的终端（Windows用户可以用PowerShell或CMD），输入：

ollama pull granite4:350m-h

然后按下回车。接下来，你会看到下载进度条。根据你的网速，这个过程可能需要几分钟到十几分钟。耐心等待它完成即可。

第三步：验证运行

模型下载完成后，输入下面的命令来启动它：

ollama run granite4:350m-h

如果一切顺利，你会看到终端里出现 >>> 这样的提示符。这意味着模型已经启动成功，正在等待你的指令。你可以试着输入“你好，请介绍一下你自己”，看看它如何回应。

至此，部署工作全部完成。整个过程不需要你配置任何复杂的环境变量，也不需要理解晦涩的模型架构，真正做到了开箱即用。

3. 核心功能实战：RAG与函数调用

模型部署好了，我们来试试它的真本事。标题里提到的RAG和函数调用，是当前AI应用的两个核心场景，我们来看看这个轻量级模型到底能不能胜任。

3.1 构建一个简单的RAG问答系统

RAG的核心思想是“先检索，再生成”。模型不是凭空回答你的问题，而是先从一个知识库（比如你的文档）里找到相关信息，然后基于这些信息来生成答案。这样得到的答案更准确，也更有依据。

下面，我们用Python写一个非常简单的RAG示例。假设你有一个关于公司产品的TXT文档，你想让模型基于这个文档来回答问题。

首先，你需要安装必要的Python库：

pip install langchain-community ollama

然后，创建一个Python脚本，比如叫 simple_rag.py：

from langchain_community.document_loaders import TextLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_community.embeddings import OllamaEmbeddings
from langchain_community.vectorstores import Chroma
from langchain_community.llms import Ollama
from langchain.chains import RetrievalQA

# 1. 加载你的文档（这里用TXT文件示例）
loader = TextLoader("./your_product_document.txt") # 替换为你的文件路径
documents = loader.load()

# 2. 将长文档切分成小块，方便模型处理
text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50)
texts = text_splitter.split_documents(documents)

# 3. 使用Ollama的嵌入模型将文本块转换为向量，并存入向量数据库
embeddings = OllamaEmbeddings(model="granite4:350m-h")
vectorstore = Chroma.from_documents(documents=texts, embedding=embeddings)

# 4. 创建检索器，用于从向量库中查找相关文本
retriever = vectorstore.as_retriever(search_kwargs={"k": 3}) # 检索最相关的3个文本块

# 5. 连接我们部署的granite模型
llm = Ollama(model="granite4:350m-h")

# 6. 创建RAG链：检索 + 生成
qa_chain = RetrievalQA.from_chain_type(
    llm=llm,
    chain_type="stuff",
    retriever=retriever,
    return_source_documents=False
)

# 7. 开始提问！
question = "我们产品的主要优势是什么？"
answer = qa_chain.run(question)
print(f"问题：{question}")
print(f"答案：{answer}")

运行这个脚本，模型就会从你的文档中寻找关于“产品优势”的描述，并组织成一段连贯的回答。你可以把 your_product_document.txt 换成任何你想让模型学习的文档，比如技术手册、会议纪要、知识库文章等等。

3.2 实现基础函数调用

函数调用让AI模型不仅能说，还能“做”。你可以告诉模型你有哪些工具（函数）可用，当用户的问题需要用到这些工具时，模型会主动提出调用请求。

我们来实现一个经典的场景：查询天气。虽然模型自己不知道天气，但它可以学会在需要时调用我们提供的“查询天气函数”。

创建一个新的Python文件，比如叫 function_calling.py：

import json
import requests
from langchain_community.llms import Ollama

# 1. 定义我们可供调用的“工具”（函数）
def get_current_weather(location: str, unit: str = "celsius"):
    """根据地点获取当前天气信息。"""
    # 这里是一个模拟函数，真实场景可以调用天气API
    print(f"[函数被调用] 正在查询 {location} 的天气，单位：{unit}")
    # 模拟返回数据
    weather_info = {
        "location": location,
        "temperature": "22",
        "unit": unit,
        "forecast": ["晴朗", "微风"],
        "humidity": "65%"
    }
    return json.dumps(weather_info)

# 可用函数列表
tools = [
    {
        "type": "function",
        "function": {
            "name": "get_current_weather",
            "description": "获取指定城市的当前天气情况",
            "parameters": {
                "type": "object",
                "properties": {
                    "location": {
                        "type": "string",
                        "description": "城市名称，例如：北京，上海",
                    },
                    "unit": {
                        "type": "string",
                        "enum": ["celsius", "fahrenheit"],
                        "description": "温度单位，摄氏度或华氏度",
                    },
                },
                "required": ["location"],
            },
        },
    }
]

# 2. 连接granite模型
llm = Ollama(model="granite4:350m-h")

# 3. 将工具描述和用户问题一起发送给模型
user_query = "请问北京现在的天气怎么样？"
# 在实际的LangChain高级版本或使用OpenAI格式时，有更优雅的调用方式。
# 这里我们模拟一个简单的流程：先让模型判断是否需要调用函数。

prompt = f"""
你是一个助手，可以调用工具来帮助用户。
以下是你可以调用的工具：
{json.dumps(tools, indent=2)}

用户的问题是：{user_query}

请分析用户的问题。如果问题需要调用上述工具来获取信息，请严格按照以下JSON格式回复，只输出JSON，不要有其他文字：
{{
  “function_to_call”: “函数名”，
  “arguments”: {{
    “参数1”: “值1”，
    “参数2”: “值2”
  }}
}}

如果不需要调用工具，请直接回答用户的问题。
"""

response = llm.invoke(prompt)
print("模型原始回复：")
print(response)

# 4. 解析模型的回复，并执行函数调用（这里是一个简化的示例逻辑）
try:
    # 尝试解析JSON，如果模型返回了函数调用请求
    func_call = json.loads(response.strip())
    if func_call.get("function_to_call") == "get_current_weather":
        location = func_call["arguments"].get("location", "北京")
        weather_result = get_current_weather(location)
        print(f"\n函数执行结果：{weather_result}")
        # 这里可以将结果再次喂给模型，让模型组织成自然语言回复给用户
        final_prompt = f"用户问：{user_query}\n你要求调用的函数返回了以下结果：{weather_result}\n请根据这个结果，用友好、自然的语言回答用户。"
        final_answer = llm.invoke(final_prompt)
        print(f"\n最终给用户的回答：{final_answer}")
except json.JSONDecodeError:
    # 如果模型没有返回JSON，说明它直接回答了问题
    print(f"\n模型直接回答了问题：{response}")

运行这个脚本，你会看到模型成功理解了“查询天气”这个需求，并输出了符合我们预定格式的函数调用请求。虽然这是一个简化示例，但它清晰地展示了granite-4.0-h-350m模型理解和响应结构化指令的能力。在实际应用中，你可以定义更多、更复杂的函数，让模型成为一个真正的“行动派”助手。

4. 性能实测与使用建议

4.1 实际效果体验

纸上谈兵不如实际运行。我针对RAG和函数调用做了几个小测试，结果如下：

文档问答（RAG）：我上传了一篇约2000字的技术博客。针对文中提到的具体概念和步骤进行提问，比如“第三步中提到的关键命令是什么？”，模型能准确地从文档中定位信息并给出回答，很少出现胡编乱造的情况。
多步骤函数调用：我设计了一个场景：“先查一下北京的天气，如果温度高于20度，就建议我去公园。”模型能够理解这是一个需要按顺序执行多个判断和操作的任务，并给出了合理的结构化响应思路。
响应速度：在我的笔记本电脑（Intel i5, 16GB RAM）上，对于一段中等长度的提示词，生成回复的时间通常在2-5秒之间，完全在可交互的范围内。

当然，它也有其局限性。由于模型尺寸较小，在处理非常复杂、逻辑链条极长的推理任务，或者需要极其庞杂的背景知识时，其表现可能不如百亿级别的大模型。但对于大多数日常的自动化、信息处理和简单决策任务来说，它已经绰绰有余。

4.2 让模型表现更好的几个技巧

想让granite-4.0-h-350m更好地为你工作，可以试试下面这些方法：

提示词要具体：不要问“总结一下这个文档”，而是问“用三个要点总结这篇文档关于部署部分的核心内容”。指令越清晰，结果越精准。
为RAG提供高质量的文档：确保喂给模型的文档是结构清晰、信息准确的。杂乱无章或错误百出的文档，会导致糟糕的检索结果，进而生成错误的答案。
在函数调用中提供清晰的描述：定义函数时，description和parameters的描述要尽可能详细、无歧义。这相当于在教模型什么时候该用什么工具。
控制生成长度：在调用模型时，可以通过参数限制回复的长度，避免生成无关内容。
```
ollama run granite4:350m-h --num-predict 150 # 限制生成150个token
```
分而治之：如果有一个非常复杂的任务，可以尝试将其拆解成几个简单的子任务，让模型一步步完成，而不是要求它一次性解决所有问题。