Ollama+EmbeddingGemma-300M：零基础搭建个人知识库检索系统

泓三宝

80人浏览 · 2026-02-06 00:34:31

泓三宝 · 2026-02-06 00:34:31 发布

Ollama+EmbeddingGemma-300M：零基础搭建个人知识库检索系统

1. 为什么你需要一个真正属于自己的知识库？

你有没有过这样的经历：

收藏了上百篇技术文章，想找某段代码时翻遍浏览器历史却一无所获；
工作中积累的会议纪要、项目文档、客户反馈散落在不同文件夹，每次查找都要花十分钟；
想快速回顾某次学习笔记里的关键概念，却记不清关键词，只能全文扫描PDF。

这些不是效率问题，而是信息组织方式的根本缺陷。主流搜索引擎依赖云端索引，而你的本地资料——那些真正属于你的知识资产——始终处于“不可检索”状态。

今天要介绍的方案，不依赖任何云服务、不上传任何数据、不需要GPU服务器，只用一台普通笔记本电脑，就能在15分钟内搭建起一个完全离线、响应迅速、语义精准的个人知识库检索系统。核心就是两个轻量级工具：Ollama + EmbeddingGemma-300M。

它不是概念演示，而是可立即运行的工程实践。接下来，我会像教朋友一样，带你从零开始，一步步完成部署、文档嵌入、查询验证和实际使用。

2. 先搞懂这两个角色：Ollama 和 EmbeddingGemma-300M 是谁？

2.1 Ollama：你的本地AI模型管家

Ollama 不是一个模型，而是一个极简模型运行时环境。你可以把它理解成“Docker for AI models”——它帮你自动下载、管理、启动和调用各种开源大模型，无需配置Python环境、不用折腾CUDA驱动、不写一行服务代码。

它的特点是：

安装只需一条命令（macOS/Linux/Windows WSL均支持）；
所有模型以 ollama run xxx 方式一键启动；
内置REST API，任何程序都能通过HTTP调用；
完全离线运行，所有计算都在你本地完成。

2.2 EmbeddingGemma-300M：小巧但聪明的“语义翻译官”

EmbeddingGemma-300M 是谷歌DeepMind推出的轻量级文本嵌入模型，参数量仅3亿，但它不是“缩水版”，而是专为端侧场景深度优化的“精悍型选手”。

它干一件事：把一句话、一段文字，翻译成一串数字（比如768个浮点数），这串数字就叫“向量”。关键在于——语义越接近的句子，它们的向量在数学空间里就越靠近。

举个例子：

“如何给Python列表去重？” → 向量A
“Python中删除列表重复元素的方法” → 向量B
“Java ArrayList怎么去重？” → 向量C

向量A和B的距离会远小于A和C的距离。这就是语义检索的数学基础。

EmbeddingGemma-300M 的特别之处在于：

小体积：量化后仅约200MB，MacBook Air M1能轻松加载；
多语言：原生支持100多种口语语言，中英文混合查询无压力；
高精度：在标准评测MTEB上得分61.15，超过很多2倍参数的竞品；
真离线：不联网、不调用API、不传数据，你的PDF、Markdown、Word文档永远留在你硬盘里。

这不是“又一个embedding模型”，而是第一个让普通人能在自己电脑上，真正用得起、用得稳、用得准的语义检索引擎。

3. 零基础部署：三步完成本地服务启动

整个过程无需编程经验，只要你会复制粘贴命令、会打开浏览器即可。

3.1 第一步：安装Ollama（2分钟）

访问 https://ollama.com/download，根据你的操作系统下载安装包。

macOS：双击 .pkg 文件安装；
Windows：下载 .exe 并运行；

Linux：终端执行

curl -fsSL https://ollama.com/install.sh | sh

安装完成后，在终端输入：

ollama --version

如果看到类似 ollama version 0.4.5 的输出，说明安装成功。

3.2 第二步：拉取并运行 EmbeddingGemma-300M（1分钟）

在终端中执行：

ollama run embeddinggemma:300m

这是关键一步。Ollama 会自动：

从官方镜像仓库下载 embeddinggemma:300m 模型（约220MB）；
加载到内存；
启动一个本地HTTP服务，默认监听 http://localhost:11434；
输出类似 Running... 的提示后，服务即已就绪。

注意：首次运行需要下载模型，时间取决于网络。后续每次启动只需不到2秒。

3.3 第三步：验证服务是否正常工作（30秒）

打开浏览器，访问：
http://localhost:11434/api/tags

你应该看到一个JSON响应，其中包含：

{
  "models": [
    {
      "name": "embeddinggemma:300m",
      "model": "embeddinggemma:300m",
      "modified_at": "2025-04-05T10:22:34.123Z",
      "size": 224567890,
      "digest": "sha256:abc123...",
      "details": {
        "format": "gguf",
        "family": "gemma",
        "families": ["gemma"],
        "parameter_size": "300M",
        "quantization_level": "Q4_K_M"
      }
    }
  ]
}

只要看到这个JSON，说明EmbeddingGemma服务已在本地稳定运行。你已经拥有了一个随时待命的语义理解引擎。

4. 实战：用Python脚本把你的文档变成可检索的知识库

现在，我们来把你的本地文档（比如技术笔记、读书摘要、会议记录）全部“翻译”成向量，并存入一个轻量级向量数据库。全程使用纯Python，不依赖复杂框架。

4.1 准备工作：安装必要库

在终端中执行：

pip install requests numpy faiss-cpu python-dotenv

requests：调用Ollama API；
numpy：处理向量数组；
faiss-cpu：Facebook开源的高效向量检索库（CPU版，无需GPU）；
python-dotenv：安全管理配置（可选，但推荐）。

4.2 创建嵌入脚本：embed_docs.py

新建一个文件 embed_docs.py，内容如下：

# embed_docs.py
import os
import json
import requests
import numpy as np
import faiss
from pathlib import Path

# === 配置区（只需改这里）===
OLLAMA_URL = "http://localhost:11434/api/embeddings"
DOC_DIR = "./my_knowledge"  # ← 把你的文档放在这里！支持.txt .md .pdf（需额外处理）
INDEX_PATH = "./knowledge_index.faiss"
EMBEDDING_DIM = 768  # EmbeddingGemma-300M 默认输出维度

# === 文档加载函数（简化版，支持txt/md）===
def load_text_files(directory):
    texts = []
    for p in Path(directory).rglob("*"):
        if p.is_file() and p.suffix.lower() in ['.txt', '.md']:
            try:
                content = p.read_text(encoding='utf-8').strip()
                if len(content) > 50:  # 过滤太短的片段
                    texts.append({
                        "content": content[:2000],  # 截断防超长
                        "source": str(p.relative_to(directory))
                    })
            except Exception as e:
                print(f"跳过文件 {p}: {e}")
    return texts

# === 调用Ollama生成嵌入向量 ===
def get_embedding(text):
    payload = {
        "model": "embeddinggemma:300m",
        "prompt": text
    }
    try:
        r = requests.post(OLLAMA_URL, json=payload, timeout=30)
        r.raise_for_status()
        return r.json()["embedding"]
    except Exception as e:
        print(f"生成嵌入失败 '{text[:30]}...': {e}")
        return None

# === 主流程 ===
if __name__ == "__main__":
    print(" 正在加载文档...")
    docs = load_text_files(DOC_DIR)
    print(f" 加载 {len(docs)} 个有效文档片段")

    embeddings = []
    metadatas = []

    print("🧠 正在调用EmbeddingGemma生成向量（可能需要1-2分钟）...")
    for i, doc in enumerate(docs):
        emb = get_embedding(doc["content"])
        if emb is not None:
            embeddings.append(emb)
            metadatas.append(doc)
        if (i + 1) % 10 == 0:
            print(f"  已处理 {i+1}/{len(docs)}")

    if not embeddings:
        print(" 未生成任何嵌入向量，请检查Ollama服务是否运行")
        exit(1)

    # 构建FAISS索引
    print(" 正在构建向量索引...")
    embeddings_np = np.array(embeddings).astype('float32')
    index = faiss.IndexFlatIP(EMBEDDING_DIM)  # 内积相似度
    index.add(embeddings_np)

    # 保存索引和元数据
    faiss.write_index(index, INDEX_PATH)
    with open(INDEX_PATH.replace(".faiss", ".json"), "w", encoding="utf-8") as f:
        json.dump(metadatas, f, ensure_ascii=False, indent=2)

    print(f" 知识库构建完成！")
    print(f"   - 向量索引已保存至 {INDEX_PATH}")
    print(f"   - 文档元数据已保存至 {INDEX_PATH.replace('.faiss', '.json')}")

4.3 准备你的文档

在项目根目录下创建文件夹 my_knowledge，把你想检索的文档放进去，例如：

my_knowledge/
├── python_tips.md
├── rust_basics.txt
└── meeting_20250401.md

提示：目前脚本直接读取 .txt 和 .md 文件。如需支持PDF，可后续加入 pypdf 库解析（本文聚焦零基础，暂不展开）。

4.4 运行脚本，生成知识库

在终端中执行：

python embed_docs.py

你会看到类似输出：

 正在加载文档...
 加载 12 个有效文档片段
🧠 正在调用EmbeddingGemma生成向量（可能需要1-2分钟）...
  已处理 10/12
  已处理 12/12
 正在构建向量索引...
 知识库构建完成！
   - 向量索引已保存至 ./knowledge_index.faiss
   - 文档元数据已保存至 ./knowledge_index.json

此时，你的个人知识库已完成“数字化”——所有文字已被转换为数学向量，并建立好高速检索结构。

5. 查询：像搜索Google一样检索你的本地知识

现在，我们写一个简单的查询脚本 search.py，让你能随时提问、即时获得最相关的原文片段。

# search.py
import json
import numpy as np
import faiss
import requests

OLLAMA_URL = "http://localhost:11434/api/embeddings"
INDEX_PATH = "./knowledge_index.faiss"
METADATA_PATH = "./knowledge_index.json"

def get_query_embedding(query):
    payload = {"model": "embeddinggemma:300m", "prompt": query}
    r = requests.post(OLLAMA_URL, json=payload)
    return r.json()["embedding"]

def search(query, top_k=3):
    # 加载索引和元数据
    index = faiss.read_index(INDEX_PATH)
    with open(METADATA_PATH, "r", encoding="utf-8") as f:
        metadatas = json.load(f)

    # 获取查询向量
    query_vec = np.array([get_query_embedding(query)]).astype('float32')

    # 检索
    scores, indices = index.search(query_vec, top_k)

    # 输出结果
    print(f"\n❓ 查询：'{query}'\n")
    for i, (idx, score) in enumerate(zip(indices[0], scores[0])):
        doc = metadatas[idx]
        print(f"{i+1}. 【{doc['source']}】（相似度：{score:.3f}）")
        print(f"   {doc['content'][:120]}...")
        print()

if __name__ == "__main__":
    # 示例查询（可替换为你自己的问题）
    search("Python中如何用一行代码去重列表？")

运行它：

python search.py

你将看到类似输出：

❓ 查询：'Python中如何用一行代码去重列表？'

1. 【python_tips.md】（相似度：0.824）
   Python中去除列表重复元素的常用方法：list(set(my_list))，但会丢失原始顺序；保持顺序可用 dict.fromkeys(my_list)...

2. 【rust_basics.txt】（相似度：0.512）
   Rust中Vec没有内置去重方法，需配合HashSet实现：let unique: Vec<_> = list.into_iter().collect::<HashSet<_>>().into_iter().collect();

3. 【meeting_20250401.md】（相似度：0.487）
   讨论Python性能优化：提到set去重比循环快3倍，但注意内存占用...

这就是你的个人知识库——它理解“去重”“列表”“Python”之间的语义关联，而不是机械匹配关键词。

6. 进阶技巧：让检索更准、更快、更实用

6.1 提升准确率：加一点“任务提示词”

EmbeddingGemma对提示词敏感。在查询时，加上任务类型前缀，效果显著提升：

场景	推荐提示格式	效果
搜索问题	`"task: search query	query: {你的问题}"`
查找定义	`"task: definition	query: {术语}"`
匹配代码	`"task: code snippet	query: {功能描述}"`

修改 search.py 中的 get_query_embedding：

def get_query_embedding(query):
    prompt = f"task: search query | query: {query}"
    payload = {"model": "embeddinggemma:300m", "prompt": prompt}
    r = requests.post(OLLAMA_URL, json=payload)
    return r.json()["embedding"]

6.2 加速检索：启用FAISS的IVF索引（万级文档必备）

如果你的文档超过5000段，建议升级索引类型。在 embed_docs.py 中替换索引创建部分：

# 替换原来的 IndexFlatIP
quantizer = faiss.IndexFlatIP(EMBEDDING_DIM)
index = faiss.IndexIVFFlat(quantizer, EMBEDDING_DIM, 100)  # 100个聚类中心
index.train(embeddings_np)  # 训练聚类
index.add(embeddings_np)

这样，10万向量的检索耗时仍可控制在20ms内。

6.3 Web界面：3分钟拥有图形化搜索页

不想总敲命令？用Flask搭个极简前端（5行HTML + 10行Python）：

# app.py
from flask import Flask, request, render_template_string
import subprocess
import sys

app = Flask(__name__)

HTML = """
<!DOCTYPE html>
<html>
<head><title>我的知识库</title><style>body{font:16px sans-serif;padding:2rem;max-width:800px;margin:0 auto;}</style></head>
<body>
<h1> 我的知识库</h1>
<form method="post">
  <input type="text" name="q" size="60" placeholder="输入问题，比如：Rust怎么处理错误？" required>
  <button type="submit">搜索</button>
</form>
{% if results %}
  <h2>结果：</h2>
  {% for r in results %}
    <div style="margin:1rem 0; padding:1rem; border-left:3px solid #4CAF50;"><strong>{{ r.source }}</strong><br>{{ r.text[:150] }}...</div>
  {% endfor %}
{% endif %}
</body>
</html>
"""

@app.route("/", methods=["GET", "POST"])
def home():
    results = []
    if request.method == "POST":
        q = request.form["q"]
        # 调用search.py并捕获输出（生产环境建议重构为函数调用）
        result = subprocess.run([sys.executable, "search.py", q], 
                              capture_output=True, text=True)
        # 此处应解析result.stdout，为简洁起见，此处略——实际项目中建议将search逻辑封装为模块
    return render_template_string(HTML, results=results)

if __name__ == "__main__":
    app.run(debug=True, port=5001)

运行 flask --app app run --port 5001，访问 http://localhost:5001 即可图形化搜索。

7. 总结：你刚刚完成了什么？

7.1 回顾核心成果

你已经亲手搭建了一个真正属于你、完全可控、开箱即用的个人知识库系统，它具备：

100%离线运行：所有数据保留在本地，无隐私泄露风险；
零GPU依赖：MacBook Air、ThinkPad X1 Carbon等轻薄本均可流畅运行；
语义级检索：不再依赖关键词匹配，能理解“去重”“deduplicate”“remove duplicates”是同一概念；
开箱即用：从安装到首次查询，全程不超过20分钟；
持续进化：新增文档只需重新运行 embed_docs.py，索引自动更新。

7.2 下一步你可以做什么？

将知识库接入Obsidian或Logseq插件，实现笔记内实时语义跳转；
为PDF文档添加解析逻辑（用pypdf提取文本），把整本技术书变成可检索资源；
结合Ollama的Gemma-2B模型，构建“检索+生成”一体化助手：先找相关段落，再让大模型总结回答；
部署到树莓派或NAS，打造家庭级私有知识中枢。

这不是一个终点，而是一个起点。当你第一次输入“Python装饰器怎么用”，瞬间看到自己三个月前写的那篇笔记时，你会明白：真正的知识自由，始于你对自己信息的绝对掌控。

获取更多AI镜像

想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

https://edu.csdn.net/learn/39067/627173?utm_source=2019755004

汇聚全球AI编程工具，助力开发者即刻编程。

更多推荐

Obsidian + Claude Code + 微信AI，我把这三个系统缝进了一个软件

另外以 deepseek 为代表的国产大模型能力也慢慢跟上了， molio 内置了一键快速安装 claude code , 配置 deepseek api ，保存就可以用了。Molio 的界面我砍了好几版，留下的都是我自己天天在用的东西。微信的协议不像开放 API 那么规整，调试到凌晨三点的时候我甚至怀疑过自己为什么要折腾。扫码连接个人微信，之后你在手机上给助手发消息，它就能检索你本地知识库里的内

AI编程社区

Function Call

本文深入解析了LLM（大语言模型）中Function Call的工作原理与实现机制。核心观点是：LLM本身不执行函数，仅输出结构化JSON指令，由外部代码实际执行。文章对比了新旧两套协议格式（旧版functions字段与新版tools API），分析了OpenAI、Anthropic Claude和Google Gemini等主流平台的实现差异，并提及新兴的MCP标准化协议趋势。作者强调新版too