如何在老的mac pro 上跑 gemma-4-26B-A4B-it-UD-Q4_K_S.gguf 多模态，可以图像识别（纯cpu方式）

penghongyi

202人浏览 · 2026-04-10 16:30:28

penghongyi · 2026-04-10 16:30:28 发布

踏坑过程

1. 安装llama 的方法

由于我的mac pro 2013 版本很老了，很多安装方式都不兼容，最终考虑通过编译源代码的方式进行安装

https://github.com/ggml-org/llama.cpp/blob/master/docs/build.md

按照该方式

To get the Code:

git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp

CPU Build

Build llama.cpp using CMake: 这里有坑要把DGGML_METAL 参数强制关掉否则引导多模态模块时候会crash

cmake  -DGGML_METAL=OFF -B build    # 要把DGGML_METAL 参数强制关掉 否则引导多模态模块时候会crash 你如果是M 芯片的电脑 就不需要这个参数了
cmake --build build --config Release

编译完后：

/Users/mac/newllama/llama.cpp/build/bin/llama-server \
-m /Volumes/1T980pro/data/llm-model/gemma-4-26B-A4B-it-UD-Q4_K_S.gguf \
--jinja \
--reasoning-format none \
-ngl 0 -fa on -sm row \
--mmproj /Volumes/1T980pro/data/llm-model/gemma4-26B-A4B-mmproj-BF16.gguf \
--temp 0.6 \
-c 310960 \
--chat-template-kwargs '{"enable_thinking": false}' \
--host 0.0.0.0

注意：gemma4-26B-A4B-mmproj-BF16.gguf 这个就是配套的让gemma4-26B-A4B 能支持多模态的文件

跑起来后就可以访问 http://127.0.0.1:8080 来访问llama.cpp 的web 前端使用界面可以文本问问题也可以上传图片问问题了。

速度还可以，有10token每秒，养个小龙虾休闲够用了。

https://edu.csdn.net/learn/39067/627173?utm_source=2019755004

汇聚全球AI编程工具，助力开发者即刻编程。

更多推荐

爆改增强 Codex App，API 用户不再尴尬

用 API 跑 Codex 的人，最烦的往往不是模型不够强，而是桌面体验少一块。官方账号的插件、Goal、Computer Use 是完整的，你走 API 或第三方模型，胜在自由，但很多体验不一定都有。Codex++ 火起来，就是因为它盯上了这个缝。先别误会，因为 Codex App 本来就有官方插件、集成和 MCP。Codex++ 这个项目不是 OpenAI 官方功能，也不是官方插件商店。它是玩

AI编程社区

React Page组件化开发：掌握Facebook推荐的组件组织架构

React Page是Facebook官方推出的React应用开发框架，专为组件化开发而设计。这个强大的工具让您能够轻松构建服务器端渲染的React应用，实现快速页面加载和优秀的SEO效果。React Page组件化开发的核心思想是将整个页面视为可组合的组件，这正是Facebook推荐的现代化前端架构模式。## 为什么选择React Page组件化开发？ 🚀React Page提供了一个