如何在老的mac pro 上跑 gemma-4-26B-A4B-it-UD-Q4_K_S.gguf 多模态 ,可以图像识别 (纯cpu方式)
踏坑过程
1. 安装llama 的方法
由于我的mac pro 2013 版本很老了 , 很多安装方式都不兼容, 最终考虑通过编译源代码的方式进行安装
https://github.com/ggml-org/llama.cpp/blob/master/docs/build.md
按照该方式
To get the Code:
git clone https://github.com/ggml-org/llama.cpp cd llama.cpp
CPU Build
Build llama.cpp using CMake: 这里有坑 要把DGGML_METAL 参数强制关掉 否则引导多模态模块时候会crash
cmake -DGGML_METAL=OFF -B build # 要把DGGML_METAL 参数强制关掉 否则引导多模态模块时候会crash 你如果是M 芯片的电脑 就不需要这个参数了 cmake --build build --config Release
编译完后:
/Users/mac/newllama/llama.cpp/build/bin/llama-server \
-m /Volumes/1T980pro/data/llm-model/gemma-4-26B-A4B-it-UD-Q4_K_S.gguf \
--jinja \
--reasoning-format none \
-ngl 0 -fa on -sm row \
--mmproj /Volumes/1T980pro/data/llm-model/gemma4-26B-A4B-mmproj-BF16.gguf \
--temp 0.6 \
-c 310960 \
--chat-template-kwargs '{"enable_thinking": false}' \
--host 0.0.0.0
注意:gemma4-26B-A4B-mmproj-BF16.gguf 这个就是配套的让gemma4-26B-A4B 能支持多模态的文件
跑起来后 就可以访问 http://127.0.0.1:8080 来访问llama.cpp 的web 前端 使用界面 可以文本问问题 也可以 上传图片问问题了。
速度还可以 , 有10token每秒, 养个小龙虾休闲够用了。
更多推荐


所有评论(0)