踏坑过程

1. 安装llama 的方法

由于我的mac pro 2013 版本很老了 , 很多安装方式都不兼容, 最终考虑通过编译源代码的方式进行安装 

https://github.com/ggml-org/llama.cpp/blob/master/docs/build.md

按照该方式

To get the Code:

git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp

CPU Build

Build llama.cpp using CMake:  这里有坑 要把DGGML_METAL 参数强制关掉 否则引导多模态模块时候会crash

cmake  -DGGML_METAL=OFF -B build    # 要把DGGML_METAL 参数强制关掉 否则引导多模态模块时候会crash 你如果是M 芯片的电脑 就不需要这个参数了
cmake --build build --config Release

编译完后:

/Users/mac/newllama/llama.cpp/build/bin/llama-server \
-m /Volumes/1T980pro/data/llm-model/gemma-4-26B-A4B-it-UD-Q4_K_S.gguf \
--jinja \
--reasoning-format none \
-ngl 0 -fa on -sm row \
--mmproj /Volumes/1T980pro/data/llm-model/gemma4-26B-A4B-mmproj-BF16.gguf \
--temp 0.6 \
-c 310960 \
--chat-template-kwargs '{"enable_thinking": false}' \
--host 0.0.0.0 
 

注意:gemma4-26B-A4B-mmproj-BF16.gguf 这个就是配套的让gemma4-26B-A4B 能支持多模态的文件

跑起来后 就可以访问 http://127.0.0.1:8080 来访问llama.cpp  的web 前端 使用界面 可以文本问问题 也可以 上传图片问问题了。

速度还可以 , 有10token每秒, 养个小龙虾休闲够用了。

Logo

汇聚全球AI编程工具,助力开发者即刻编程。

更多推荐