2013 款 intel mac pro (垃圾桶) 跑可用的LLM 大模型
2013 款 intel mac pro (垃圾桶) 跑可用的LLM 大模型
众所周知, 老款的intel 的苹果电脑 想跑大模型 基本没戏 ,因为显卡的原因,基本不能被利用,所以只能考虑跑纯cpu 的方式来跑大模型
我的系统版本: macos Monterey 版本 12.6.6
目前塌过的坑:
1. 运行 ollama , 无法使用最新的安装版本 , 而如果想使用最新的QWEN 3.5 的新版本,这条路走不通
2. 安装 llama , 由于系统太老的原因 通过brew 的方式 安装 llama 结果报错 失败 ,最后只能通过clone 最新的llama 源码, 自己编译, 最终成功安装了 llama.cpp
3. 跑 Qwen3.5-9B-Q4_K_M.gguf 原因 素质优秀。 够小 对内存要求不高, 关键是够快(相对)
启动的参数如下以供参考:
/Users/mac/llama/llama.cpp/build/bin/llama-server \
-m /Volumes/1T980pro/data/llm-model/Qwen3.5-9B-Q4_K_M.gguf \
--jinja \
--reasoning-format none \
-ngl 0 -fa on -sm row \
--temp 0.6 \
-c 210960 \
--chat-template-kwargs '{"enable_thinking": false}' \
--host 0.0.0.0
启动后 可用 通过访问 http://127.0.0.1:8080 来gui 的方式,来提问和验证效果
目前显示 我的token 速度 是6 token每秒 勉强可用吧 嘿嘿
解释: 1. /Users/mac/llama/llama.cpp/build/bin/llama-server 这是编译完后的llama-server 的绝对路径
2. /Volumes/1T980pro/data/llm-model/Qwen3.5-9B-Q4_K_M.gguf 你下载和保持大模型的路径
3. --chat-template-kwargs '{"enable_thinking": false}' 关闭thinking 模式 原因是如果开启,半天吐不出几个字,这对于 小龙虾这种调用来说 是要等到骂人的
4. --host 0.0.0.0 对外提供服务 没有这个参数的话 默认是 127.0.0.1 的地址,我的小龙虾 是装在虚拟机的 所以 必须放开0.0.0.0 才能调用得到。
如果以上跑起来 通过 http://127.0.0.1:8080 跑起来没什么问题的话 ,那接下来 就可以考虑和 小龙虾的对接了 。
更多推荐


所有评论(0)