2013 款 intel mac pro (垃圾桶) 跑可用的LLM 大模型

众所周知, 老款的intel 的苹果电脑 想跑大模型 基本没戏 ,因为显卡的原因,基本不能被利用,所以只能考虑跑纯cpu 的方式来跑大模型

我的系统版本: macos Monterey 版本 12.6.6

目前塌过的坑:

1.  运行 ollama , 无法使用最新的安装版本 , 而如果想使用最新的QWEN 3.5 的新版本,这条路走不通

2. 安装 llama , 由于系统太老的原因 通过brew 的方式 安装 llama 结果报错 失败 ,最后只能通过clone 最新的llama 源码, 自己编译, 最终成功安装了 llama.cpp 

3. 跑 Qwen3.5-9B-Q4_K_M.gguf    原因 素质优秀。 够小 对内存要求不高, 关键是够快(相对)

启动的参数如下以供参考:

/Users/mac/llama/llama.cpp/build/bin/llama-server \
-m /Volumes/1T980pro/data/llm-model/Qwen3.5-9B-Q4_K_M.gguf \
--jinja \
--reasoning-format none \
-ngl 0 -fa on -sm row \
--temp 0.6 \
-c 210960 \
--chat-template-kwargs '{"enable_thinking": false}' \
--host 0.0.0.0 
 

启动后 可用 通过访问 http://127.0.0.1:8080   来gui 的方式,来提问和验证效果

目前显示 我的token 速度 是6 token每秒  勉强可用吧 嘿嘿

解释: 1. /Users/mac/llama/llama.cpp/build/bin/llama-server    这是编译完后的llama-server  的绝对路径

           2. /Volumes/1T980pro/data/llm-model/Qwen3.5-9B-Q4_K_M.gguf     你下载和保持大模型的路径

          3. --chat-template-kwargs '{"enable_thinking": false}'           关闭thinking 模式 原因是如果开启,半天吐不出几个字,这对于 小龙虾这种调用来说 是要等到骂人的 

         4. --host 0.0.0.0        对外提供服务  没有这个参数的话 默认是 127.0.0.1 的地址,我的小龙虾 是装在虚拟机的 所以 必须放开0.0.0.0 才能调用得到。

如果以上跑起来 通过 http://127.0.0.1:8080  跑起来没什么问题的话 ,那接下来 就可以考虑和 小龙虾的对接了 。

Logo

汇聚全球AI编程工具,助力开发者即刻编程。

更多推荐