2013 款 intel mac pro （垃圾桶）跑可用的LLM 大模型

penghongyi

130人浏览 · 2026-04-02 17:24:38

penghongyi · 2026-04-02 17:24:38 发布

众所周知，老款的intel 的苹果电脑想跑大模型基本没戏，因为显卡的原因，基本不能被利用，所以只能考虑跑纯cpu 的方式来跑大模型

我的系统版本： macos Monterey 版本 12.6.6

目前塌过的坑：

1. 运行 ollama ，无法使用最新的安装版本，而如果想使用最新的QWEN 3.5 的新版本，这条路走不通

2. 安装 llama ，由于系统太老的原因通过brew 的方式安装 llama 结果报错失败，最后只能通过clone 最新的llama 源码，自己编译，最终成功安装了 llama.cpp

3. 跑 Qwen3.5-9B-Q4_K_M.gguf 原因素质优秀。够小对内存要求不高，关键是够快（相对）

启动的参数如下以供参考：

/Users/mac/llama/llama.cpp/build/bin/llama-server \
-m /Volumes/1T980pro/data/llm-model/Qwen3.5-9B-Q4_K_M.gguf \
--jinja \
--reasoning-format none \
-ngl 0 -fa on -sm row \
--temp 0.6 \
-c 210960 \
--chat-template-kwargs '{"enable_thinking": false}' \
--host 0.0.0.0

启动后可用通过访问 http://127.0.0.1:8080 来gui 的方式，来提问和验证效果

目前显示我的token 速度是6 token每秒勉强可用吧嘿嘿

解释： 1. /Users/mac/llama/llama.cpp/build/bin/llama-server 这是编译完后的llama-server 的绝对路径

2. /Volumes/1T980pro/data/llm-model/Qwen3.5-9B-Q4_K_M.gguf 你下载和保持大模型的路径

3. --chat-template-kwargs '{"enable_thinking": false}' 关闭thinking 模式原因是如果开启，半天吐不出几个字，这对于小龙虾这种调用来说是要等到骂人的

4. --host 0.0.0.0 对外提供服务没有这个参数的话默认是 127.0.0.1 的地址，我的小龙虾是装在虚拟机的所以必须放开0.0.0.0 才能调用得到。

如果以上跑起来通过 http://127.0.0.1:8080 跑起来没什么问题的话，那接下来就可以考虑和小龙虾的对接了。

https://edu.csdn.net/learn/39067/627173?utm_source=2019755004

汇聚全球AI编程工具，助力开发者即刻编程。

更多推荐

爆改增强 Codex App，API 用户不再尴尬

用 API 跑 Codex 的人，最烦的往往不是模型不够强，而是桌面体验少一块。官方账号的插件、Goal、Computer Use 是完整的，你走 API 或第三方模型，胜在自由，但很多体验不一定都有。Codex++ 火起来，就是因为它盯上了这个缝。先别误会，因为 Codex App 本来就有官方插件、集成和 MCP。Codex++ 这个项目不是 OpenAI 官方功能，也不是官方插件商店。它是玩

AI编程社区

React Page组件化开发：掌握Facebook推荐的组件组织架构

React Page是Facebook官方推出的React应用开发框架，专为组件化开发而设计。这个强大的工具让您能够轻松构建服务器端渲染的React应用，实现快速页面加载和优秀的SEO效果。React Page组件化开发的核心思想是将整个页面视为可组合的组件，这正是Facebook推荐的现代化前端架构模式。## 为什么选择React Page组件化开发？ 🚀React Page提供了一个