2026山东大学软件学院创新项目实训博客(一)

晓晓kk

618人浏览 · 2026-04-04 23:50:31

晓晓kk · 2026-04-04 23:50:31 发布

【智绘博弈】多模态大模型调研与 API 选型

项目：智绘博弈 —— 人机对抗绘画猜词与心理解读系统
角色：AI 识别 & 心理解读模块负责人
日期：2026.3.30 - 2026.4.5

一、本周目标

作为团队中负责 AI 识别与心理分析模块的成员，我在项目启动阶段的首要任务是：

搞清楚「多模态大模型」到底是什么
调研国内可用的多模态 API，对比价格、效果、易用性
确定技术选型方案，为后续开发做准备

二、什么是多模态大模型？

在调研之前，我先花了点时间理解“多模态”这个概念。

传统的语言模型（如 GPT-3）只能处理文本，你给它一段话，它回你一段话。但多模态大模型不一样——它能同时理解文本 + 图像，甚至还有的能处理音频、视频。

对我们的项目来说，这意味着：

玩家画了一幅画（图像）
AI 需要看懂这幅画，猜出画的是什么（图像理解 → 文本输出）

这正是多模态模型的典型应用场景。如果用传统方案，我们需要先用 CNN 提取图像特征，再用分类器猜词，整个流程很复杂。而多模态大模型可以“端到端”完成：直接把图片丢给它，它直接告诉你画的是什么。

简单说：多模态 = 能看图说话的 AI。

三、国内主流多模态 API 调研

由于网络原因，OpenAI 的 GPT-4V 和 Google 的 Gemini 对国内开发者不太友好。我们需要找国内可用、注册方便、有免费额度的平台。

经过一周的调研，我整理了三个主流选项：

1. 智谱 AI —— GLM-4V 系列

项目	内容
官网	https://open.bigmodel.cn
模型	GLM-4V-Flash（免费）/ GLM-4V-Plus（付费）
免费额度	新用户有免费 Token 额度
注册门槛	手机号注册即可，无需企业认证
SDK	`pip install zhipuai`，官方 Python SDK

关于 GLM-5：智谱在 2026 年 2 月发布了 GLM-5 系列，4 月初又发布了 GLM-5V-Turbo（多模态 Coding 基座模型），效果更强、支持深度推理。但目前GLM-4V 系列对我们的项目来说效果够用，性价比更高，后续可以考虑升级。（之后的千问百度同理）

优点：

试用额度多，对学生党太友好了
中文理解能力强，简笔画识别能力够用
SDK 封装得很好，几行代码就能调用

缺点：

Flash 版本效果比 Plus 差一些（但对简笔画识别够用）

2. 通义千问 VL（阿里云）

项目	内容
官网	https://dashscope.console.aliyun.com
模型	qwen-vl-plus / qwen-vl-max
免费额度	新用户有免费 Token 额度
注册门槛	需要阿里云账号 + 实名认证
SDK	`pip install openai`（兼容 OpenAI 接口）

优点：

qwen-vl-max 效果很好，可能是国内最强的多模态模型之一
支持 OpenAI 兼容接口，代码迁移方便

缺点：

需要实名认证，流程稍麻烦
免费额度用完后要付费

3. 文心一言（百度）

项目	内容
官网	https://cloud.baidu.com/product/wenxinworkshop
模型	ERNIE-4.0-Vision
免费额度	有限额
注册门槛	需要百度云账号 + 实名

优点：

品牌知名度高

缺点：

图像理解能力在三者中相对较弱（根据网上评测）
API 文档和 SDK 没有前两家友好

四、技术选型决策

综合考虑免费额度、注册难度、效果、SDK 易用性，我们的选型方案是：

主方案：智谱 GLM-4V-Flash（免费无限量）
备份方案：通义千问 VL-Plus（付费但效果好）

理由：

成本优先：项目初期我们先用个人试用额度进行开发测试，后续如果额度不够或需要部署上线，可以向学院申请提供 API 额度和云服务器支持。GLM-4V-Flash 的免费政策让我们前期零成本试错。
够用就好：我们的场景是识别简笔画，不需要理解复杂的照片，Flash 版本的能力足够
双保险：万一智谱的服务挂了（虽然概率很低），可以自动切换到通义千问

在代码层面，我们会实现一个自动降级机制：

智谱 GLM-4V → 通义千问 VL → Mock 模式（离线测试用）

如果主 API 调用失败，自动尝试备用 API；如果都失败，用本地 Mock 数据兜底，保证游戏流程不中断。

五、API Key 的安全管理

一个容易被忽略的问题是：API Key 不能写死在代码里。

如果把 Key 直接写在代码里然后提交到 Git 仓库，任何人都能看到。更危险的是，如果项目开源或者仓库被泄露，别人可以用你的 Key 白嫖额度甚至产生费用。

我们采用的方案是环境变量：

python

# config.py
import os

ZHIPU_API_KEY = os.environ.get('ZHIPU_API_KEY', '')
DASHSCOPE_API_KEY = os.environ.get('DASHSCOPE_API_KEY', '')

然后在启动脚本里设置环境变量：

bash

# start.bat (Windows)
set ZHIPU_API_KEY=密钥
python app.py

这样 Key 不会出现在代码文件里，也不会被提交到 Git。

六、遇到的问题

问题 1：注册智谱时手机收不到验证码

解决：换了个时间段重试，可能是高峰期短信通道拥堵。

问题 2：不太理解 Base64 编码

调用多模态 API 时，图片需要转成 Base64 格式传输。一开始我不太明白为什么不能直接传图片 URL。

后来查资料理解了：

如果传 URL，API 服务器需要去下载这张图片，增加延迟
我们的图片是 Canvas 画布实时生成的，根本没有 URL
Base64 是把二进制数据编码成文本字符串，可以直接嵌入 JSON 请求

七、下周计划

完成智谱 SDK 的第一次调用：写一个最简单的 demo，传一张画进去，看 AI 返回什么
研究 Prompt 设计：怎么让 AI 按我们的格式返回结果（JSON 格式、包含猜测词和置信度）
开始设计三档难度的 Prompt 策略：easy / medium / hard

八、本周总结

这是项目的第一周，主要工作是技术调研和方案确定。虽然还没写正式代码，但我对接下来要做的事情有了清晰的认识：

理解了多模态大模型的概念和应用场景
调研对比了三个国内平台，确定了「智谱主力 + 通义备份」的方案
学会了用环境变量管理敏感信息

下周开始正式写代码，期待第一次成功调用 API 的时刻！

（第一次写博客，没想到直接支持md格式哇，从typora过来都不用改格式，太方便了hhhh）

https://edu.csdn.net/learn/39067/627173?utm_source=2019755004

汇聚全球AI编程工具，助力开发者即刻编程。

更多推荐

2026 国内开发者高效调用 Claude 指南：API 聚合方案解析

针对国内技术团队和开发者而言，2026 年调用 Anthropic 旗下的 Claude 模型，尤其是集成到 Claude Code 等端到端编程工具时，往往会深陷账号封禁、跨境支付受阻及网络质量低下的泥潭。在这种背景下，选择一个合规且技术过硬的成为了效率最高的路径。作为该领域的领军者，不仅整合了包括 Claude Opus 4.8、GPT-5.5 以及 Gemini 3.5 系列在内的近 500

AI编程社区

2026 年国内 Claude 调用复盘：API 聚合平台为何成为企业开发者首选？

在对 2026 年国内大模型应用环境进行深度梳理后，我们发现了一个显著趋势：曾经依靠“特殊网络”或个人海外账号驱动的 Claude 使用模式已基本失效。对于追求效率与合规的开发团队而言，转向 API 聚合平台不再是备选项，而是维持生产力的必然途径。在解决 Claude 国内调用难题上表现尤为突出。

AI编程社区

ChatGPT Plus 官网 20 美元/月，为什么有些渠道能低到 110？

110、120 元的低价方案，并不是一定不能选。它适合短期体验，适合对稳定性要求不高的人。但如果你已经把 ChatGPT Plus 当成日常工具，或者是为了 Codex 开通，那么更应该关心：能不能稳定用能不能续费出问题有没有处理办法价格是否符合基本成本逻辑便宜是优点，但稳定也是成本。尤其是对长期使用的人来说，省下几十块不一定比省下折腾时间更重要。