【智绘博弈】多模态大模型调研与 API 选型

项目:智绘博弈 —— 人机对抗绘画猜词与心理解读系统
角色:AI 识别 & 心理解读模块负责人
日期:2026.3.30 - 2026.4.5


一、本周目标

作为团队中负责 AI 识别与心理分析模块的成员,我在项目启动阶段的首要任务是:

  1. 搞清楚「多模态大模型」到底是什么
  2. 调研国内可用的多模态 API,对比价格、效果、易用性
  3. 确定技术选型方案,为后续开发做准备

二、什么是多模态大模型?

在调研之前,我先花了点时间理解“多模态”这个概念。

传统的语言模型(如 GPT-3)只能处理文本,你给它一段话,它回你一段话。但多模态大模型不一样——它能同时理解文本 + 图像,甚至还有的能处理音频、视频。

对我们的项目来说,这意味着:

  • 玩家画了一幅画(图像)
  • AI 需要看懂这幅画,猜出画的是什么(图像理解 → 文本输出)

这正是多模态模型的典型应用场景。如果用传统方案,我们需要先用 CNN 提取图像特征,再用分类器猜词,整个流程很复杂。而多模态大模型可以“端到端”完成:直接把图片丢给它,它直接告诉你画的是什么

简单说:多模态 = 能看图说话的 AI


三、国内主流多模态 API 调研

由于网络原因,OpenAI 的 GPT-4V 和 Google 的 Gemini 对国内开发者不太友好。我们需要找国内可用、注册方便、有免费额度的平台。

经过一周的调研,我整理了三个主流选项:

1. 智谱 AI —— GLM-4V 系列

项目 内容
官网 https://open.bigmodel.cn
模型 GLM-4V-Flash(免费)/ GLM-4V-Plus(付费)
免费额度 新用户有免费 Token 额度
注册门槛 手机号注册即可,无需企业认证
SDK pip install zhipuai,官方 Python SDK

关于 GLM-5: 智谱在 2026 年 2 月发布了 GLM-5 系列,4 月初又发布了 GLM-5V-Turbo(多模态 Coding 基座模型),效果更强、支持深度推理。但目前GLM-4V 系列对我们的项目来说效果够用,性价比更高,后续可以考虑升级。(之后的千问百度同理)

优点

  • 试用额度多,对学生党太友好了
  • 中文理解能力强,简笔画识别能力够用
  • SDK 封装得很好,几行代码就能调用

缺点

  • Flash 版本效果比 Plus 差一些(但对简笔画识别够用)

2. 通义千问 VL(阿里云)

项目 内容
官网 https://dashscope.console.aliyun.com
模型 qwen-vl-plus / qwen-vl-max
免费额度 新用户有免费 Token 额度
注册门槛 需要阿里云账号 + 实名认证
SDK pip install openai(兼容 OpenAI 接口)

优点

  • qwen-vl-max 效果很好,可能是国内最强的多模态模型之一
  • 支持 OpenAI 兼容接口,代码迁移方便

缺点

  • 需要实名认证,流程稍麻烦
  • 免费额度用完后要付费

3. 文心一言(百度)

项目 内容
官网 https://cloud.baidu.com/product/wenxinworkshop
模型 ERNIE-4.0-Vision
免费额度 有限额
注册门槛 需要百度云账号 + 实名

优点

  • 品牌知名度高

缺点

  • 图像理解能力在三者中相对较弱(根据网上评测)
  • API 文档和 SDK 没有前两家友好

四、技术选型决策

综合考虑免费额度、注册难度、效果、SDK 易用性,我们的选型方案是:

主方案:智谱 GLM-4V-Flash(免费无限量)
备份方案:通义千问 VL-Plus(付费但效果好)

理由:

  1. 成本优先:项目初期我们先用个人试用额度进行开发测试,后续如果额度不够或需要部署上线,可以向学院申请提供 API 额度和云服务器支持。GLM-4V-Flash 的免费政策让我们前期零成本试错。
  2. 够用就好:我们的场景是识别简笔画,不需要理解复杂的照片,Flash 版本的能力足够
  3. 双保险:万一智谱的服务挂了(虽然概率很低),可以自动切换到通义千问

在代码层面,我们会实现一个自动降级机制

智谱 GLM-4V → 通义千问 VL → Mock 模式(离线测试用)

如果主 API 调用失败,自动尝试备用 API;如果都失败,用本地 Mock 数据兜底,保证游戏流程不中断。


五、API Key 的安全管理

一个容易被忽略的问题是:API Key 不能写死在代码里

如果把 Key 直接写在代码里然后提交到 Git 仓库,任何人都能看到。更危险的是,如果项目开源或者仓库被泄露,别人可以用你的 Key 白嫖额度甚至产生费用。

我们采用的方案是环境变量

python

# config.py
import os

ZHIPU_API_KEY = os.environ.get('ZHIPU_API_KEY', '')
DASHSCOPE_API_KEY = os.environ.get('DASHSCOPE_API_KEY', '')

然后在启动脚本里设置环境变量:

bash

# start.bat (Windows)
set ZHIPU_API_KEY=密钥
python app.py

这样 Key 不会出现在代码文件里,也不会被提交到 Git。


六、遇到的问题

问题 1:注册智谱时手机收不到验证码

解决:换了个时间段重试,可能是高峰期短信通道拥堵。

问题 2:不太理解 Base64 编码

调用多模态 API 时,图片需要转成 Base64 格式传输。一开始我不太明白为什么不能直接传图片 URL。

后来查资料理解了:

  • 如果传 URL,API 服务器需要去下载这张图片,增加延迟
  • 我们的图片是 Canvas 画布实时生成的,根本没有 URL
  • Base64 是把二进制数据编码成文本字符串,可以直接嵌入 JSON 请求

七、下周计划

  1. 完成智谱 SDK 的第一次调用:写一个最简单的 demo,传一张画进去,看 AI 返回什么
  2. 研究 Prompt 设计:怎么让 AI 按我们的格式返回结果(JSON 格式、包含猜测词和置信度)
  3. 开始设计三档难度的 Prompt 策略:easy / medium / hard

八、本周总结

这是项目的第一周,主要工作是技术调研和方案确定。虽然还没写正式代码,但我对接下来要做的事情有了清晰的认识:

  • 理解了多模态大模型的概念和应用场景
  • 调研对比了三个国内平台,确定了「智谱主力 + 通义备份」的方案
  • 学会了用环境变量管理敏感信息

下周开始正式写代码,期待第一次成功调用 API 的时刻!


(第一次写博客,没想到直接支持md格式哇,从typora过来都不用改格式,太方便了hhhh)

Logo

汇聚全球AI编程工具,助力开发者即刻编程。

更多推荐